pd.read_parquet 详细使用说明

张开发

• 2026/4/17 7:24:17 • 15 分钟阅读

分享文章

pd.read_parquet 详细使用说明pd.read_parquet是 pandas 中用于读取 Parquet 格式文件的函数。Parquet 是一种列式存储格式在大数据场景下性能优异。下面详细介绍其常用参数重点说明过滤条件的使用。基本语法importpandasaspd dfpd.read_parquet(path,# 文件路径engineauto,# 引擎选择columnsNone,# 指定读取的列filtersNone,# 过滤条件 ⭐重点storage_optionsNone,# 存储选项**kwargs# 其他传递给引擎的参数)核心参数详解参数类型说明pathstr/Path文件路径支持本地路径或URLhttp、ftp、s3、gs等enginestr解析引擎‘auto’默认、‘pyarrow’、‘fastparquet’。推荐使用’pyarrow’性能更好且支持行级过滤columnslist指定要读取的列名列表只加载这些列可大幅减少内存占用filtersList[Tuple] 或 List[List[Tuple]]过滤条件在读取时进行数据过滤filters 过滤条件详解语法格式# 基本格式每个条件是 (列名, 操作符, 值)filters[(column,op,value),...]# 复杂格式支持 AND/OR 组合filters[[(col1,op1,val1),(col2,op2,val2)],...]# 内层 AND外层 OR支持的操作符操作符说明示例,等于(date, , 2024-01-01)大于(price, , 100)大于等于(volume, , 10000)小于(change, , 0)小于等于(pe, , 30)!不等于(industry, !, 金融)in包含于(ts_code, in, [000001, 000002])not in不包含于(status, not in, [ST, *ST])过滤逻辑规则过滤条件的逻辑遵循析取范式DNF内层列表元组之间是AND与关系外层列表各组之间是OR或关系[[条件A, 条件B], [条件C, 条件D]] 等价于(条件A AND 条件B) OR (条件C AND 条件D)过滤条件示例示例1单个条件# 读取价格大于100的行dfpd.read_parquet(data.parquet,filters[(price,,100)])示例2多个条件AND关系# 读取价格大于100且成交量大于10000的行filters[(price,,100),(volume,,10000)]dfpd.read_parquet(data.parquet,filtersfilters)示例3多个条件组OR关系# 读取金融行业或科技行业的数据filters[[(industry,,金融)],[(industry,,科技)]]dfpd.read_parquet(data.parquet,filtersfilters)示例4复合条件# 读取 (金融行业且PE15) 或 (科技行业且PE30) 的数据filters[[(industry,,金融),(pe,,15)],[(industry,,科技),(pe,,30)]]dfpd.read_parquet(data.parquet,filtersfilters)示例5日期范围过滤# 读取2024年1月的数据filters[(trade_date,,2024-01-01),(trade_date,,2024-01-31)]dfpd.read_parquet(data.parquet,filtersfilters)示例6使用in操作符# 读取指定股票列表的数据stock_list[000001.SZ,000002.SZ,600000.SH]filters[(ts_code,in,stock_list)]dfpd.read_parquet(data.parquet,filtersfilters)重要注意事项1. 引擎影响过滤效果使用pyarrow引擎时支持行级过滤真正只加载符合条件的行数据可显著减少内存和IO使用fastparquet引擎时仅在分区级别过滤可能加载部分不符合条件的行# 推荐显式指定 pyarrow 引擎以获得行级过滤dfpd.read_parquet(data.parquet,enginepyarrow,filters[(price,,100)])2. 过滤不是万能的filters参数的主要作用是减少读取的数据量但不能完全替代数据加载后的精确过滤。建议先用filters粗筛减少数据量再用 DataFrame 的查询方法如.query()或布尔索引进行精确过滤# 推荐的两阶段过滤dfpd.read_parquet(data.parquet,filters[(date,,2024-01-01)])resultdf[df[price]100]# 二次精确过滤3. 列名和数据类型列名必须与文件中的列名完全匹配区分大小写值的数据类型应与列的数据类型一致# 数值列用数值字符串列用字符串filters[(price,,100.0),(ts_code,,000001.SZ)]其他实用参数columns 参数只读取指定列大幅减少内存使用# 只读取需要的列dfpd.read_parquet(data.parquet,columns[ts_code,trade_date,close,volume])组合使用 columns 和 filters# 先过滤行再选择列效率最高dfpd.read_parquet(data.parquet,columns[ts_code,close,volume],# 只读需要的列filters[(trade_date,,2024-01-01),# 行过滤(trade_date,,2024-12-31)])

更多文章

前端开发 2026/4/12 22:37:36

Pixel Aurora Engine 生成代码注释与文档图示实战

Pixel Aurora Engine 生成代码注释与文档图示实战 1. 代码可视化新体验当你面对一个复杂的Java项目，是否经常被各种类关系和调用流程搞得晕头转向？传统的文档方式往往需要手动绘制架构图，既费时又难以维护。Pixel Aurora Engine的出现&…

告别CAJ格式困扰：5步轻松实现知网文献转PDF 【免费下载链接】caj2pdf Convert CAJ (China Academic Journals) files to PDF. 转换中国知网 CAJ 格式文献为 PDF。佛系转换，成功与否，皆是玄学。项目地址: https://gitcode.com/gh_mirrors/c…

张开发

前端开发 2026/4/16 20:42:32

旋转框目标检测mmrotate v0.3.1 训练DOTA数据集（三）——配置文件优化与多尺度训练策略

1. 配置文件优化基础在mmrotate v0.3.1框架中，配置文件是模型训练的核心控制中枢。以DOTA数据集为例，典型的配置文件通常包含以下关键模块： _base_ [../_base_/datasets/dotav1.py,../_base_/schedules/schedule_1x.py, ../_base_/defaul…

张开发

pd.read_parquet 详细使用说明

最新文章

JavaScript 表单

JavaScript 声明提升

3秒克隆你的声音：Qwen3-TTS在VMware虚拟机中的部署与应用

从 0 搭建现代前端组件库：2026年完整实战指南

第一个cesium应用

别再为音频数据少发愁了！用Python的Librosa库5分钟搞定3种数据增强（附完整代码）

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

Pixel Aurora Engine 生成代码注释与文档图示实战

AI赋能视频创作：HunyuanVideo-Foley自动音效生成全解析

Zotero Reference插件深度解析：学术文献关系图谱的架构设计与实战应用

智能家居中枢：OpenClaw对接Qwen3-4B-Thinking控制IoT设备

解锁Wallpaper Engine资源宝库：RePKG逆向工程完全指南

DDPM训练避坑指南：从Loss震荡到采样效果差，我的500个Epoch实战经验总结

5分钟搭建微信机器人：Python自动化助你工作效率翻倍

LLM 算法岗 | 八股问答（）· 强化学习与 RLHF扇

多线程读取并解析csv

实战案例：用圣女司幼幽-造相Z-Turbo创作古风少女，效果超乎想象

告别CAJ格式困扰：5步轻松实现知网文献转PDF

旋转框目标检测mmrotate v0.3.1 训练DOTA数据集（三）——配置文件优化与多尺度训练策略