写点什么

如何使用 Pandas 处理超过内存容量的大规模数据?

  • 2020-10-29
  • 本文字数:3018 字

    阅读完需:约 10 分钟

如何使用Pandas处理超过内存容量的大规模数据?

处理大规模数据集时常是棘手的事情,尤其在内存无法完全加载数据的情况下。在资源受限的情况下,可以使用 Python Pandas 提供的一些功能,降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。


开展数据科学项目中的一个重要步骤,就是从 API 下载数据并加载到本地内存,之后才能处理数据。


在上述过程中需要解决一些问题,其中之一就是数据量过大。如果数据量超出本机内存的容量,项目执行就会产生问题。


对此有哪些解决方案?


有多种解决数据量过大问题的方法。它们或是消耗时间,或是需要增加投资。

可能的解决方案

  1. 投资解决:新购有能力处理整个数据集,具有更强 CPU 和更大内存的计算机。或是去租用云服务或虚拟内存,创建处理工作负载的集群。

  2. 耗时解决:如果内存不足以处理整个数据集,而硬盘的容量要远大于内存,此时可考虑使用硬盘存储数据。但使用硬盘管理数据会大大降低处理性能,即便是 SSD 也要比内存慢很多。


只要资源允许,这两种解决方法均可行。如果项目资金充裕,或是不惜任何时间代价,那么上述两种方法是最简单也是最直接的解决方案。


但如果情况并非如此呢?也许你的资金有限,或是数据集过大,从磁盘加载将增加 5~6 倍甚至更多的处理时间。是否有无需额外资金投入或时间开销的大数据解决方案呢?


这个问题正中我的下怀。


有多种技术可用于大数据处理,它们无需额外付出投资,也不会耗费大量加载的时间。本文将介绍其中三种使用 Pandas 处理大规模数据集的技术。

压缩

第一种技术是数据压缩。压缩并非指将数据打包为 ZIP 文件,而是以压缩格式在内存中存储数据。


换句话说,数据压缩就是一种使用更少内存表示数据的方法。数据压缩有两种类型,即无损压缩和有损压缩。这两种类型只影响数据的加载,不会影响到处理代码。

无损压缩

无损压缩不会对数据造成任何损失,即原始数据和压缩后的数据在语义上保持不变。执行无损压缩有三种方式。在下文中,将使用美国按州统计的新冠病毒病例数据集依次介绍。


  • 加载特定的数据列


例子中所使用的数据集具有如下结构:


import pandas as pddata = pd.read_csv("https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv")data.sample(10)
复制代码



加载整个数据集需要占用 111MB 内存!



如果我们只需要数据集中的两列,即州名和病例数,那么为什么要加载整个数据集呢?加载所需的两列数据只需 36MB,可降低内存使用 32%。



使用 Pandas 加载所需数据列的代码如下:



本节使用的代码片段如下:


#加载所需软件库Import needed libraryimport pandas as pd#数据集csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"#加载整个数据集data = pd.read_csv(csv)data.info(verbose=False, memory_usage="deep")#创建数据子集df = data[["county", "cases"]]df.info(verbose=False, memory_usage="deep")#加速所需的两列数据df_2col = pd.read_csv(csv , usecols=["county", "cases"])df_2col.info(verbose=False, memory_usage="deep")
复制代码


代码地址:https://gist.github.com/SaraM92/3ba6cac1801b20f6de1ef3cc4a18c843#file-column_selecting-py


  • 操作数据类型


另一个降低数据内存使用量的方法是截取数值项。例如将 CSV 加载到 DataFrame,如果文件中包含数值,那么一个数值就需要 64 个字节存储。但可通过使用 int 格式截取数值以节省内存。


  • int8 存储值的范围是-128 到 127;

  • int16 存储值的范围是-32768 到 32767;

  • int64 存储值的范围是-9223372036854775808 到 9223372036854775807。



如果可预先确定数值不大于 32767,那么就可以使用 int16 或 int32 类型,该列的内存占用能降低 75%。


假定每个州的病例数不超过 32767(虽然现实中并非如此),那么就可截取该列为 int16 类型而非 int64。



  • 稀疏列


如果数据集的一或多个列中具有大量的 NaN 空值,那么可以使用稀疏列表示降低内存使用,以免空值耗费内存。


假定州名这一列存在一些空值,我们需要跳过所有包含空值的行。该需求可使用 pandas.sparse 轻松实现(译者注:原文使用 Sparse Series,但在 Pandas 1.0.0 中已经移除了 SparseSeries)。


有损压缩

如果无损压缩并不满足需求,还需要进一步压缩,那么应该如何做?这时可使用有损压缩,权衡内存占用而牺牲数据百分之百的准确性。


有损压缩有两种方式,即修改数值和抽样。


  • 修改数值:有时并不需要数值保留全部精度,这时可以将 int64 截取为 int32 甚至是 int16。

  • 抽样:如果需要确认某些州的新冠病例数要高于其它州,可以抽样部分州的数据,查看哪些州具有更多的病例。这种做法是一种有损压缩,因为其中并未考虑到所有的数据行。

第二种技术:数据分块(chunking)

另一个处理大规模数据集的方法是数据分块。将大规模数据切分为多个小分块,进而对各个分块分别处理。在处理完所有分块后,可以比较结果并给出最终结论。


本文使用的数据集中包含了 1923 行数据。



假定我们需要找出具有最多病例的州,那么可以将数据集切分为每块 100 行数据,分别处理每个数据块,从这各个小结果中获取最大值。



本节代码片段如下:


#导入所需软件库import pandas as pd#数据集csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"#循环处理每个数据块,获取每个数据块中的最大值result = {}for chunk in pd.read_csv(csv, chunksize=100):max_case = chunk["cases"].max()max_case_county = chunk.loc[chunk['cases'] == max_case, 'county'].iloc[0]result[max_case_county] = max_case#给出结果print(max(result, key=result.get) , result[max(result, key=result.get)])
复制代码


代码地址:https://gist.github.com/SaraM92/808ed30694601e5eada5e283b2275ed7#file-chuncking-py

第三种方法:索引

数据分块非常适用于数据集仅加载一次的情况。但如果需要多次加载数据集,那么可以使用索引技术。


索引可理解为一本书的目录。无需读完整本书就可以获取所需得信息。


例如,分块技术非常适用于获取指定州的病例数。编写如下的简单函数,就能实现这一功能。


索引 vs 分块

分块需读取所有数据,而索引只需读取部分数据。


上面的函数加载了每个分块中的所有行,但我们只关心其中的一个州,这导致大量的额外开销。可使用 Pandas 的数据库操作,例如简单的做法是使用 SQLite 数据库。


首先,需要将 DataFrame 加载到 SQLite 数据库,代码如下:


import sqlite3csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"# 创建新的数据库文件db = sqlite3.connect("cases.sqlite")# 按块加载CSV文件for c in pd.read_csv(csv, chunksize=100):# 将所有数据行加载到新的数据库表中c.to_sql("cases", db, if_exists="append")# 为“state”列添加索引db.execute("CREATE INDEX state ON cases(state)")db.close()
复制代码


代码地址:https://gist.github.com/SaraM92/5b445d5b56be2d349cdfa988204ff5f3#file-load_into_db-py


为使用数据库,下面需要重写 get_state_info 函数。



这样可降低内存占用 50%。

小结

处理大规模数据集时常是棘手的事情,尤其在内存无法完全加载数据的情况下。一些解决方案或是耗时,或是耗费财力。毕竟增加资源是最简单直接的解决方案。


但是在资源受限的情况下,可以使用 Pandas 提供的一些功能,降低加载数据集的内存占用。其中的可用技术包括压缩、索引和数据分块。


原文链接:


https://towardsdatascience.com/what-to-do-when-your-data-is-too-big-for-your-memory-65c84c600585


2020-10-29 14:036147
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 292.8 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

什么是IP地址子网划分,是如何应用的?

郑州埃文科技

IP地址

互联网的“神经中枢”域名根服务器是如何演变的?

郑州埃文科技

根服务器

AI英语背单词APP开发

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

苹果电脑压缩软件哪个好用?Mac解压缩软件BetterZip免费版安装激活教程,附注册码

阿拉灯神丁

压缩工具 mac解压缩软件 BetterZip BetterZip 5下载 BetterZip 5破解版

有关IP地址运算

郑州埃文科技

IP地址

VMware Aria Automation 8.18.1 - 多云基础架构自动化平台

sysin

aria

基于昇腾MindSpeed RL复现R1-Zero优秀实践

科技热闻

中国气象局干部培训学院特邀和鲸共探大模型赋能气象服务现代化

ModelWhale

人工智能 大数据 气象 #大模型

WebSocket调试神器对决:Apipost凭何碾压Apifox?

数据追梦人

智能制造新引擎:铜丝生产行业MES系统核心功能

万界星空科技

制造业 mes 铜加工 铜拉丝生产 铜丝mes

Shopify电商平台API接口对接及上线

北京木奇移动技术有限公司

跨境电商 软件外包公司 shopify开发

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS Dell (戴尔) 定制版

sysin

esxi

数据要素对企业营销会有什么影响?

郑州埃文科技

自增主键去哪了?---一次开发过程中的思考

京东科技开发者

混合应用开发避坑指南:Hybrid到小程序架构的技术选型经验分享

xuyinyin

京东图片搜索拍立淘API接口 (JD.item_search_img)

tbapi

京东API 京东图片搜索接口 京东拍立淘接口

deepseek+气象应用,成都市气象局开展大模型赋能气象业务专题培训

ModelWhale

人工智能 大数据 大模型 气象

数据蒸馏与知识蒸馏技术解析:测试开发中的高效能实践

测试人

人工智能 软件测试

BeeWorks:企业级即时通讯和协同办公软件

BeeWorks

即时通讯 IM 企业即时通讯平台 私有化部署 局域网视频软件

数据要素市场化 驱动数字金融

郑州埃文科技

数据要素

WebGL开发框架及其特点

北京木奇移动技术有限公司

软件外包公司 webgl开发 3D软件开发

VMware Aria Operations 8.18.3 - 多云 IT 运维管理

sysin

aria

业务复杂度治理方法论--十年系统设计经验总结

京东科技开发者

【转载】golang内存分配

京东科技开发者

超越数字:利用数据可视化推动企业战略决策

智达方通

企业管理 财务预算 超越预算

VMware Aria Operations for Logs 8.18.3 - 集中式日志管理

sysin

aria

知识图谱与多模态推理在测试开发中的实践价值‌

测试人

人工智能

一站式解决Deepseek微调三大痛点:数据集、GPU资源、微调手册与源码

九章云极DataCanvas

人工智能 DeepSeek deepseek微调

Gitea Enterprise 23.6.0 (Linux, macOS, Windows) - 本地部署的企业级 Git 服务

sysin

git

更换DNS服务器多久生效?需要注意哪些事项?

国科云

API 安全之认证鉴权

阿里巴巴云原生

阿里云 云原生 API

如何使用Pandas处理超过内存容量的大规模数据?_AI&大模型_Sara A. Metwalli_InfoQ精选文章