pandas_streaming:适用于大数据集的熊猫流API 源码
pandas_streaming:通过pandas的流API pandas_streaming旨在使用pandas处理大文件, pandas大到无法容纳在内存中, pandas_streaming太小而无法并行处理,从而获得了可观的收益。 该模块复制了熊猫API的子集,并实现了用于机器学习的其他功能。 from pandas_streaming.df import StreamingDataFrame sdf = StreamingDataFrame.read_csv("filename", sep="\t", encoding="utf-8") for df in sdf: # process this chunk of data # df is a dataframe print(df) 该模块还可以流式传输现有数据帧。 import pandas d
下载地址
用户评论