Python数据分析之逐块读取文本 - 代码天地

Python数据分析之逐块读取文本

其他 2018-09-14 09:38:56 阅读次数: 0

《利用Python进行数据分析》，第6章的数据加载操作read_xxx，有chunksize参数可以进行逐块加载。经测试，它的本质就是将文本分成若干块，每次处理chunksize行的数据，最终返回一个TextParser对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。文中的示例代码分析如下：

from pandas import DataFrame,Series
import pandas as pd

path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)

# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1

#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'
print tot

首先，例子数据ex6.csv文件总共有10000行数据，使用chunksize=1000后，read_csv操作返回一个TextParser对象，该对象总共有10个元素，遍历过程中打印chunkercount验证得到。

其次，每个piece对象是一个DataFrame对象，piece['key']得到的是一个Series对象，默认的索引是数值索引，值为csv文件中的key列的值，即各个字符串。将每个Series的value_counts作为一个Series，与上一次统计的tot结果进行add操作，最终得到所有块数据中各个key的累加值。

最后，对tot进行order排序，按降序得到各个key的值在csv文件中出现的总次数。这里很巧妙了使用Series对象的add操作，将两个Series执行add操作，即合并相同key：key相同的记录的值累加，key不存在的记录设置填充值为0。

输出结果为：

猜你喜欢

转载自blog.csdn.net/wojiushiwo945you/article/details/79257915

Python数据分析之逐块读取文本

Python—数据分析------读取文本文件

Python数据分析之读取文件 python 编程语言

【Python 数据分析】jieba文本挖掘

Python数据分析-文件读取

数据分析之python

Python之数据分析

《python数据分析》第六章pd.read_csv()函数读取文本时候出现的错误

python数据分析与算法之六数据分析

Python大数据分析之数据分析

5.Python数据分析项目之文本分类-自然语言处理

python读取数据分析数据保存数据

数据分析之Python数据导入

Python数据分析4——数据读取存储

数据分析之Pandas（六）文件读取与存储

文本数据分析

【Python数据分析学习笔记Day6】（六）文本数据分析

python文本数据分析案例—新闻分类

Python文本数据分析——新闻分类任务

python-Numpy数据分析-数组的保存与读取（三）

python数据分析：pandas的读取和写入文件

python数据分析与挖掘（十九）--- Pandas文件读取与存储

Python之数据分析（Numpy中读取与保存数据文件、将数据文件制成K线图）

python数据分析之matplotlib的使用

Python数据分析之pandas学习

学习数据分析之python的numpy

学习数据分析之python的matplotlib

python数据分析之matplotlib绘图

python的数据分析之预处理

Python数据分析之pandas

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)