Python数据处理 Python2 人民邮电出版社投

Python数据处理
【美】Jacqueline Kazil , Katharine Jarmu (作者) 张亮 , 吕家明 (译者)

本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。

用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

  • 快速了解Python基本语法、数据类型和语言概念
  • 概述数据的获取与存储方式
  • 清洗数据并格式化,以消除数据集中的重复值与错误
  • 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
  • 使用Scrapy写网络爬虫
  • 利用新的Python库和技术对数据集进行探索与分析
  • 使用Python解决方案将整个数据处理过程自动化

“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”

——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人

“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”

——Tyrone Grandison博士,Proficiency Labs Intl. CEO
目录
版权声明 阅读
O’Reilly Media, Inc.介绍 阅读
本书赞誉 阅读
前言 阅读
第 1 章 Python 简介 阅读
第 2 章 Python 基础 阅读
第 3 章 供机器读取的数据
第 4 章 处理 Excel 文件
第 5 章 处理 PDF 文件,以及用 Python 解决问题
第 6 章 数据获取与存储
第 7 章 数据清洗:研究、匹配与格式化
第 8 章 数据清洗:标准化和脚本化
第 9 章 数据探索和分析
第 10 章 展示数据
第 11 章 网页抓取:获取并存储网络数据
第 12 章 高级网页抓取:屏幕抓取器与爬虫
第 13 章 应用编程接口
第 14 章 自动化和规模化
第 15 章 结论
附录 A 编程语言对比
附录 B 初学者的 Python 学习资源
附录 C 学习命令行
附录 D 高级 Python 设置
附录 E Python 陷阱
附录 F IPython 指南
附录 G 使用亚马逊网络服务
关于作者
关于封面
作者介绍
Jacqueline Kazil,数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

Katharine Jarmul,资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。

【译者简介】

张亮(hysic),毕业于北京大学物理学院,爱好机器学习和数据分析的核安全工程师。

吕家明,2016年毕业于哈尔滨工业大学,现就职于腾讯,从事搜索、Query分析等相关工作,熟悉大规模数据下的数据挖掘和机器学习实践。

发布了32 篇原创文章 · 获赞 12 · 访问量 1688

猜你喜欢

转载自blog.csdn.net/weixin_44402215/article/details/103671867
今日推荐