Python数据科学手册:Python数据科学最佳实践

作者:禅与计算机程序设计艺术

1.简介

Python数据科学(Data Science)是利用Python进行数据分析、数据挖掘、机器学习、图像处理等的一门技术,可以说,Python数据科学就是使用Python来解决数据相关的各种问题。由于Python对数据处理、统计分析等领域的支持以及其易用性,被广泛应用在了许多领域,例如,Web开发、游戏开发、金融、医疗、物联网、美食、地图导航等。

Python数据科学的出现主要是为了更好地满足数据科学家们的需求。虽然Python作为脚本语言正在走向成为主流编程语言,但是对于数据科学家来说,并不是所有的任务都适合用Python来做。因此,在传统的数据科学工具中,有一些功能需要依赖于其他语言或者库,例如,用于数据可视化的Matplotlib、Seaborn、Plotly等;用于时间序列分析的statsmodels、Scikit-Learn等;用于深度学习的TensorFlow、PyTorch等;还有一些特定领域的机器学习框架如XGBoost、LightGBM、Keras等等。而Python数据科学则可以提供统一的接口,让数据科学家能够快速地搭建自己的机器学习系统。

本文通过从实际案例出发,介绍Python数据科学的理论基础、关键技术、常用工具及最佳实践等方面,帮助数据科学爱好者以及各行各业的从业人员快速入门Python数据科学,建立起数据科学研究和运用的研究生态系统。

2.背景介绍

随着互联网和云计算的发展,数据的爆炸性增长已经对所有行业产生了深远影响。越来越多的企业把大量数据放在了数字化转型的浪潮中,包括但不限于制造业、电子商务、保险、政务、金融、互联网金融、医疗、交通、零售等领域。此时,数据科学家就扮演着越来越重要的角色。

数据科学

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132288937