说明:本手册所列包来自Awesome-Python ,结合GitHub 和官方文档,参考 SeanCheney 大神在简书上翻译的《利用Python进行数据分析·第2版》,整理所得。
其中,标记星星⭐的是本人的必学包,❤为待选包。
目录
IDE
Python Basics
Standard Library(标准库)
- datetime+time+calendar⭐
- math+random⭐
- re+正则表达式⭐
- tkinter:❤Python 的标准 GUI 库
- threading :多线程
- multiprocessing: 多进程
- os: ❤文件和目录处理库
- asyncio: 内置了对异步IO的支持
Scientific Computing
- NumPy:⭐使用 Python 进行科学计算的基础包。
- PyDy:PyDy 是 Python Dynamics 的缩写,用来为动力学运动建模工作流程提供帮助, 基于NumPy, SciPy, IPython 和 matplotlib。
- SciPy:由一些基于 Python ,用于数学,科学和工程的开源软件构成的生态系统。
- SymPy:SymPy是一个符号计算的Python库。[博客园][js] [微信公众号][wx]
- astropy:一个天文学 Python 库。
Data Analysis
- pandas:⭐提供高性能,易用的数据结构和数据分析工具。
- pandas (for time series): ⭐时间序列数据处理工具。
- blaze:NumPy 和 Pandas 的大数据接口。
- orange:❤通过可视化编程或 Python 脚本进行数据挖掘,数据可视化,分析和机器学习。
Web Crawling
The Website is the API(Application Programming Interface,应用程序编程接口)…
- requests: ⭐自动爬取HTML页面,自动网路请求提交。
- BeautifulSoup :⭐解析HTML页面(中文官网)。
- Scrapy:❤专业的网络爬虫框架。
- Selenium: 是一个用于Web应用程序测试的工具,能够模拟用户行为与浏览器交互。
Visualise
- matplotlib: ⭐是一个 Python 的 2D绘图库。
- seaborn:⭐基于matplotlib封装的数据可视化库。
- bqplot: Jupyter Notebook的交互式绘图库
- bokeh:用 Python 进行交互式 web 绘图。
- ggplot:❤ggplot port for python
- plotly:协同 Python 和 matplotlib 工作的 web 绘图库。
- pyecharts:基于百度 Echarts 的数据可视化库。
- missingno:❤缺失数据图示。
Machine Learning
- scikit-learn:⭐基于 SciPy 构建的机器学习 Python 模块。
- statsmodels:⭐统计建模和计量经济学。
- xgboost: ❤一种可扩展,可移植且分布式的渐变增强库
Deep Learning
- TensorFlow:⭐Google开源的最受欢迎的深度学习框架。
- PyTorch: Facebook 的 AI 研究团队发布了一个 Python 工具包,专门针对 GPU 加速的深度神经网络(DNN)编程。
- keras: ❤以 tensorflow/theano/CNTK 为后端的深度学习封装库,快速上手神经网络。
- Theano: 基于TensorFlow,用于快速数值计算的库。
MapReduce
- PySpark : ❤Apache Spark Python API
NLP(Natural Language Processing)
- Jieba : Chinese text segmentation
- NLTK:Natural Language Toolkit
Documentation
- Markdown编辑器推荐和语法(StackEdit)
- MkDocs : ⭐Markdown友好的文档生成器。
- Python-Markdown2:纯 Python 实现的 Markdown 解析器,比 Python-Markdown 更快,更准确,可扩展
- PyYAML: implementations for Python.
- python-docx: for creating and updating Microsoft Word (.docx) files.
Learning Python