如何利用Python进行数据分析

本文主要对numpy和pandas两个常用的数据处理组件进行简单介绍。

配套工具

环境配置不作详述,基本上网上都能搜到。

python 3/2

numpy

pandas

matplotlib

jupyter

IPython

Visual Studio Code

基本配置,在Mac下的话配置十分方便,自要在自带的python环境下配置好pip包管理工具,即可通过pip完成整个环境的配置:

除了IPython这个已经自带开发环境的交互式Shell之外,我们还可以利于VSCode进行脚本编辑和运行调试。在配置好系统环境后,只要在VSCode的扩展安装Python相关的插件,即可完全在VSCode中进行脚本开发。在这里给大家推荐一个python系统学习q群:250933691有免费开发工具以及初学资料,(数据分析,爬虫,AI,机器学习,神经网络)每天有老师给大家免费授课,欢迎一起交流学习。

下面是VSCode下安装jupyter是运行的样例代码:

辅助工具

NumPy

NumPy是Python科学计算的基础包,提供了以下功能(不限于此):

快速高效的多维数组对象ndarray

对数组执行元素级计算及直接对数组执行数学运算的函数(向量化)

用于读写硬盘上基于数组的数据集工具

线性代数运算、傅里叶变换及随机数生成

用于将C\C++\Fortran代码集成到Python的工具

ndarray:一种多维数组对象

ndarray是一个快速而灵活的大数据集容器,你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样:

基本的索引和切片

索引和切片是ndarray重要的使用方式,对于数据处理有特别的作用。

数据切片是原始数组的视图,任何修改都会直接反映到源数组上。

pandas

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。其中DataFrame是最常用的结构,是一个面向列的二维表结构,且含有行标和列标。兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。

基础数据构建

Series:类似一维数组的对象。

DataFrame:表格型数据结构,含有一组有序的列,每列可以是不同的值型(基本代码演示可参考本文最后一节)

matplotlib

可与IPython结合使用成为交互式数据绘图环境,负责数据可视化部分,下面是简单的示例代码。

IPython

Python的科学计算标准工具集组成部分,将其他所有的东西联系到一起,为交互式和探索式计算提供了一个强健而高效的环境。除了标准的基于终端的IPython Shell外,还提供了:

一个类似于Mathematica的HTML笔记本

一个基于Qt框架的GUI控制台,其中含有绘图、多行编辑以及语法高亮显示等功能。

用于交互式并行和分布式计算的基础架构。

SciPy

一组专门解决科学计算中各种标准问题域的包的集合,可用于解决各种数值积分、微分方程、矩阵之类的工具包。(不作详述)

简单实战,如何清理分析日志数据

例子,用Python解析后台查询的日志。

在这里给大家推荐一个python系统学习q群:250933691有免费开发工具以及初学资料,(数据分析,爬虫,AI,机器学习,神经网络)每天有老师给大家免费授课,欢迎一起交流学习。

猜你喜欢

转载自blog.csdn.net/haotian1685/article/details/88817386
今日推荐