学习数据分析三剑客之心得体会

写在前面:

好久没写blog了,每天总是感觉过的好快,忙的但也不知道忙啥,最近刚好好学习了NUMPY  PANDAS  MATPLLTLY 三贱客,所以决定忙里偷闲记录一下自己的心得。

# NUMPY

numpy其实就是python中列表的结构,多层列表也可以完全表示ndarray这种概念哇。但是为什么他就被那么多人所追捧呢?-----那就是索引,提取数据方便。其他的也没啥,你说你搞个1000维的数据嘛谁也不懂,最后还不是要降为到3维或者2维上进行处理。人类永远理解不了他们之外的东西。世界是3维的,顶多加个时间也就4维。所以要用n维基本没啥可处理的。

下面我们就盘点一下numpy的那些骚操作:

基本的一笔带过:

1:数组

np.array()
np.arange()

2. 数据导入

np.genfromtxt()#j基本没啥用,谁会把数字型数据存在txt里经常不会这样干

3.索引(这里就是特点了) 

本质上就下面

1. 列表式, [hang, lie] , (这里有一个符号  a:b, 表示从a到b)

2. 把一个数组(可以是bool数组)当索引拿来索引元素。

4. 其他的没用过的

广播机制:说通俗一点就是自动对齐嘛, 按照最大的那个为标准,其他位置上不够的都填上相应轴上的最后一个元素嘛。

结构化数组:就是pandas的df(笑哭)用起来麻烦,换不如直接导入pandas库。

字节交换 没用到过

数组容器 ,没用到过

好了这里放张美图,悦悦下心情吧:

2446575d564646a982935da263cd8016.png

# PANDAS 

pandas的使用就是和电子表格一样的。它是基于numpy构建的,那个结构化数组就和df很像。它的行索引默认是自然数,它的列就是各个属性名。它实现了用Python像操作表格一样来操作数据。

1. 第一种一维的数据结构SERIERS,他就是在一维数组上加了个索引呗。

它可以从列表,字典里构建(字典的就是他的行索引)。

他基本没啥用,能用他的地方用NUMPY会更好。

2.第二种数据结构就是DATAFRAME,多行或者多列堆在一起不就是DF了嘛。

 它的索引主要有一下几种

1.按行列的进行索引(就和列表一样)

2.按行列标签进行索引

3.有索引函数可以索引,比如.loc(location).iloc(in location)

 它的读写是比较丰富的(numpy就很垃圾,只能读字节)

其他的都好认,这里说read_table()和write_table()这两个函数就是从文本文件读取数据。这里猜想可能TXT文档里TAB键用的多。

这里单独说一下json结构,说实话,我还是不太读的来这东西,不过格式体积小的有优点,用的人多。建议多认认。

它的最基本框架应该是—[{key:value},{key:value},{key:value}]

4.DF的数据清洗

它提供了一些函数来处理,数据中的一些垃圾值常见的有NAN,NA。

基本就这些了,放张美图,欣赏欣赏

4845820886d448d599cdfcc81a4165fd.jpg

# MATPLOTLY

这个库最长用的就是plt模块了。其他的没怎么用过。感觉他画的不是很好看。

下面就列一下它最常用的功能:

1.子图功能(一张大图上展示好几个小图)

函数就是subplot()

2.就是各种图像,它的调用就是

plt.图的英文名称缩写

3.设置图形显示的大小

plt.figure(figuresize=大小)

还有其他一些什么轴,颜色,网格太麻烦了自己调起来也搞不好看。现在有一些其他库的图就很好看。有个叫plotly的库就很好。

猜你喜欢

转载自blog.csdn.net/m0_56022510/article/details/127903562