Python数据分析之第一章

1、python的数据基础

定义:按照python规定的格式,将数据的数据类型告知python;

赋值:将定义好的数据,传递给变量的过程;

变量:数据赋值的对象,我们通过变量去操作数据。

2、变量的命名规则

(1)变量名可以是字母,数字,下划线组成,首字母不能为数字和下划线(-);

(2)大小写敏感,变量a和A是不同的变量;

(3)变量名不能为python中的保留字(and or not...)。

3、python的数据类型

三种常用的数据类型

            类型                   注释

(1) Logical               逻辑型(布尔型:0和1、真和假;与、或、非)

(2)Numeric              数值型(实数,加减乘除)

特殊:7//3(取整);2**3(乘法,2的立方);

浮点型的要导入:

from decimal import Decimal

a=Decimal('2.1')

b=Decimal('3.2')

a+b

(3)Character            字符型(代表了所有可定义的字符)

#例1

s='''

she has a girl

she is man

'''

print(s)

结果:

she has a girl

she is man

#例2

s='abcd\

efg'

print(s)

结果:abcdefg

4、python的数据结构

:是指相互之间存在一种或者多种特定关系的数据类型的集合。

4.1、python中常用的数据结构

(1)List(列表):是写在方括号之间,用逗号分隔开的元素列表。列表中的元素的类型可以不相同。

a=['hla',25,100,'her',100]

print(a)​

以上运行 结果 

a[1:3]

Out[47]: [25, 100]

串联:

a+[1,'lall']

(2)Tuple(元组):与列表类似,不同之处在于元组的元素不能修改。元组写在小括号里,元素之间用逗号隔开。元组中的元素类型也可以不同。(也可以用加号+连接)

b=('aa',90,10,'lll')

填写图片摘要(选填)

(3)Set(集合):是一个无序不重复元素的集。基本功能是去重。可以使用大括号或者set()函数创建set集合,注意:创建一个空集合必须使用set()而不是{},因为{}是用来创建一个空字典。

student={'Tom','Jis','Jack','Tom','Rose'}

print(student)

u=set('people')

c=set('palplelll')

u

c

u-c #u中存在的,c中不存在的

u|c #并集

u&c #交集

u^c #u和c不同时存在的元素

填写图片摘要(选填)

a={'hla',25,100,'her',100}

set({25,100})<=set(a) #判断结合{25,100}是否在集合a中​

填写图片摘要(选填)

(4)Dic(字典dictionary):是一种映射类型(mapping type),它是一个无序的键:值对集合。关键字必须使用不可变类型,也就是说list和包含可变型的tuple不能做关键字。在同一个字典中,关键字还必须互不相同。

tel={'Jack':11,'Tom':12,'kity':13}

填写图片摘要(选填) 

​tel['Jack']#获取对应的值

tel['Jack']=22#改变相应的值为22

del tel['Jack']#删除一个键值对

tel['Mon']=32#赋值一个新的键值对

'Mon' in tel #成员测试

#还可以通过dict()构造函数来定义

dict([('ample',22),('lall',32),('kk',41)])

dict(jack=2,gudide=3,lily=4)

Pandas数据结构:Series(系列)、DataFrame(数据框);

Series:用于存储一行或者一列的数据,以及与之相关的索引的集合;

DataFrame:用于存储多行和多列的数据集合;

4.2、Pandas的数据结构(常用于数据处理以及数据建模的拓展包)

(1)Pandas中常用的两种数据结构

Series(系列):

是用于存储一行或者一列的数据,以及与之相关的

索引

的集合

from pandas import Series

x=Series(['a',True,1],index=['first','secnd','third']);

填写图片摘要(选填)

填写图片摘要(选填)

x=Series(['a',True,1])#默认索引

填写图片摘要(选填) 

DataFrame(数据框):

数据框是用于存储多行和多列的数据集合

from pandas import DataFrame;

df=DataFrame(data={

        'age':[21,22,23],

        'name':['ll','kc','jj']

        },index=['first','second','third']);

填写图片摘要(选填)

5、程序结构

(1)顺序机构

(2)选择结构(if, elif)

(3)循环结构

#这里的(3,10)表示大于等于3,小于10;

for i in range(10):

    print('现在是:',i)

for i in range(3,10):

    print('现在是:',i)

fruit=['banana','apple','peaple']

for letter in fruit:

    print('现在是:',letter)

填写图片摘要(选填)

6、python中的函数:函数是指组织好的,可重复使用的,用来实现单一,或相关联功能的代码段

(1)函数语法

填写图片摘要(选填)

(2)匿名函数语法

填写图片摘要(选填)

7、python中的向量化计算

定义:向量化计算是一种特殊的并行计算方式,相比于一般程序在同一时间只执行一个操作的方式,它可以在同一时间执行多次操作,通常是对不同的数据执行同样的一个或一批指令,或者说把指令应用于一个数组/向量。

(1)生成等差数列

numpy.arange(start, end , step):

(2)四则运算

S1 op S2

如果两个向量长度不一样,就会使用rep方法,将短的变量不断重复,直到和长的变量长度不一样

规则:相同位置的数据进行函数的计算,函数返回结果保留在相同的位置

语法:fun(x)

原则:代码中尽可能避免显示的for循环;过早的优化是魔鬼

猜你喜欢

转载自blog.csdn.net/u013004700/article/details/81093771