#data.apply(abs) 将abs作用于data的每一个数据
data=pd.Series([1,-2,3,-3],index=["a","b","c","d"])
data.apply(abs)

a    1
b    2
c    3
d    3
dtype: int64

data.iloc[[0,2],data.columns.get_loc("one")] 混合索引 0-2 行 one列
data.iloc[[0,2],data.columns.get_indexer(["one","tow"])] 同时得到2列

布儿型索引

import numpy as np
ser=pd.Series(np.arange(5),index=np.arange(5)[::-1],dtype="int32")
ser

4    0
3    1
2    2
1    3
0    4
dtype: int32

ser.isin([2,3,4])#查看是否存在 2，3，4

4    False
3    False
2     True
1     True
0     True
dtype: bool

sample()，方法随机抽样

###随机抽样
sample()方法从Series或者DataFriame中随机选择行或列
ser.sample()参数
n=None, #抽取多少个
frac=None, #抽取多少比列
replace=False, #是否为有放回抽样
weights=None, #设定每一行的权重
random_state=None, #是否需要重现随机的结果，设置随机数种子
axis=None # 设定是对行采样还是对列采样

ser=pd.Series([1,2,3,4,5])
ser

0    1
1    2
2    3
3    4
4    5
dtype: int64

ser.sample()#默认抽取一个

0    1
dtype: int64

ser.sample(4)#默认抽取4个

0    1
2    3
4    5
3    4
dtype: int64

ser.sample(frac=0.8)#抽取80%

3    4
1    2
0    1
2    3
dtype: int64

#不加参数默认进行不放回抽样，使用replace 替换抽样方式
ser.sample(n=5,replace=False)# 不放回

3    4
0    1
2    3
1    2
4    5
dtype: int64

ser.sample(n=5,replace=True)#有放回

0    1
4    5
3    4
3    4
2    3
dtype: int64

ser_weight=[0.1,0.2,0.2,0.3,0.4]
ser.sample(n=4,weights=ser_weight ）   
#总体权重和为1 如果输入的值不为一，会从新归一化

3    4
4    5
0    1
2    3
dtype: int64

#在采样中，会用DataFrame的某一列作为权重
df=pd.DataFrame({"first":[4,5,6,7],"weight_column":[0.3,0.4,0.2,0.1]})
df

df.sample(n=2,weights="weight_column")

 df.sample(n=2,axis=1)

df.sample(n=2,random_state=2)

?df.sample

数据合并

df1=pd.DataFrame({"A":["A0","A1","A2","A3"],"B":["B0","B1","B2","B3"],
"C":["C0","C1","C2","C3"],
"D":["D0","D1","D2","D3"]},index=[0,1,2,3])
df2=pd.DataFrame({"A":["A0","A1","A2","A3"],"B":["B0","B1","B2","B3"],
"C":["C0","C1","C2","C3"],
"D":["D0","D1","D2","D3"]},index=[4,5,6,7])
df3=pd.DataFrame({"A":["A0","A1","A2","A3"],"B":["B0","B1","B2","B3"],
"C":["C0","C1","C2","C3"],
"D":["D0","D1","D2","D3"]},index=[8,9,10,11])

print(df1);print(df2);print(df3)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    A   B   C   D
4  A0  B0  C0  D0
5  A1  B1  C1  D1
6  A2  B2  C2  D2
7  A3  B3  C3  D3
     A   B   C   D
8   A0  B0  C0  D0
9   A1  B1  C1  D1
10  A2  B2  C2  D2
11  A3  B3  C3  D3

用pd。concat（）合并数据

###用pd.concat()合并对象
参数
pd.concat()
objs,  数据集
axis=0,  轴线 默认0
join='outer',  连接方式 inner outer
join_axes=None, 用指定的轴进行合并
ignore_index=False,都合并没有就不合并 /True 根据列字段对齐合并,生成新的索引
keys=None, 指定不同数据源
levels=None, 
names=None, 
verify_integrity=False, 
copy=True)

pd.concat([df1,df2,df3])#列合并

df4=pd.DataFrame({"B":["B0","B1","B2","B3"],
"C":["C0","C1","C2","C3"],
"E":["E0","E1","E4","E5"]},index=[0,1,4,5])
df4

pd.concat([df1,df4],axis=1)#横向合并

pd.concat([df1,df4],axis=1,join="inner")#取交集

pd.concat([df1,df4],axis=1,join_axes=[df1.index])#指定合并的轴

 pd.concat([df1,df4],ignore_index=False)

 pd.concat([df1,df4],ignore_index=True)#生成新的index

ser=pd.Series(["s0","s1","s2","s3"],name="s")
ser

0    s0
1    s1
2    s2
3    s3
Name: s, dtype: object

pd.concat([df1,ser],axis=1)#合并之后Series的名称自动成为列名称，不指定name自动生成

pd.concat([df1,df2,df3],keys=["one","two","three"])#区分不同的数据来源

data=pd.concat([df1,df2,df3])
dic={"one":df1,"two":df2,"three":df3}
pd.concat(dic) #也可以区分不同的数据集

用append 实现合并

df.append()

df1.append(df4)

df1.append([df2,df3])

#用append方法添加新行

ser3=pd.Series(["q1","q2","q3","q4"],index=["A","B","C","D"])
ser3

A    q1
B    q2
C    q3
D    q4
dtype: object

df1.append(ser3,ignore_index=True)

pandas 数据清洗案列

import pandas as pd

df=pd.read_csv("taobao.csv",encoding="gbk")
df.head()

df.tail(10)

2.快速探索

Out[88]:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 431 entries, 0 to 430
Data columns (total 5 columns):
宝贝     431 non-null object
价格     431 non-null float64
成交量    431 non-null int64
位置     431 non-null object
品牌     349 non-null object
dtypes: float64(1), int64(1), object(3)
memory usage: 16.9+ KB

#查看描述统计信息

3.数据的选择

#行的选择
df[0:5]
df.iloc[0:5]

#列的选择

#区域的选择

4.数据的整理

df["销售额"]=df["价格"]*df["成交量"]
df.head()

#过滤掉价格>=100，成交量<8000的商品信息
df[(df["价格"]<100)&(df["成交量"]>=8000)]

#将位置设置为索引
#df.index=df["位置"]
df1=df.set_index("位置")
df1.head()

#排序

#两个索引

groupby 分组汇总

#删除不需要的数据
deal=df.drop(["宝贝","品牌","位置"],axis=1)
deal.head()
#inplace=Fals 不修改原始数据   True 修改原始数据

deal.groupby("位置").mean()#均值

df["成交量"].groupby(df["位置"]).mean()

位置
上海       1808.307692
北京       1431.463158
安徽 芜湖     148.000000
山东 济南    1566.000000
广东 东莞     826.000000
广东 广州     635.090909
广东 深圳    1058.142857
江苏 无锡    1963.500000
江苏 苏州    1750.261261
河南 商丘     216.000000
河南 郑州     486.000000
浙江 嘉兴    1760.400000
浙江 宁波    1888.000000
浙江 杭州    1534.423077
浙江 绍兴     375.000000
浙江 金华    1241.333333
湖北 武汉    1417.200000
Name: 成交量, dtype: float64

df["成交量"].groupby([df["位置"],df["品牌"]]).mean()
#按多组列进行分组

位置     品牌                  
上海     other/其他                 425.500000
       卡索                     1155.750000
       千恋                   1191.000000
       茹                      1408.000000
       港                      2663.000000
       熟了                     824.000000
北京     斯岩                  2699.000000
       COOKBOOK                 541.000000
       夫人        1146.000000
       黑茉莉      559.000000
       利达         834.000000
       LIGGCOK                  550.500000
       SNOWQUEEN                272.000000
       other/其他                1624.600000
       songmay                  106.000000
       乐姿                     2174.000000
       菲玛依                    4335.666667
       城秀                      316.000000
       璐                       780.000000
       寒斯                      237.000000
       巧尔                      372.000000
       欣诺                     3497.000000
       爱雪                      738.500000
       爱悦                     768.000000
       甘人                      327.000000
       秋涵                      749.000000
       港                       508.000000
       简蓉                      541.000000
       紫媛                      722.000000
       羽佩                       451.000000
                                  ...     
浙江 金华  Honra莱妃             970.000000
       Loui瑞芙           1377.000000
湖北 武汉  Choph芙丽         955.500000
       ESILEE夫人         256.000000
       FIR索尔            940.500000
       OUM薇              229.000000
Name: 成交量, Length: 211, dtype: float64

5.数据合并

#创建数据
df1=df[20:30][["位置","品牌"]]
df1.head()

df2=df[25:35][["品牌","价格","成交量"]]
df2.head()

df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 浙江 嘉兴 to 北京
Data columns (total 3 columns):
品牌     7 non-null object
价格     10 non-null float64
成交量    10 non-null int64
dtypes: float64(1), int64(1), object(1)
memory usage: 320.0+ bytes

#pd.merge 根据一个或多个KEY值，将DataFrame连接（join）
#pd.concat 沿着一个轴拼接
#combine_first 如果有缺失值，另外要给数据集对其进行填充

pd.merge(df1,df2).head()

pd.merge(df1,df2,how="outer").head()#how默认为 inner 可修改为 outer left right

#索引合并
pd.merge(df2,df1,left_index=True,right_index=True).head()

6.数据重塑

DataFrame 创建数据是无序的

import pandas as pd
df=pd.DataFrame({"日期":["2017-01-01","2017-01-02","2017-01-03","2017-02-03","2017-02-04","2017-03-01","2017-03-02"],"最高气温":
[12,13,14,15,16,17,15],"最低气温":[7,8,8,9,12,3,5],"天气":["晴","多云","多云","小雨","小雨","晴","阴"],"风向":
["西北风","东北风","东北风","西北风","西北风","北风","南风"],"风力":[2,2,2,1,2,3,2]})

df=df.reindex(["日期"]+["最高气温"]+["最低气温"]+["天气"]+["风向"]+["风力"],axis=1)
df.head()

df.stack()#列转化为层级的Series

0  日期      2017-01-01
   最高气温            12
   最低气温             7
   天气               晴
   风向             西北风
   风力               2
1  日期      2017-01-02
   最高气温            13
   最低气温             8
   天气              多云
   风向             东北风
   风力               2
2  日期      2017-01-03
   最高气温            14
   最低气温             8
   天气              多云
   风向             东北风
   风力               2
3  日期      2017-02-03
   最高气温            15
   最低气温             9
   天气              小雨
   风向             西北风
   风力               1
4  日期      2017-02-04
   最高气温            16
   最低气温            12
   天气              小雨
   风向             西北风
   风力               2
5  日期      2017-03-01
   最高气温            17
   最低气温             3
   天气               晴
   风向              北风
   风力               3
6  日期      2017-03-02
   最高气温            15
   最低气温             5
   天气               阴
   风向              南风
   风力               2
dtype: object

df.stack().unstack()#还原

数据透视表

pd.pivot_table()
data,  数据集
values=None, 值是谁
index=None,  索引是谁
columns=None, 标题是谁
aggfunc='mean', 聚合的函数是谁
fill_value=None, 
margins=False, 
dropna=True,   是否召回
margins_name='All'

df_table=pd.pivot_table(df,index=["天气"],columns=["风向"],values=["最高气温"])
df_table

df_table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 多云 to 阴
Data columns (total 4 columns):
(最高气温, 东北风)    1 non-null float64
(最高气温, 北风)     1 non-null float64
(最高气温, 南风)     1 non-null float64
(最高气温, 西北风)    2 non-null float64
dtypes: float64(4)
memory usage: 160.0+ bytes

import numpy as np

 df=pd.DataFrame({"日期":["2017-01-01","2017-01-02","2017-01-03","2017-02-03","2017-02-04","2017-03-01","2017-03-02"],"最高气温":
[12,13,14,15,np.nan,17,15],"最低气温":[7,8,8,np.nan,12,3,5],"天气":[np.nan,"多云","多云","小雨","小雨","晴","阴"],"风向":
["西北风",np.nan,"东北风","西北风",np.nan,"北风","南风"],"风力":[2,2,np.nan,1,2,3,2]})

df

缺失值的处理

df.isnull()#发现缺失值 True 为有缺失

df.notnull()#发现缺失值 False 为有缺失

df.dropna(axis=0) 删除有缺失值的行

df.dropna(axis=1)#删除有缺失值的列

缺失值的填充

#用字符串填充
df.fillna("missing")

#使用前一个数值代替
df.fillna(method="pad")

df.fillna(method="pad",limit=1)#只向下或向上填充一个，填充过多数据不准

#向后填充
df.fillna(method="bfill")

#用均值填充
df.fillna(df.mean())

df.fillna(df.mean()["最低气温":"最高气温"])#只填充需要填充的行数

df.loc[:,"最低气温":"最高气温"].fillna(df.mean())

检测和过滤异常值

#参照正太分布 定义》3标准差或小于-3标准差的值为异常值
sta=(df["最高气温"]-df["最高气温"].mean())/df["最高气温"].std()
sta.abs()>1

0     True
1    False
2    False
3    False
4    False
5     True
6    False
Name: 最高气温, dtype: bool

df["最高温度是否异常"]=sta.abs()>1
df

df["最高温度是否异常"].value_counts()

False    5
True     2
Name: 最高温度是否异常, dtype: int64

#用箱线图定义异常值

df_max

17.625

df_min

10.625

df["isouter"]=(h>df_max)|(h<df_min)

df

重复值 duplicated

df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

df.duplicated("风力")

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

d2=df.drop_duplicates("风力")#删除有重复项的行

时间数据的处理

import time

time.time()#时间戳是指格林威治时间自1970年1月1日（00：00：00 gmy）至当前时间的总秒数
#北京时间1970年1月1日（08：00：00）

1572838472.6537158

time.localtime()

time.struct_time(tm_year=2019, tm_mon=11, tm_mday=4, tm_hour=11, tm_min=38, tm_sec=45, tm_wday=0, tm_yday=308, tm_isdst=0)

时间格式的转换

time.strftime()#format 时间格式
%Y  Year with century as a decimal number.
%m  Month as a decimal number [01,12].
%d  Day of the month as a decimal number [01,31].
%H  Hour (24-hour clock) as a decimal number [00,23].
%M  Minute as a decimal number [00,59].
%S  Second as a decimal number [00,61].
%z  Time zone offset from UTC.

%a  Locale's abbreviated weekday name.
%A  Locale's full weekday name.
%b  Locale's abbreviated month name.
%B  Locale's full month name.
%c  Locale's appropriate date and time representation.
%I  Hour (12-hour clock) as a decimal number [01,12].
%p  Locale's equivalent of either AM or PM.

time.strftime("%Y-%m-%d",time.localtime())#把当前时间转换成可读形式，注意转换之后为str格式

'2019-11-04'

s=time.strftime("%Y-%m-%d",time.localtime())

'2019-11-04'

type(s)

str

d=time.strptime(s,"%Y-%m-%d")#返回datetime格式的时间

time.struct_time(tm_year=2019, tm_mon=11, tm_mday=4, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=0, tm_yday=308, tm_isdst=-1)

type(d)

time.struct_time

将时间戳转换成系统时间

time.localtime(1533785557.0)

time.struct_time(tm_year=2018, tm_mon=8, tm_mday=9, tm_hour=11, tm_min=32, tm_sec=37, tm_wday=3, tm_yday=221, tm_isdst=0)

time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(1533785557.0))

'2018-08-09 11:32:37'

时间数据的操作

import datetime
import pandas as pd
import numpy as np

#取当前datetime格式的时间
datetime.datetime(2018,8,8)

datetime.datetime(2018, 8, 8, 0, 0)

pd.date_range（）
start=None,  开始
end=None,    结束
periods=None, 生成多少个
freq='D', 默认按天计算 
tz=None, 
normalize=False, 
name=None, 
closed=None, 
**kwargs)

生成时间序列数据

#生成时间序列数据
pd.date_range(datetime.datetime(2018,8,8),periods=4)

DatetimeIndex(['2018-08-08', '2018-08-09', '2018-08-10', '2018-08-11'], dtype='datetime64[ns]', freq='D')

pd.date_range("2018-8,-8",periods=4)#指定生成个数

DatetimeIndex(['2018-08-08', '2018-08-09', '2018-08-10', '2018-08-11'], dtype='datetime64[ns]', freq='D')

pd.date_range("2018-8-8","2018-9-9")#指定起始日期

DatetimeIndex(['2018-08-08', '2018-08-09', '2018-08-10', '2018-08-11',
               '2018-08-12', '2018-08-13', '2018-08-14', '2018-08-15',
               '2018-08-16', '2018-08-17', '2018-08-18', '2018-08-19',
               '2018-08-20', '2018-08-21', '2018-08-22', '2018-08-23',
               '2018-08-24', '2018-08-25', '2018-08-26', '2018-08-27',
               '2018-08-28', '2018-08-29', '2018-08-30', '2018-08-31',
               '2018-09-01', '2018-09-02', '2018-09-03', '2018-09-04',
               '2018-09-05', '2018-09-06', '2018-09-07', '2018-09-08',
               '2018-09-09'],
              dtype='datetime64[ns]', freq='D')

pd.date_range("2018-8-8 11:00","2018-8-9 00:00",freq="H")#按小时生成序列

DatetimeIndex(['2018-08-08 11:00:00', '2018-08-08 12:00:00',
               '2018-08-08 13:00:00', '2018-08-08 14:00:00',
               '2018-08-08 15:00:00', '2018-08-08 16:00:00',
               '2018-08-08 17:00:00', '2018-08-08 18:00:00',
               '2018-08-08 19:00:00', '2018-08-08 20:00:00',
               '2018-08-08 21:00:00', '2018-08-08 22:00:00',
               '2018-08-08 23:00:00', '2018-08-09 00:00:00'],
              dtype='datetime64[ns]', freq='H')

ser=pd.Series(np.arange(10),index=pd.date_range("2018-8-9",periods=10))
ser

2018-08-09    0
2018-08-10    1
2018-08-11    2
2018-08-12    3
2018-08-13    4
2018-08-14    5
2018-08-15    6
2018-08-16    7
2018-08-17    8
2018-08-18    9
Freq: D, dtype: int32

ser["2018-8-9"]

0

ser.index[2].year

2018

ser.index[2].month

8

ser.index[2].day

11

修改日期格式

pd.to_datetime()

df=pd.DataFrame({"日期":["2017-01-01","2017-01-02","2017-01-03","2017-02-03","2017-02-04","2017-03-01","2017-03-02"],"最高气温":
[12,13,14,15,np.nan,17,15],"最低气温":[7,8,8,np.nan,12,3,5],"天气":[np.nan,"多云","多云","小雨","小雨","晴","阴"],"风向":
["西北风",np.nan,"东北风","西北风",np.nan,"北风","南风"],"风力":[2,2,np.nan,1,2,3,2]})

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
天气      6 non-null object
日期      7 non-null object
最低气温    6 non-null float64
最高气温    6 non-null float64
风力      6 non-null float64
风向      5 non-null object
dtypes: float64(3), object(3)
memory usage: 416.0+ bytes

format

df["日期"]=pd.to_datetime(df["日期"].values,format="%Y-%m-%d")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
天气      6 non-null object
日期      7 non-null datetime64[ns]
最低气温    6 non-null float64
最高气温    6 non-null float64
风力      6 non-null float64
风向      5 non-null object
dtypes: datetime64[ns](1), float64(3), object(2)
memory usage: 416.0+ bytes

df

#将日期设置为索引
df=df.set_index("日期")

df

df_join=df[(df.index>="2017-01-01")&(df.index<="2017-02-01")]#注意时间输入需与索引格式一致
df_join

 df["2017-01-01":"2017-01-31"].info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 2017-01-01 to 2017-01-03
Data columns (total 5 columns):
天气      2 non-null object
最低气温    3 non-null float64
最高气温    3 non-null float64
风力      2 non-null float64
风向      2 non-null object
dtypes: float64(3), object(2)
memory usage: 144.0+ bytes

#转换成月份
df.to_period("M")

处理字符型数据

data=pd.DataFrame({"Rank":[1,2,3,4,5],"city":["london","benrlin]","madind","rome","pans"],"state":[" kingdom"," gemany","spain ","ltaly","frnce"],
"popuiation":["8,615,246","3,437,916","3,165,235","2,872,086","2,273,305"],"dateofcensusestumate":["1 june 2014","31 may 2014",
"1 january 2014","30 september 2014","1 jannany 2013"]})

data

date=data.reindex(["Rank"]+["city"]+["state"]+["popuiation"]+["dateofcensusestumate"],axis=1)#排序

date

date.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
Rank                    5 non-null int64
city                    5 non-null object
state                   5 non-null object
popuiation              5 non-null object
dateofcensusestumate    5 non-null object
dtypes: int64(1), object(4)
memory usage: 280.0+ bytes

去掉逗号

split（）分割函数

date["popuiation"].apply(lambda x :x.split(","))#按照逗号分隔

0    [8, 615, 246]
1    [3, 437, 916]
2    [3, 165, 235]
3    [2, 872, 086]
4    [2, 273, 305]
Name: popuiation, dtype: object

date["popuiation"].apply(lambda x :x.replace(",",""))#把逗号替代为空
#lambda 匿名函数
#apply 循环

0    8615246
1    3437916
2    3165235
3    2872086
4    2273305
Name: popuiation, dtype: object

replace（）替换函数

subtr=date["popuiation"].apply(lambda x : int(x.replace(",","")))

date["numericpopuiation"]=subtr
date

date["state"].values# 发现数据有空格

array([' kingdom', ' gemany', 'spain ', 'ltaly', 'frnce'], dtype=object)

strip（）剔除前后空格函数

date["state"].apply(lambda x :x.strip())#剔除前后空格

0    kingdom
1     gemany
2      spain
3      ltaly
4      frnce
Name: state, dtype: object

stri=date["state"].apply(lambda x :x.strip())#空格没有了
date["stace"]=stri
date["stace"].values

array(['kingdom', 'gemany', 'spain', 'ltaly', 'frnce'], dtype=object)

对指定字符串进行处理

如果我们需要在一系列文本中提取数据？

正则表达式通常被用来检索某个规则的文本

str_1=pd.DataFrame({"title":["网名最喜欢的旅游目的地榜单出炉","让生活更幸福是旅游业的使命","一带一路国家中东欧游客增两倍","旅游业改革开启旅游强国新篇章"],
"link":["http//cntour.cninews/4221/","http//cntour.cninews/4212/","http//cntour.cninews/4202/","http//cntour.cninews/4191/"]})

str_1

str.extract()运用正则表达式（表达式详情百度查看）

注：括号里面是需要的内容

str_1["link"]

0    http//cntour.cninews/4221/
1    http//cntour.cninews/4212/
2    http//cntour.cninews/4202/
3    http//cntour.cninews/4191/
Name: link, dtype: object

str_1["link"].str.extract("ews/(.+)/",expand=False)

0    4221
1    4212
2    4202
3    4191
Name: link, dtype: object

str_2=str_1["link"].str.extract("ews/(.+)/",expand=False)
str_1["links"]=str_2
str_1

 dic={"4221":"过","4212":"来","4202":"玩","4191":"啊"}

%%time
str_1["linkss"]=str_1["links"].map(dic)#map 映射函数，可将dic的值 根据键一一对应，映射到str——1
str_1
Wall time: 3 ms

	宝贝	价格	成交量	位置	品牌
0	母亲节衣服夏季中年女装连衣裙中长款裙子中老年妈妈装夏装40岁50	148.0	9276	浙江嘉兴	浅恋
1	中年女夏装40-50岁中老年女装妈妈装雪纺连衣裙短袖中长款裙子	129.0	3593	浙江杭州	缘福
2	母亲节衣服夏季中年女装夏装短袖40-50岁妈妈装中老年女装连衣裙	59.0	18569	江苏苏州	洛妃
3	中老年女装夏装连衣裙中年雪纺上衣妈妈装中长款40-50岁大码裙子	38.8	10296	上海	NaN
4	妈妈夏装套装40岁中老年女装春装中年连衣裙两件套母亲节衣服夏季	128.0	13313	江苏苏州	孔雀

	宝贝	价格	成交量	位置	品牌
421	中年女夏装2017新款40-50岁妈妈装夏天短袖中长款雪纺连衣裙宽松	89.0	439	浙江嘉兴	佳人
422	母亲节中年妈妈夏装连衣裙大码中老年春夏季上衣服女雪纺裙40岁50	138.0	118	湖北武汉	恋慈
423	母亲节衣服中年妈妈雪纺连衣裙中老年大码女装夏天中长款裙子40岁	36.0	817	江苏苏州	NaN
424	春装结婚宴婚庆妈妈装蕾丝连衣裙夏季大码女装宴会喜庆婆婆婚礼服	218.0	525	广东东莞	兰香
425	中年假两件套夏季妈妈装女装印花夏天雪纺连衣裙短袖30-40-50岁	129.0	96	北京	other/其他
426	中老年女装夏装连衣裙中长款打底衫女40-50岁中年妈妈装短袖裙子	39.9	535	江苏苏州	NaN
427	天天特价中老年春夏新款真丝大码短袖中长款连衣裙修身百褶裙女装	89.0	1416	广东广州	NaN
428	2017夏季新款优雅印花真丝连衣裙中长款短袖桑蚕丝宽松大码中老年	349.0	284	浙江杭州	YL－TianRui/睿
429	2017春装妈妈装新款中老年女装蕾丝连衣裙中长款裙子母亲节衣服夏	78.0	313	江苏苏州	念
430	中老年女装蕾丝夏装妈妈装连衣裙上衣中年女大码宽松刺绣短袖T恤	48.0	688	江苏苏州	other/其他

	价格	成交量
count	431.000000	431.000000
mean	133.149977	1545.044084
std	85.433711	1901.357985
min	14.900000	80.000000
25%	89.000000	438.000000
50%	128.000000	919.000000
75%	158.000000	1894.500000
max	866.000000	18569.000000

	宝贝	价格	成交量	位置	品牌
0	母亲节衣服夏季中年女装连衣裙中长款裙子中老年妈妈装夏装40岁50	148.0	9276	浙江嘉兴	恋
1	中年女夏装40-50岁中老年女装妈妈装雪纺连衣裙短袖中长款裙子	129.0	3593	浙江杭州	缘福
2	母亲节衣服夏季中年女装夏装短袖40-50岁妈妈装中老年女装连衣裙	59.0	18569	江苏苏州	pllo洛妃
3	中老年女装夏装连衣裙中年雪纺上衣妈妈装中长款40-50岁大码裙子	38.8	10296	上海	NaN
4	妈妈夏装套装40岁中老年女装春装中年连衣裙两件套母亲节衣服夏季	128.0	13313	江苏苏州	孔雀

	宝贝	价格
0	母亲节衣服夏季中年女装连衣裙中长款裙子中老年妈妈装夏装40岁50	148.0
1	中年女夏装40-50岁中老年女装妈妈装雪纺连衣裙短袖中长款裙子	129.0
2	母亲节衣服夏季中年女装夏装短袖40-50岁妈妈装中老年女装连衣裙	59.0
3	中老年女装夏装连衣裙中年雪纺上衣妈妈装中长款40-50岁大码裙子	38.8
4	妈妈夏装套装40岁中老年女装春装中年连衣裙两件套母亲节衣服夏季	128.0

利用python 进行数据清洗

sample()，方法随机抽样

数据合并

用pd。concat（）合并数据

用append 实现合并

pandas 数据清洗案列

2.快速探索

3.数据的选择

4.数据的整理

groupby 分组汇总

5.数据合并

6.数据重塑

DataFrame 创建数据是无序的

数据透视表

缺失值的处理

缺失值的填充

检测和过滤异常值

重复值 duplicated

时间数据的处理

时间格式的转换

将时间戳转换成系统时间

时间数据的操作

生成时间序列数据

修改日期格式

format

处理字符型数据

去掉逗号

split（）分割函数

replace（）替换函数

strip（）剔除前后空格函数

对指定字符串进行处理

如果我们需要在一系列文本中提取数据？

正则表达式通常被用来检索某个规则的文本

str.extract()运用正则表达式（表达式详情百度查看）

猜你喜欢

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	B2	C2	E4
5	NaN	NaN	NaN	NaN	B3	C3	E5

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
4	NaN	B0	C0	NaN	E0
5	NaN	B1	C1	NaN	E1
6	NaN	B2	C2	NaN	E4
7	NaN	B3	C3	NaN	E5

		A	B	C	D
one	0	A0	B0	C0	D0
	1	A1	B1	C1	D1
	2	A2	B2	C2	D2
	3	A3	B3	C3	D3
two	4	A0	B0	C0	D0
	5	A1	B1	C1	D1
	6	A2	B2	C2	D2
	7	A3	B3	C3	D3
three	8	A0	B0	C0	D0
	9	A1	B1	C1	D1
	10	A2	B2	C2	D2
	11	A3	B3	C3	D3

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	宝贝	价格	成交量	品牌	销售额
位置
上海	乐卡索妈妈装春装中袖中年女装大花纯色打底中老年夏季大码连衣裙	179.0	866	卡索	155014.0
上海	乐卡索妈妈装夏装连衣裙大花雪纺裙中老年女装40岁中年裙大码裙子	139.0	1371	卡索	190569.0
上海	中老年女装夏装连衣裙40-50岁中年妈妈装雪纺长裙老年人大码裙子	69.0	2663	港	183747.0
上海	2017中年高档参加婚礼妈妈装春夏连衣裙高贵新娘喜婆婆结婚宴礼服	458.0	441	other/其他	201978.0
上海	2017新款妈妈装夏装短袖连衣裙蕾丝中长款4050岁中年女装夏季裙子	138.0	461	NaN	63618.0

	价格	成交量	销售额
位置
上海	181.715385	1808.307692	187735.600000
北京	105.395158	1431.463158	108372.716632
安徽芜湖	729.000000	148.000000	107892.000000
山东济南	155.857143	1566.000000	250650.857143
广东东莞	164.777778	826.000000	137011.333333
广东广州	251.909091	635.090909	89932.181818
广东深圳	178.214286	1058.142857	151225.928571
江苏无锡	125.675000	1963.500000	197929.475000
江苏苏州	100.697297	1750.261261	170828.847748
河南商丘	178.000000	216.000000	38448.000000
河南郑州	68.000000	486.000000	33048.000000
浙江嘉兴	136.185000	1760.400000	230214.150000
浙江宁波	153.750000	1888.000000	270564.750000
浙江杭州	190.150000	1534.423077	236328.896154
浙江绍兴	380.000000	375.000000	142500.000000
浙江金华	218.000000	1241.333333	273324.000000
湖北武汉	140.600000	1417.200000	211603.960000

	first	weight_column
0	4	0.3
1	5	0.4
2	6	0.2
3	7	0.1

	first	weight_column
2	6	0.2
1	5	0.4

	weight_column	first
0	0.3	4
1	0.4	5
2	0.2	6
3	0.1	7

	first	weight_column
2	6	0.2
3	7	0.1

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	B2	C2	E4
5	NaN	NaN	NaN	NaN	B3	C3	E5

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
4	NaN	B0	C0	NaN	E0
5	NaN	B1	C1	NaN	E1
6	NaN	B2	C2	NaN	E4
7	NaN	B3	C3	NaN	E5

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	位置	品牌	价格	成交量
0	江苏苏州	NaN	69.0	6501
1	江苏苏州	NaN	39.0	4241
2	江苏苏州	NaN	49.0	3996
3	浙江嘉兴	NaN	69.0	6501
4	浙江嘉兴	NaN	39.0	4241

	位置	品牌	价格	成交量
0	江苏苏州	NaN	69.0	6501.0
1	江苏苏州	NaN	39.0	4241.0
2	江苏苏州	NaN	49.0	3996.0
3	浙江嘉兴	NaN	69.0	6501.0
4	浙江嘉兴	NaN	39.0	4241.0

	日期	最高气温	最低气温	天气	风向	风力
0	2017-01-01	12	7	晴	西北风	2
1	2017-01-02	13	8	多云	东北风	2
2	2017-01-03	14	8	多云	东北风	2
3	2017-02-03	15	9	小雨	西北风	1
4	2017-02-04	16	12	小雨	西北风	2

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	B2	C2	E4
5	NaN	NaN	NaN	NaN	B3	C3	E5

	A	B	C	D	B	C	E
0	A0	B0	C0	D0	B0	C0	E0
1	A1	B1	C1	D1	B1	C1	E1
2	A2	B2	C2	D2	NaN	NaN	NaN
3	A3	B3	C3	D3	NaN	NaN	NaN

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
4	NaN	B0	C0	NaN	E0
5	NaN	B1	C1	NaN	E1
6	NaN	B2	C2	NaN	E4
7	NaN	B3	C3	NaN	E5

	A	B	C	D	E
0	A0	B0	C0	D0	NaN
1	A1	B1	C1	D1	NaN
2	A2	B2	C2	D2	NaN
3	A3	B3	C3	D3	NaN
0	NaN	B0	C0	NaN	E0
1	NaN	B1	C1	NaN	E1
4	NaN	B2	C2	NaN	E4
5	NaN	B3	C3	NaN	E5

	A	B	C	D
0	A0	B0	C0	D0
1	A1	B1	C1	D1
2	A2	B2	C2	D2
3	A3	B3	C3	D3
4	A0	B0	C0	D0
5	A1	B1	C1	D1
6	A2	B2	C2	D2
7	A3	B3	C3	D3
8	A0	B0	C0	D0
9	A1	B1	C1	D1
10	A2	B2	C2	D2
11	A3	B3	C3	D3

	最高气温
风向	东北风	北风	南风	西北风
天气
多云	13.5	NaN	NaN	NaN
小雨	NaN	NaN	NaN	15.5
晴	NaN	17.0	NaN	12.0
阴	NaN	NaN	15.0	NaN

	天气	日期	最低气温	最高气温	风力	风向
0	True	False	False	False	False	False
1	False	False	False	False	False	True
2	False	False	False	False	True	False
3	False	False	True	False	False	False
4	False	False	False	True	False	True
5	False	False	False	False	False	False
6	False	False	False	False	False	False

	天气	日期	最低气温	最高气温	风力	风向
5	晴	2017-03-01	3.0	17.0	3.0	北风
6	阴	2017-03-02	5.0	15.0	2.0	南风