python数据清洗2

1、筛选

   ◆a = 表[表['属性列名']=='值']
     print(a)

   ◆a = 表[表['属性列名'].isin(['值1','值2'])]
     print(a)

2、新建变量
   ◆表['a'] = 1
     #新建了一属性列 a ，并且初始化值全为1.
     #注意，这时候的值是 object 类型，若要进行运算，需要先转化类型（如：表['a'] = 表['a'].map(lambda x:int(x))

3、去重

   ◆表.duplicated（['属性1','属性2']）     #返回bool型，默认第一个出现的返回False，之后重复的返回True

     表.drop_duplicates(['属性1','属性2']) #去掉重复的，默认返回第一个出现的

     #注意，这里的去重，是指属性1、属性2 都一样的，才去掉。若不要 ['属性1','属性2'] 部分，则是默认要所有属性都一样的才叫重复

     若想保留的最后一次出现的，只需要加上参数 take_last=True 即可

4、统计

   ◆a = 表['属性1'].groupby([表['属性2'],表['属性3']]).count()
     a = pd.DataFrame(a)
    #先按照属性2，接着按照属性3，分类统计属性1
    #为了输出美观和之后处理，把它转化为dataframe表格格式

5、排序

   ◆对于列表排序（sorted，sort）
     方法一：sorted(列表)
     方法二：列表.sort()
     #对于上面两种方法，都是默认为升序，如果加上参数reserve=True，就会变为降序
     #并且方法一不会改变原来列表，但是方法二会改变原来的列表

   ◆对字典排序(sorted)
     根据字典的键排序：sorted(字典)    #只返回排列好的字典的键，并没有值
     根据字典的键值排序：sorted(字典.items()，key =lambda item:item[1])    #以列表的形式返回排列好的元组数组
     #字典.items（）以列表形式返回可遍历的(键, 值) 元组数组
     #若其中的对应参数改为item[0]，则对应的是键本身了
     #两个方法，都默认为升序，若加上参数reserve=True，会变为降序

   ◆对DataFrame、numpy排序
     值排列：
       表.sort(by= ['属性1','属性2'])                      #先按属性一排列，再按属性2排列
       表.sort_values(by='属性1'，ascending = False)       #按属性1降序排列
       #两种方式都默认为升序排列，可通过参数ascending来改变
     索引排列：
       表=表.set_index('属性1')            #设置属性1对应的列为索引列
       表.sort_index()                     #使用设置的索引进行排序
       表.sort_index(ascending=False)      #使用索引列降序排列

6、导出txt文件

   ◆表.to_csv(地址，header=1，index=None,sep='|',encoding='gbk')
    #这里的sep参数，指用'|'隔开，否则默认为 ','隔开

    例：表.to_csv('C:\\Users\\user\\Desktop\\file.txt',header=1,index=None,encoding='gbk')

7、导出csv文件

   ◆表.to_csv(地址，header=1，index=None,sep='|',encoding='gbk')
    #这里的sep参数，指用'|'隔开，否则默认为 ','隔开

    例：表.to_csv('C:\\Users\\user\\Desktop\\file.csv',header=1,index=None,encoding='gbk')

#可以看出，导出txt和csv几乎一样的操作，只是文件地址里的文件后缀名不一样而已

8、导出excle文件

   ◆表.to_excel(地址，header=1，index=None，encoding='gbk')
    #这里的sep参数，指用'|'隔开，否则默认为 ','隔开

    例：表.to_excel('C:\\Users\\user\\Desktop\\file.xslx',header=1,index=None,encoding='gbk')

猜你喜欢