python数据清洗2

1、筛选

   ◆a = 表[表['属性列名']=='值']
     print(a)
     
   ◆a = 表[表['属性列名'].isin(['值1','值2'])]
     print(a)
    
2、新建变量 
   ◆表['a'] = 1 
     #新建了一属性列 a ,并且初始化值全为1.
     #注意,这时候的值是 object 类型,若要进行运算,需要先转化类型(如:表['a'] = 表['a'].map(lambda x:int(x))
  
3、去重

   ◆表.duplicated(['属性1','属性2'])     #返回bool型,默认第一个出现的返回False,之后重复的返回True
     
     表.drop_duplicates(['属性1','属性2'])  #去掉重复的,默认返回第一个出现的
   
     #注意,这里的去重,是指 属性1、属性2 都一样的,才去掉。若不要 ['属性1','属性2'] 部分,则是默认要所有属性都一样的才叫重复

     若想保留的最后一次出现的,只需要加上参数  take_last=True 即可
     
4、统计
   
   ◆a = 表['属性1'].groupby([表['属性2'],表['属性3']]).count()
     a = pd.DataFrame(a)
    #先按照属性2,接着按照属性3,分类统计属性1
    #为了输出美观和之后处理,把它转化为dataframe表格格式


5、排序

   ◆对于列表排序(sorted,sort)
     方法一:sorted(列表)
     方法二:列表.sort()
     #对于上面两种方法,都是默认为升序,如果加上参数reserve=True,就会变为降序
     #并且方法一不会改变原来列表,但是方法二会改变原来的列表

   ◆对字典排序(sorted)
     根据字典的键排序:sorted(字典)    #只返回排列好的字典的键,并没有值
     根据字典的键值排序:sorted(字典.items(),key =lambda item:item[1])    #以列表的形式返回排列好的元组数组
     #字典.items()以列表形式返回可遍历的(键, 值) 元组数组
     #若其中的对应参数改为item[0],则对应的是键本身了
     #两个方法,都默认为升序,若加上参数reserve=True,会变为降序


   ◆对DataFrame、numpy排序
     值排列:
       表.sort(by= ['属性1','属性2'])                      #先按属性一排列,再按属性2排列
       表.sort_values(by='属性1',ascending = False)       #按属性1降序排列
       #两种方式都默认为升序排列,可通过参数ascending来改变
     索引排列:
       表=表.set_index('属性1')            #设置属性1对应的列为索引列
       表.sort_index()                     #使用设置的索引进行排序
       表.sort_index(ascending=False)      #使用索引列降序排列

6、导出txt文件

   ◆表.to_csv(地址,header=1,index=None,sep='|',encoding='gbk')   
    #这里的sep参数,指用'|'隔开,否则默认为 ','隔开
     
    例:表.to_csv('C:\\Users\\user\\Desktop\\file.txt',header=1,index=None,encoding='gbk')

7、导出csv文件   
 
   ◆表.to_csv(地址,header=1,index=None,sep='|',encoding='gbk')   
    #这里的sep参数,指用'|'隔开,否则默认为 ','隔开
     
    例:表.to_csv('C:\\Users\\user\\Desktop\\file.csv',header=1,index=None,encoding='gbk')
     
#可以看出,导出txt和csv几乎一样的操作,只是文件地址里的文件后缀名不一样而已

8、导出excle文件     

   ◆表.to_excel(地址,header=1,index=None,encoding='gbk')   
    #这里的sep参数,指用'|'隔开,否则默认为 ','隔开
     
    例:表.to_excel('C:\\Users\\user\\Desktop\\file.xslx',header=1,index=None,encoding='gbk')
     

猜你喜欢

转载自blog.csdn.net/weixin_42553433/article/details/81490477