pandas text processing notes

# 单括号取 DataFrame 中一列,返回 Series 类型
df['text_id'] 

# 双括号取 DataFrame 中一列,返回 DataFrame 类型
df[['text_id']]

# 取两列
# https://blog.csdn.net/weixin_38859557/article/details/80977643
df[['text_id', 'text']]

 

# 转成 list 形式
mysents = df['sentence'].tolist()

 

# a 是一个 numpy.ndarray 形式
a = df['sentence'].values

# 取第一个值
b = df['sentence'].values[0]

 

# 统计某个字段下有哪些类别及数量
df['category'].value_counts()

 

# 将多个相同的 df 合并
https://blog.csdn.net/qq_41853758/article/details/83280104 

 

# 空值处理
# https://blog.csdn.net/lwgkzl/article/details/80948548
# 去除含有空值的行,并直接在原数据(df)上修改
df.dropna( inplace = True )

# 查看一下
df.info()

 

# 重置索引 reset_index
# https://blog.csdn.net/lujiandong1/article/details/52929090
# https://www.cnblogs.com/keye/p/11229863.html

# 重置一下索引,inplace=True 在原数据(df_pro)上修改;
# 不想保留原来的index,drop=True
df_pro.reset_index( inplace = True, drop = True)

 

# 设置显示宽度
pd.set_option('display.max_colwidth', 170)


# 设置行数全部显示
pd.set_option('display.max_rows', None)

 

# 将多个 list 转为 dataframe
# sc_list: list,; bc_list: list; label_list: list
 
train = pd.DataFrame({'sentence1': sc_list, 'sentence2': bc_list, 'label': label_list})
 
 
# 然后保存为 csv 文件
# 不带索引, 参考 https://blog.csdn.net/orangefly0214/article/details/80764569
train.to_csv('data/train.csv', index=0)
 
# 带索引,索引列名为 id
train.to_csv('data/train.csv', index_label='id')

 

# 取交集
https://www.cnblogs.com/kaerxifa/p/13155768.html

pd.merge(df1,df2)


# 取差集
https://www.cnblogs.com/jaysonteng/p/12360604.html

 

 

Guess you like

Origin blog.csdn.net/sdaujz/article/details/106266370