テキストテキスト内のコンテンツをフィルタリングし、特定の数字とテキストを除外し、繰り返される 6 桁のコードを削除するシンプルなスクリーニングコード

import re
import pandas as pd

# 读取txt文件
with open('完整内容.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 提取商品编码
pattern = r'\b\d{6}\b'  # 匹配6位数字的单词
codes = re.findall(pattern, text)

# 去除重复的编码
unique_codes = list(set(codes))

# 创建DataFrame对象
df = pd.DataFrame(unique_codes, columns=['编码'])

# 保存到Excel文件
df.to_excel('筛选后的.xlsx', index=False)

テキストテキスト内のコンテンツをフィルタリングし、特定の数字とテキストを除外し、繰り返される 6 桁のコードを削除するシンプルなスクリーニングコード

2023.06.07

おすすめ

転載: blog.csdn.net/weixin_55008315/article/details/131084782