[Procesamiento de tablas] Procesamiento por lotes de documentos de Excel

Aquí hay un registro, las funciones y usos que se pueden usar para procesar tablas

Conociendo ciertos parámetros, quiero mantener estas filas en la tabla CVS para estos valores:

import os
import pandas as pd
import torch
import tqdm

file = os.listdir('./dataset')

#pathname为文件存放位置及文件名称
pathname = './data_list/split_10001.csv'
#df数据类型为dataframe
df = pd.read_csv(pathname, encoding='gbk')
ddf = pd.read_csv(pathname, encoding='gbk')

a = file[0]
for i in file:
    df = df[~df['ID'].isin([int(i)])]
# print(df)
for i in df['ID']:
    ddf = ddf[~ddf['ID'].isin([i])]

print(ddf)
print(len(ddf))

ddf.to_csv('./data_list/split_10002.csv', index=False, sep=',',encoding = 'gbk')

Filtre los elementos de la lista que contienen determinados caracteres:

files=[]
for file in os.listdir(path):
    if file.endswith(".doc"): #排除文件夹内的其它干扰文件,只获取".doc"后缀的word文件
        files.append(path+'/'+file)

formato doc a docx

from win32com import client as wc #导入模块

word = wc.Dispatch("Word.Application") # 打开word应用程序
for file in files:
    print(file)
    doc = word.Documents.Open(file) #打开word文件
    doc.SaveAs("{}x".format(file), 12)#另存为后缀为".docx"的文件,其中参数12指docx文件
    doc.Close() #关闭原来word文件
    os.remove('./1班/'+ file)         ## 删除原本的文件
word.Quit()
print(f"装换完成!--- {file}")

Contar palabras en documento de Word

path = './1班'  # word文档文件夹路径
word_list = os.listdir(path)  # 获取文件夹下的文件列表
for i in word_list:
    word = 0
    doc = docx.Document(path + '/{}'.format(i))  # 打开每一个 Word 文档
    for j in doc.paragraphs:  # 遍历某一个 word 文档的所有段落
        word += len(j.text)  # j.text 为某段落的所有字符,len 即为段落字符数量

Supongo que te gusta

Origin blog.csdn.net/qq_42792802/article/details/127775235
Recomendado
Clasificación