20230507 Use python3 para convertir por lotes documentos DOCX a TXT
2023/5/7 20:22
WIN10 usa python3.11
# – codificación: gbk –
import os
from pdf2docx import Converter
from win32com import client as wc
"""Se requiere un subcontrato pywin32com aquí"""
# Leer el contenido de texto del archivo pdf
def DocxToTxt(inputFinallyPath, outputFinallyPath):
identificador de palabra = wc.Dispatch("Word.Application")
identificador de palabra.Visible = 0 # Ejecutar en segundo plano, no mostrar
identificador de palabra.DisplayAlerts = 0 # Hacer no advertir
doc = identificador de palabra.Documentos.Open(inputFinallyPath)
doc.SaveAs(outputFinallyPath, 4) # txt=4, html=10, docx=16,pdf=17
doc.Close
si __nombre__ == '__principal__':
# Ruta de entrada
inputPath = r'D:\pythonproject\pdf_to_txt\input'
#Ruta de salida, preferiblemente una ruta absoluta
outputPath = r'D:\pythonproject\pdf_to_txt\output'
# Listar los archivos en la carpeta
pdfList = os.listdir( inputPath)
# Almacenamiento de lectura por lotes
pdf_num = 1
para li en pdfList:
print(li)
inputFinallyPath = inputPath + '/' + li
li = li.replace('.docx', '.txt')
outputFinallyPath = outputPath + '/' + li
DocxToTxt(inputFinallyPath, outputFinallyPath)
print('%d docx se ha convertido a txt' % pdf_num)
pdf_num = pdf_num + 1
print('Un total de %d artículos docx se han convertido completamente a txt' % (pdf_num-1))
¡Utilice el traductor de Google para traducir 88 subtítulos DOCX japoneses a la versión en chino simplificado!
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.
C:\Usuarios\QQ>python3
C:\Usuarios\QQ>python
C:\Users\QQ>python
Python 3.11.3 (tags/v3.11.3:f3909b8, 4 de abril de 2023, 23:49:59) [MSC v.1934 64 bit (AMD64)] en win32 Escriba
"ayuda", " copyright", "créditos" o "licencia" para obtener más información.
>>> import os
>>> from pdf2docx import Converter
Traceback (última llamada más reciente):
Archivo "<stdin>", línea 1, en <módulo>
ModuleNotFoundError: ningún módulo llamado 'pdf2docx'
>>>
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.
C:\Users\QQ>pip install pdf2docx
Recopilación de pdf2docx
Descarga de pdf2docx-0.5.6-py3-none-any.whl (148 kB)
-------------------- -------------------- 148,4/148,4 kB 368,3 kB/s eta 0:00:00
Recopilación de PyMuPDF>=1.19.0
Descarga de PyMuPDF-1.22.2-cp311- cp311-win_amd64.whl (11.7 MB)
---------------------------------------- 11.7 /11,7 MB 12,8 MB/s eta 0:00:00
Recopilación de python-docx>=0.8.10
Descarga de python-docx-0.8.11.tar.gz (5,6 MB)
------------ ---------------------------- 5.6/5.6 MB 1.6 MB/s eta 0:00:00
Preparando metadatos (setup.py) . .. hecho
Recopilación de fonttools>=4.24.0
Descarga de fonttools-4.39.3-py3-none-any.whl (1.0 MB)
---------------------------------------- 1.0/1.0 MB 12.8 MB/s hasta 0 :00:00
Recopilando numpy>=1.17.2
Descargando numpy-1.24.3-cp311-cp311-win_amd64.whl (14.8 MB)
--------------------- ------------------- 14.8/14.8 MB 21.1 MB/s eta 0:00:00
Recopilando opencv-python>=4.5
Descargando opencv_python-4.7.0.72-cp37-abi3 -win_amd64.whl (38.2 MB)
---------------------------------------- 38.2/ 38.2 MB 12.6 MB/s eta 0:00:00
Coleccionando fuego>=0.3.0
Descargando fuego-0.5.0.tar.gz (88 kB)
----------------- -------------- 88,3/88,3 kB 4,9 MB/s eta 0:00:00
Preparando metadatos (setup.py) ... hecho
Recopilación de seis
Descargando six-1.16.0-py2.py3-none-any.whl (11 kB)
Recopilación de termcolor
Descarga de termcolor-2.3.0-py3-none-any.whl (6,9 kB)
Recopilación de lxml>=2.3.2
Descarga de lxml-4.9.2-cp311-cp311-win_amd64.whl (3,8 MB)
----- ----------------------------------- 3,8/3,8 MB 10,0 MB/s eta 0:00:00
Instalación paquetes recopilados: termcolor, six, PyMuPDF, numpy, lxml, fonttools, python-docx, opencv-python, fire, pdf2docx
ADVERTENCIA: El script f2py.exe está instalado en 'C:\Users\QQ\AppData\Local\Packages\ PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' que no está en PATH.
Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
ADVERTENCIA: Los scripts fonttools.exe, pyftmerge.exe, pyftsubset.exe y ttx.exe están instalados en 'C:\Users\QQ\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311 \Scripts' que no está en PATH.
Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
DESAPROBACIÓN: python-docx se está instalando con el método heredado 'setup.py install', porque no tiene un 'pyproject.toml' y el paquete 'wheel' no está instalado. pip 23.1 aplicará este cambio de comportamiento. Un posible reemplazo es habilitar la opción '--use-pep517'. La discusión se puede encontrar en https://github.com/pypa/pip/issues/8559
Ejecutando setup.py install para python-docx ... hecho
DESAPROBACIÓN: Fire se está instalando usando el método heredado 'setup.py install', porque no tiene un 'pyproject.toml' y el paquete 'wheel' no está instalado. pip 23.1 aplicará este cambio de comportamiento. Un posible reemplazo es habilitar la opción '--use-pep517'. La discusión se puede encontrar en https://github.com/pypa/pip/issues/8559
Ejecutando setup.py install for fire... done
ADVERTENCIA: El script pdf2docx.exe está instalado en 'C:\Users\QQ\AppData \Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' que no está en PATH.
Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
PyMuPDF-1.22.2 fire-0.5.0 fonttools-4.39.3 lxml-4.9.2 numpy-1.24.3 opencv-python-4.7.0.72 pdf2docx-0.5.6 python-docx-0.8.11 six-1.16 se instaló correctamente. 0 termcolor-2.3.0
[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip
C:\Usuarios\QQ>
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.
C:\Users\QQ>pip install win32com
ERROR: No se pudo encontrar una versión que satisfaga el requisito win32com (de versiones: ninguna)
ERROR: No se encontró una distribución coincidente para win32com
[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip
C:\Users\QQ>
C:\Users\QQ>pip install pypwin32
ERROR: No se pudo encontrar una versión que satisfaga el requisito pypwin32 (de versiones: ninguna)
ERROR: No se encontró una distribución coincidente para pypwin32
[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip
C:\Users\QQ>
C:\Users\QQ>pip install pypiwin32
Recopilación de pypiwin32
Descarga de pypiwin32-223-py3-none-any.whl (1,7 kB)
Recopilación de pywin32>=223
Descarga de pywin32-306-cp311-cp311-win_amd64 .whl (9,2 MB)
---------------------------------------- 9,2/9,2 MB 895,2 kB/s eta 0:00:00
Instalación de paquetes recopilados: pywin32, pypiwin32
Instalación exitosa de pypiwin32-223 pywin32-306
[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip
C:\Usuarios\QQ>
C:\Usuarios\QQ>
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.
C:\Usuarios\QQ>d:
D:\>dir *.pty
El volumen en la unidad D es
el número de serie del volumen DATA es 547F-1046
directorio D:\
archivo no encontrado
D:\>dir *.py
El volumen en la unidad D es
el número de serie del volumen DATA es 547F-1046
directorio D:\
07/05/2023 19:55 1.221 pdf2doc2.py
1 archivo 1.221 bytes
0 directorios 195.912.142.848 bytes disponibles
D:\>python pdf2doc2.py
SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero no se declara codificación; ver https://peps.python.org/pep-0263/ para más detalles
D:\>
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.
C:\Usuarios\QQ>d:
D:\>dir *.pty
El volumen en la unidad D es
el número de serie del volumen DATA es 547F-1046
directorio D:\
archivo no encontrado
D:\>dir *.py
El volumen en la unidad D es
el número de serie del volumen DATA es 547F-1046
directorio D:\
07/05/2023 19:55 1.221 pdf2doc2.py
1 archivo 1.221 bytes
0 directorios 195.912.142.848 bytes disponibles
D:\>python pdf2doc2.py
SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero no se declara codificación; ver https://peps.python.org/pep-0263/ para más detalles
D:\>
D:\>python pdf2doc2.py
Archivo "D:\pdf2doc2.py", línea 36
print('Un total de %d artículos docx se han convertido completamente a txt' pdf_num-1))
^
SyntaxError: no coincidente ') '
D:\>python pdf2doc2.py
MIDE-599.google.docx
Parte 1 docx se ha convertido a txt
OAE-101.google.docx
Parte 2 docx se ha convertido a txt
OAE-165.google.docx
Parte 3 docx se ha convertido convertido Convertido a txt
OFJE-139 1.google.docx
4.° docx convertido a txt OFJE
-139 2.google.docx
5.° docx convertido a txt
OFJE-189.google.docx
6.° docx convertido a txt
OFJE-236.google.docx
Parte 7 docx convertido a txt
pSSNI-473.google.docx
Parte 8 docx convertido a txt
SIVR-001.google.docx
Parte 9 docx convertido a txt
SIVR-002.google .docx
10º docx convertido a txt
SIVR-003.google.docx
11.º docx convertido a txt
SIVR-012 1.google.docx
12.º docx convertido a txt
SIVR-012 2.google.docx
13.º docx convertido a txt
SIVR-015 1.google.docx
14.º docx convertido a txt
SIVR-015 2.google.docx
15.º docx convertido a txt
SIVR-016 1.google.docx
16.º Artículo docx convertido a txt
SIVR-016 2. google.docx
Artículo 17 docx convertido a txt
SIVR-017 1.google.docx
Artículo 18 docx convertido a txt
SIVR-017 2.google.docx
Artículo 19 docx Convertido a txt
SIVR-017 3.google.docx
20 docx convertido a txt
SIVR-033 1.google.docx
docx 21 convertido a txt
SIVR -033 2.google.docx
docx 22 convertido a txt
SIVR-033 3.google.docx
docx 23 convertido a txt
SIVR-033 4.google.docx
docx 24 convertido a txt
SIVR-033 5.google.docx
25th docx convertido a txt
SIVR-033 6. google.docx
No. 26 docx convertido a txt
SIVR-034 1. google.docx
No. 27 docx convertido a txt
SIVR-034 2. google.docx
No. 28 docx convertido a txt
SIVR- 034 3. google.docx
docx 29 convertido a txt
SIVR-044 1. google.docx
docx 30 convertido a txt
SIVR-044 2. google.docx
docx 31 convertido a txt
SIVR-061 1 .google.docx
docx 32 convertido a txt
SIVR-061 2.google.docx
docx 33 convertido a txt
SIVR-061 3.google.docx
docx 34 convertido a txt
SIVR-061 4.google .docx
docx 35 convertido a txt
SIVR-067 1.google.docx
docx 36 convertido a txt
SIVR -067 -067 2.google.docx
37.º docx convertido a txt
SIVR-067 3.google.docx
Artículo 38 docx convertido a txt
SNIS-786.google.docx
Artículo 39 docx convertido a txt SNIS-
800.google.docx
Artículo 40 docx convertido a txt
SNIS-850 1.google.docx
Artículo 41 docx Convertido a txt
SNIS-850 2 .google.docx
No. 42 docx convertido a txt
SNIS-872.google.docx
No. 43 docx convertido a txt
SNIS-896.google.docx
No. 44 docx convertido a txt
SNIS-919.google.docx
No. 45 docx convertido a txt
SNIS-964.google.docx
No. 46 docx convertido a txt
SNIS-964.google2.docx
No. 47 docx convertido a txt
SNIS-986.google .docx
48.º docx convertido a txt
SSNI-009.google.docx
docx 49 convertido a txt
SSNI-030.google.docx
docx 50 convertido a txt
SSNI-054.google.docx
Artículo 51 docx convertido a txt
SSNI-077.google.docx Artículo
52 docx convertido a txt SSNI-101.google.docx Artículo 53 docx convertido a txt SSNI-127.google.docx Artículo 54 docx convertido Convertido a txt SSNI-152. google.docx Artículo 55 docx convertido a txt SSNI-178.google.docx Artículo 56 docx convertido a txt SSNI -205.google.docx Artículo 57 docx convertido a txt SSNI-178.google.docx Artículo 57 docx convertido a txt 229. google.docx No. 58 docx convertido a txt SSNI-254.google.docx No. 59 docx convertido a txt SSNI-279.google.docx No. 60 docx convertido a txt SSNI-301.google.docx Artículo 61 docx convertido a txt SSNI-322.google.docx Artículo 62 docx convertido a txt SSNI-344.google.docx Artículo 63 docx convertido a txt SSNI-388.google.docx
64.º docx convertido a txt
SSNI-409.google.docx
65.º docx convertido a txt SSNI-
432.google.docx 66.º docx convertido a txt SSNI-452.google.docx 67.º docx convertido Convertido a txt SSNI-473.google.docx No 68 docx convertido a txt SSNI-493.google.docx No. 69 docx convertido a txt SSNI-516.google.docx No. 70 docx convertido a txt SSNI-542.google.docx 71st docx convertido a txt SSNI-566. google.docx 72nd docx convertido a txt SSNI-589.google.docx 73rd docx convertido a txt SSNI-618.google.docx Artículo 74 docx convertido a txt SSNI-644.google.docx Artículo 75 docx convertido a txt SSNI-674. google.docx Artículo 76 docx convertido a txt SSNI-703.google.docx
77.º docx convertido a txt
SSNI-730.google.docx
78.º docx convertido a txt TEK
-067.google.docx
79.º docx convertido a txt
TEK-071.google.docx
80.º docx convertido Convertido a txt
TEK-072.google.docx
No .81 docx convertido a txt
TEK-073.google.docx
No. 82 docx convertido a txt
TEK-076.google.docx
No. 83 docx convertido a txt
TEK- 079 Solo audio.google.docx
No. 84 docx convertido a txt
TEK-080.google.docx
No. 85 docx convertido a txt
TEK-081 Audio only.google.docx
No. 86 docx convertido a txt
TEK-083 Audio only.google.docx
Capítulo 87 docx convertido a txt
TEK-097.google .docx
Capítulo 88 docx convertido a txt
D:\>
Referencia:
conversión por lotes de python DOCX TXT
https://blog.csdn.net/weixin_46255747/article/details/129961988
python implementa docx por lotes a txt
ModuleNotFoundError: ningún módulo llamado 'pdf2docx'
instalación de pip en python win32com
https://blog.csdn.net/qq_45662588/article/details/130315080
La solución para instalar la biblioteca win32com en python3.9
https://blog.csdn.net/longe20111104/article/details/129754624
pip install win32com solución de error
pip install pypiwin32
SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero sin codificación d
https://blog.csdn.net/coco_apple/article/details/113437552
SyntaxError: Código no UTF-8 que comienza con '\xd5' en el archivo
# – codificación: gbk –