20230507 Use python3 para convertir por lotes documentos DOCX a TXT

20230507 Use python3 para convertir por lotes documentos DOCX a TXT
2023/5/7 20:22

WIN10 usa python3.11

# – codificación: gbk –
import os
from pdf2docx import Converter
from win32com import client as wc
"""Se requiere un subcontrato pywin32com aquí"""

# Leer el contenido de texto del archivo pdf
def DocxToTxt(inputFinallyPath, outputFinallyPath):
    identificador de palabra = wc.Dispatch("Word.Application")
    identificador de palabra.Visible = 0 # Ejecutar en segundo plano, no mostrar
    identificador de palabra.DisplayAlerts = 0 # Hacer no advertir
    doc = identificador de palabra.Documentos.Open(inputFinallyPath)
    doc.SaveAs(outputFinallyPath, 4) # txt=4, html=10, docx=16,pdf=17
    doc.Close


si __nombre__ == '__principal__':

        # Ruta de entrada
        inputPath = r'D:\pythonproject\pdf_to_txt\input'
        #Ruta de salida, preferiblemente una ruta absoluta
        outputPath = r'D:\pythonproject\pdf_to_txt\output'
      
        # Listar los archivos en la carpeta
        pdfList = os.listdir( inputPath)
        # Almacenamiento de lectura por lotes
        pdf_num = 1
        para li en pdfList:
            print(li)
            inputFinallyPath = inputPath + '/' + li
            li = li.replace('.docx', '.txt')
            outputFinallyPath = outputPath + '/' + li
            DocxToTxt(inputFinallyPath, outputFinallyPath)
            print('%d docx se ha convertido a txt' % pdf_num)
            pdf_num = pdf_num + 1
        print('Un total de %d artículos docx se han convertido completamente a txt' % (pdf_num-1))

 


¡Utilice el traductor de Google para traducir 88 subtítulos DOCX japoneses a la versión en chino simplificado!
Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Usuarios\QQ>python3

C:\Usuarios\QQ>python

C:\Users\QQ>python
Python 3.11.3 (tags/v3.11.3:f3909b8, 4 de abril de 2023, 23:49:59) [MSC v.1934 64 bit (AMD64)] en win32 Escriba
"ayuda", " copyright", "créditos" o "licencia" para obtener más información.
>>> import os
>>> from pdf2docx import Converter
Traceback (última llamada más reciente):
  Archivo "<stdin>", línea 1, en <módulo>
ModuleNotFoundError: ningún módulo llamado 'pdf2docx'
>>>

 


Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Users\QQ>pip install pdf2docx
Recopilación de pdf2docx
  Descarga de pdf2docx-0.5.6-py3-none-any.whl (148 kB)
     -------------------- -------------------- 148,4/148,4 kB 368,3 kB/s eta 0:00:00
Recopilación de PyMuPDF>=1.19.0
  Descarga de PyMuPDF-1.22.2-cp311- cp311-win_amd64.whl (11.7 MB)
     ---------------------------------------- 11.7 /11,7 MB 12,8 MB/s eta 0:00:00
Recopilación de python-docx>=0.8.10
  Descarga de python-docx-0.8.11.tar.gz (5,6 MB)
     ------------ ---------------------------- 5.6/5.6 MB 1.6 MB/s eta 0:00:00
  Preparando metadatos (setup.py) . .. hecho
Recopilación de fonttools>=4.24.0
  Descarga de fonttools-4.39.3-py3-none-any.whl (1.0 MB)
     ---------------------------------------- 1.0/1.0 MB 12.8 MB/s hasta 0 :00:00
Recopilando numpy>=1.17.2
  Descargando numpy-1.24.3-cp311-cp311-win_amd64.whl (14.8 MB)
     --------------------- ------------------- 14.8/14.8 MB 21.1 MB/s eta 0:00:00
Recopilando opencv-python>=4.5
  Descargando opencv_python-4.7.0.72-cp37-abi3 -win_amd64.whl (38.2 MB)
     ---------------------------------------- 38.2/ 38.2 MB 12.6 MB/s eta 0:00:00
Coleccionando fuego>=0.3.0
  Descargando fuego-0.5.0.tar.gz (88 kB)
     ----------------- -------------- 88,3/88,3 kB 4,9 MB/s eta 0:00:00
  Preparando metadatos (setup.py) ... hecho
Recopilación de seis
  Descargando six-1.16.0-py2.py3-none-any.whl (11 kB)
Recopilación de termcolor
  Descarga de termcolor-2.3.0-py3-none-any.whl (6,9 kB)
Recopilación de lxml>=2.3.2
  Descarga de lxml-4.9.2-cp311-cp311-win_amd64.whl (3,8 MB)
     ----- ----------------------------------- 3,8/3,8 MB 10,0 MB/s eta 0:00:00
Instalación paquetes recopilados: termcolor, six, PyMuPDF, numpy, lxml, fonttools, python-docx, opencv-python, fire, pdf2docx
  ADVERTENCIA: El script f2py.exe está instalado en 'C:\Users\QQ\AppData\Local\Packages\ PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' que no está en PATH.
  Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
  ADVERTENCIA: Los scripts fonttools.exe, pyftmerge.exe, pyftsubset.exe y ttx.exe están instalados en 'C:\Users\QQ\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311 \Scripts' que no está en PATH.
  Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
  DESAPROBACIÓN: python-docx se está instalando con el método heredado 'setup.py install', porque no tiene un 'pyproject.toml' y el paquete 'wheel' no está instalado. pip 23.1 aplicará este cambio de comportamiento. Un posible reemplazo es habilitar la opción '--use-pep517'. La discusión se puede encontrar en https://github.com/pypa/pip/issues/8559
  Ejecutando setup.py install para python-docx ... hecho
  DESAPROBACIÓN: Fire se está instalando usando el método heredado 'setup.py install', porque no tiene un 'pyproject.toml' y el paquete 'wheel' no está instalado. pip 23.1 aplicará este cambio de comportamiento. Un posible reemplazo es habilitar la opción '--use-pep517'. La discusión se puede encontrar en https://github.com/pypa/pip/issues/8559
  Ejecutando setup.py install for fire... done
  ADVERTENCIA: El script pdf2docx.exe está instalado en 'C:\Users\QQ\AppData \Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' que no está en PATH.
  Considere agregar este directorio a PATH o, si prefiere suprimir esta advertencia, use --no-warn-script-location.
PyMuPDF-1.22.2 fire-0.5.0 fonttools-4.39.3 lxml-4.9.2 numpy-1.24.3 opencv-python-4.7.0.72 pdf2docx-0.5.6 python-docx-0.8.11 six-1.16 se instaló correctamente. 0 termcolor-2.3.0

[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip

C:\Usuarios\QQ>

 

 


Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Users\QQ>pip install win32com
ERROR: No se pudo encontrar una versión que satisfaga el requisito win32com (de versiones: ninguna)
ERROR: No se encontró una distribución coincidente para win32com

[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip

C:\Users\QQ>
C:\Users\QQ>pip install pypwin32
ERROR: No se pudo encontrar una versión que satisfaga el requisito pypwin32 (de versiones: ninguna)
ERROR: No se encontró una distribución coincidente para pypwin32

[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip

C:\Users\QQ>
C:\Users\QQ>pip install pypiwin32
Recopilación de pypiwin32
  Descarga de pypiwin32-223-py3-none-any.whl (1,7 kB)
Recopilación de pywin32>=223
  Descarga de pywin32-306-cp311-cp311-win_amd64 .whl (9,2 MB)
     ---------------------------------------- 9,2/9,2 MB 895,2 kB/s eta 0:00:00
Instalación de paquetes recopilados: pywin32, pypiwin32
Instalación exitosa de pypiwin32-223 pywin32-306

[aviso] Una nueva versión de pip disponible: 22.3.1 -> 23.1.2
[aviso] Para actualizar, ejecute: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python. exe -m pip instalar --actualizar pip

C:\Usuarios\QQ>
C:\Usuarios\QQ>

 

 

 


Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Usuarios\QQ>d:

D:\>dir *.pty
 El volumen en la unidad D es
 el número de serie del volumen DATA es 547F-1046

 directorio D:\

archivo no encontrado

D:\>dir *.py
 El volumen en la unidad D es
 el número de serie del volumen DATA es 547F-1046

 directorio D:\

07/05/2023 19:55 1.221 pdf2doc2.py
               1 archivo 1.221 bytes
               0 directorios 195.912.142.848 bytes disponibles

D:\>python pdf2doc2.py
SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero no se declara codificación; ver https://peps.python.org/pep-0263/ para más detalles

D:\>


Microsoft Windows [Versión 10.0.19044.2728]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Usuarios\QQ>d:

D:\>dir *.pty
 El volumen en la unidad D es
 el número de serie del volumen DATA es 547F-1046

 directorio D:\

archivo no encontrado

D:\>dir *.py
 El volumen en la unidad D es
 el número de serie del volumen DATA es 547F-1046

 directorio D:\

07/05/2023 19:55 1.221 pdf2doc2.py
               1 archivo 1.221 bytes
               0 directorios 195.912.142.848 bytes disponibles

D:\>python pdf2doc2.py
SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero no se declara codificación; ver https://peps.python.org/pep-0263/ para más detalles

D:\>
D:\>python pdf2doc2.py
  Archivo "D:\pdf2doc2.py", línea 36
    print('Un total de %d artículos docx se han convertido completamente a txt' pdf_num-1))
                                           ^
SyntaxError: no coincidente ') '

D:\>python pdf2doc2.py
MIDE-599.google.docx
Parte 1 docx se ha convertido a txt
OAE-101.google.docx
Parte 2 docx se ha convertido a txt
OAE-165.google.docx
Parte 3 docx se ha convertido convertido Convertido a txt
OFJE-139 1.google.docx
4.° docx convertido a txt OFJE
-139 2.google.docx
5.° docx convertido a txt
OFJE-189.google.docx
6.° docx convertido a txt
OFJE-236.google.docx
Parte 7 docx convertido a txt
pSSNI-473.google.docx
Parte 8 docx convertido a txt
SIVR-001.google.docx
Parte 9 docx convertido a txt
SIVR-002.google .docx
10º docx convertido a txt
SIVR-003.google.docx
11.º docx convertido a txt
SIVR-012 1.google.docx
12.º docx convertido a txt
SIVR-012 2.google.docx
13.º docx convertido a txt
SIVR-015 1.google.docx
14.º docx convertido a txt
SIVR-015 2.google.docx
15.º docx convertido a txt
SIVR-016 1.google.docx
16.º Artículo docx convertido a txt
SIVR-016 2. google.docx
Artículo 17 docx convertido a txt
SIVR-017 1.google.docx
Artículo 18 docx convertido a txt
SIVR-017 2.google.docx
Artículo 19 docx Convertido a txt
SIVR-017 3.google.docx
20 docx convertido a txt
SIVR-033 1.google.docx
docx 21 convertido a txt
SIVR -033 2.google.docx
docx 22 convertido a txt
SIVR-033 3.google.docx
docx 23 convertido a txt
SIVR-033 4.google.docx
docx 24 convertido a txt
SIVR-033 5.google.docx
25th docx convertido a txt
SIVR-033 6. google.docx
No. 26 docx convertido a txt
SIVR-034 1. google.docx
No. 27 docx convertido a txt
SIVR-034 2. google.docx
No. 28 docx convertido a txt
SIVR- 034 3. google.docx
docx 29 convertido a txt
SIVR-044 1. google.docx
docx 30 convertido a txt
SIVR-044 2. google.docx
docx 31 convertido a txt
SIVR-061 1 .google.docx
docx 32 convertido a txt
SIVR-061 2.google.docx
docx 33 convertido a txt
SIVR-061 3.google.docx
docx 34 convertido a txt
SIVR-061 4.google .docx
docx 35 convertido a txt
SIVR-067 1.google.docx
docx 36 convertido a txt
SIVR -067 -067 2.google.docx
37.º docx convertido a txt
SIVR-067 3.google.docx
Artículo 38 docx convertido a txt
SNIS-786.google.docx
Artículo 39 docx convertido a txt SNIS-
800.google.docx
Artículo 40 docx convertido a txt
SNIS-850 1.google.docx
Artículo 41 docx Convertido a txt
SNIS-850 2 .google.docx
No. 42 docx convertido a txt
SNIS-872.google.docx
No. 43 docx convertido a txt
SNIS-896.google.docx
No. 44 docx convertido a txt
SNIS-919.google.docx
No. 45 docx convertido a txt
SNIS-964.google.docx
No. 46 docx convertido a txt
SNIS-964.google2.docx
No. 47 docx convertido a txt
SNIS-986.google .docx
48.º docx convertido a txt
SSNI-009.google.docx
docx 49 convertido a txt
SSNI-030.google.docx
docx 50 convertido a txt
SSNI-054.google.docx
Artículo 51 docx convertido a txt
SSNI-077.google.docx Artículo
52 docx convertido a txt SSNI-101.google.docx Artículo 53 docx convertido a txt SSNI-127.google.docx Artículo 54 docx convertido Convertido a txt SSNI-152. google.docx Artículo 55 docx convertido a txt SSNI-178.google.docx Artículo 56 docx convertido a txt SSNI -205.google.docx Artículo 57 docx convertido a txt SSNI-178.google.docx Artículo 57 docx convertido a txt 229. google.docx No. 58 docx convertido a txt SSNI-254.google.docx No. 59 docx convertido a txt SSNI-279.google.docx No. 60 docx convertido a txt SSNI-301.google.docx Artículo 61 docx convertido a txt SSNI-322.google.docx Artículo 62 docx convertido a txt SSNI-344.google.docx Artículo 63 docx convertido a txt SSNI-388.google.docx























64.º docx convertido a txt
SSNI-409.google.docx
65.º docx convertido a txt SSNI-
432.google.docx 66.º docx convertido a txt SSNI-452.google.docx 67.º docx convertido Convertido a txt SSNI-473.google.docx No 68 docx convertido a txt SSNI-493.google.docx No. 69 docx convertido a txt SSNI-516.google.docx No. 70 docx convertido a txt SSNI-542.google.docx 71st docx convertido a txt SSNI-566. google.docx 72nd docx convertido a txt SSNI-589.google.docx 73rd docx convertido a txt SSNI-618.google.docx Artículo 74 docx convertido a txt SSNI-644.google.docx Artículo 75 docx convertido a txt SSNI-674. google.docx Artículo 76 docx convertido a txt SSNI-703.google.docx






















77.º docx convertido a txt
SSNI-730.google.docx
78.º docx convertido a txt TEK
-067.google.docx
79.º docx convertido a txt
TEK-071.google.docx
80.º docx convertido Convertido a txt
TEK-072.google.docx
No .81 docx convertido a txt
TEK-073.google.docx
No. 82 docx convertido a txt
TEK-076.google.docx
No. 83 docx convertido a txt
TEK- 079 Solo audio.google.docx
No. 84 docx convertido a txt
TEK-080.google.docx
No. 85 docx convertido a txt
TEK-081 Audio only.google.docx
No. 86 docx convertido a txt
TEK-083 Audio only.google.docx
Capítulo 87 docx convertido a txt
TEK-097.google .docx
Capítulo 88 docx convertido a txt

D:\>


Referencia:
conversión por lotes de python DOCX TXT


https://blog.csdn.net/weixin_46255747/article/details/129961988
python implementa docx por lotes a txt


ModuleNotFoundError: ningún módulo llamado 'pdf2docx'


instalación de pip en python win32com


https://blog.csdn.net/qq_45662588/article/details/130315080
La solución para instalar la biblioteca win32com en python3.9


https://blog.csdn.net/longe20111104/article/details/129754624
pip install win32com solución de error
pip install pypiwin32


SyntaxError: código no UTF-8 que comienza con '\xd5' en el archivo D:\pdf2doc2.py en la línea 4, pero sin codificación d


https://blog.csdn.net/coco_apple/article/details/113437552
SyntaxError: Código no UTF-8 que comienza con '\xd5' en el archivo
# – codificación: gbk –

 

 

 

 

Supongo que te gusta

Origin blog.csdn.net/wb4916/article/details/130547425
Recomendado
Clasificación