4 líneas de código en python para convertir pdf a word | python para convertir pdf a word | pdf a word

1. Convertir pdf a docx

La conversión de formato PDF a formato Word es muy exigente, muchas páginas web de conversión requieren pago y el efecto de conversión no es bueno.
En Python, este requisito se puede cumplir utilizando la biblioteca pdf2docx, que se puede instalar directamente mediante pip.

pip install pdf2docx

Espere a que se complete la instalación.
Insertar descripción de la imagen aquí
Este módulo tiene un método convert(), que puede convertir el formato PDF al formato Word
(el documento completo se convierte de forma predeterminada). El código completo es el siguiente:

from pdf2docx import Converter

cv = Converter("C:/Users/ypzhao/Desktop/毕业论文.pdf")
cv.convert("C:/Users/ypzhao/Desktop/毕业.docx", start=0, end=None)
cv.close()

(Convierta el rango especificado) El código completo es el siguiente:

from pdf2docx import Converter

cv = Converter("C:/Users/ypzhao/Desktop/毕业论文.pdf")
cv.convert("C:/Users/ypzhao/Desktop/毕业论文.docx", pages=[0,2])
cv.close()

Utilice el parámetro de páginas para especificar el rango de páginas a convertir.

2. Convertir docx a pdf

Primero instale la biblioteca

pip install pypiwin32
from win32com.client import Dispatch

old_file_path = r"C:/Users/ypzhao/Desktop/毕业论文.docx"
new_file_path = r"C:/Users/ypzhao/Desktop/毕业论文_convert.pdf"
word = Dispatch('Word.Application')
doc = word.Documents.Open(old_file_path)
doc.SaveAs(new_file_path,17)
doc.Close()
word.Quit()

El efecto convertido es el mismo que el del pdf guardado como

Primero, necesita importar la clase Dispatch en la biblioteca win32com. Luego, defina las variables old_file_path y new_file_path para representar la ruta del archivo original y la ruta del archivo de destino, respectivamente. Aquí, la ruta del archivo original es "C:/Users/ypzhao/Desktop/Graduation Thesis.docx", y la ruta del archivo de destino es "C:/Users/ypzhao/Desktop/Graduation Thesis_convert.pdf".

A continuación, cree un objeto Word.Application, abra el archivo original y obtenga el objeto Documento. Llame al método SaveAs para guardar el documento en formato PDF en la ruta especificada y configure el parámetro 17 para especificar el formato de guardado del documento como PDF. Finalmente, cierra el documento y sal de la aplicación Word.

La biblioteca win32com puede ayudarnos a utilizar aplicaciones COM en Windows, como Word, Excel, PowerPoint y otro software de Office, en programas Python para lograr operaciones automatizadas. En el código anterior, usamos la clase Dispatch de la biblioteca win32com para crear un objeto Word.Application, luego abrimos el documento DOCX especificado y lo guardamos como un documento en formato PDF mediante el método SaveAs. Este proceso no requiere ninguna intervención manual, realizando un procesamiento automatizado y mejorando la eficiencia.

3. Convertir documento a docx

from win32com.client import Dispatch
old_file_path = r"C:/Users/ypzhao/Desktop/毕业论文.doc"
new_file_path = r"C:/Users/ypzhao/Desktop/毕业论文_convert.docx"

word = Dispatch('Word.Application')
doc = word.Documents.Open(old_file_path)
doc.SaveAs(new_file_path,12)
doc.Close()
word.Quit()

4. Convertir el formato xls a xlsx

from win32com.client import Dispatch
old_file_path = r"C:/Users/ypzhao/Desktop/毕业论文.xls"
new_file_path = r"C:/Users/ypzhao/Desktop/毕业论文_convert.xlsx"

excel = Dispatch('Excel.Application')
wb = excel.Workbooks.Open(old_file_path)
wb.SaveAs(new_file_path,51)
wb.Close()
excel.Quit()

5. Convierta pdf a docx en lotes

Al utilizar la biblioteca pdf2docx, se logra la conversión por lotes de archivos en formato PDF a archivos en formato DOCX.

Primero, defina las variables ruta y ruta_convert para representar el directorio donde se encuentra el archivo original y el directorio donde se almacena el archivo convertido, respectivamente. Aquí están "C:/Users/ypzhao/Desktop/pdf/" y "C:/Users/ypzhao/Desktop/docx/" respectivamente.

Luego, use el método listdir en el módulo del sistema operativo para recorrer todos los archivos en el directorio, determinar si el tipo de archivo es PDF y luego convertirlo. Utilice la clase Convertidor para abrir el archivo PDF, especifique el nombre del archivo de destino convertido {nombre_archivo}.docx, llame al método de conversión para convertirlo en un archivo DOCX y especifique el rango de números de página. Finalmente, cierre el objeto Convertidor y la conversión estará completa.

import os
from pdf2docx import Converter

path = "C:/Users/ypzhao/Desktop/pdf/"
path_convert = "C:/Users/ypzhao/Desktop/docx/"

for i in os.listdir(path):
    file_name,file_suffix = i.split(".")
    if file_suffix == "pdf":
        cv = Converter(path+f"{
      
      i}")
        cv.convert(path_convert+f"{
      
      file_name}"+".docx", start=0, end=None)
        cv.close()
    else:
        pass

6. Convierta docx a pdf en lotes

from time import sleep
import os
from win32com.client import Dispatch

path = "C:/Users/ypzhao/Desktop/docx/"
path_convert = "C:/Users/ypzhao/Desktop/pdf/"
print("-----doc开始转换为docx-----")

for i in os.listdir(path):
    file_name,file_suffix = i.split(".") 
    if file_suffix == "doc":
        word = Dispatch('Word.Application')
        doc = word.Documents.Open(path+f"{
      
      i}")
        doc.SaveAs(path+f"{
      
      file_name}.docx",FileFormat=12)
        print(i,"转换完成")
        doc.Close()
        word.Quit()
        sleep(3)

print("-----开始转换为pdf-----")
for i in os.listdir(path):
    file_name,file_suffix = i.split(".") 
    if file_suffix == "docx":
        word = Dispatch('Word.Application')
        doc = word.Documents.Open(path+f"{
      
      i}")
        doc.SaveAs(path_convert+f"{
      
      file_name}.pdf",FileFormat=17)
        print(i,"...转换完成")
        doc.Close()
        word.Quit()
        sleep(3)
    else:
        pass

La función de este código es convertir el documento de Word (.doc) en el directorio especificado en un documento de Word (.docx) y luego convertirlo a formato PDF.

Entre ellos, la función sleep(3) se utiliza en el código para pausar la ejecución del programa con el fin de evitar errores del programa causados ​​por abrir el siguiente documento antes de que la aplicación Word se cierre por completo.

Cabe señalar que, dado que pueden ocurrir varios problemas durante la conversión de documentos, como errores de formato, diseño de página confuso, etc., se recomienda verificar manualmente si el documento convertido es normal una vez completada la conversión.

Supongo que te gusta

Origin blog.csdn.net/m0_58857684/article/details/130804532
Recomendado
Clasificación