20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10

20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10
2023/8/9 19:02


Como me gusta ver documentales y otros videos extranjeros, después de identificar los subtítulos mediante Cut/PR2023/AUTOSUB, puedo usar Google Translate para identificarlos como documentos DOCX en chino simplificado.
Una vez que el documento DOCX se convierte en un documento TXT, es necesario modificar el número de serie del subtítulo para obtener el documento SRT en chino simplificado final requerido.


google.py

#f=open("./1574/%03d.ts"%(n+1),"wb")
f=open("12.txt","wb")


#f = open("p:\\ts\\1574.txt")
f1 = open("1.txt")
#para n en el rango(1,4000):
para n en el rango(1,4560):
    línea = f1.readline()
    #f.write(respuesta.contenido) 
    #f.write(línea)
    f.decode().write(línea)

f.cerrar()


google12.pyJ
:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\py>python google12.py > test.srt

f_path=r'1.txt'

temperatura = 1
xuhao = 1;

con open(f_path) como f:
    líneas = f.readlines()

para línea en líneas:
    if temp == 1:
        print(str(xuhao))
        temp=0
    else:
        if len(line) == 1:
            #print("jiangedian!")
            temp=1
            xuhao = xuhao+1
        print( línea.rstrip())


txt2srt3all.py
[Procese todos los subtítulos TXT codificados en ANSI en el directorio como subtítulos SRT, ¡pero no procese el directorio de subtítulos!

# codificación = utf-8
importar sistema operativo

# Obtener la
ruta del directorio actual = os.getcwd()
# Ver todos los archivos en el directorio actual files
= os.listdir(ruta)

        txt' #f_path=         temperatura del archivo = 1         xuhao = 1;         #con abierto(f_path) como f:









        
        
        

        
        



        


        

        con open(file) como f:
            líneas = f.readlines()
        
        para línea en líneas:
            if temp == 1:
                #print(str(xuhao))
                #f.decode().write(line)
                #f2.decode( ).write(str(xuhao))
                #f2.write(str(xuhao))
                f2.write(str(xuhao).encode())
                f2.write(str('\n').encode())
                temp= 0
            más:
                if len(line) == 1:
                    #print("jiangedian!")
                    temp=1
                    xuhao = xuhao+1
                    #print(line.rstrip())
                    #f.decode().write(línea)
                    #f2.decode().write(line.rstrip())
                    #f2.write(line.rstrip())
                f2.write(line.encode())

        #f=abrir(nuevo_archivo,"wb")
        f2.close()

 


REGISTRO:
J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por la unidad TXT>dir
 J de Google Translate\ansi. El volumen en la unidad J es 18680688682.
 El número de serie del volumen es 2A59-69C0

 J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en el directorio WIN10\ansi TXT

2023/08/09 19:11 <DIR>
.2023/08/09 19:11 <DIR> ..
2023/08/09 12:22 67,713 7 de agosto.txt
2023/08/09 12:22 113,997 AC3EN2 .silueta .txt
2023/08/09 12:22 67,713 ruta_a_tu_archivo_de_palabras.txt 2023/08/09
12:22 75,347 Red.Eye.2005.2160p.BluRay.REMUX.HEVC.DTS-HD.MA.5.1-FGT.eng9.txt
2023 /08/09 19:11 1,715 txt2srt3all.py
2023/08/07 22:29 1,671 txt2srt3xuhao56.py
               6 archivos 328,156 bytes
               2 directorios 50,770,313,216 bytes disponibles

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate bajo WIN10\ansi's TXT>python txt2srt3all.py

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por la unidad TXT>dir
 J de Google Translate\ansi. El volumen en la unidad J es 18680688682.
 El número de serie del volumen es 2A59-69C0

 J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en el directorio WIN10\ansi TXT

09/08/2023 19:11 <DIR> .. 09/08/2023 19:11
<DIR> ..
09/08/2023 19:11 71,024 7 de agosto.cn.srt
09/08/2023 12:22 67,713 agosto 7.txt
2023/08/09 19:11 120,955 AC3EN2.silhouette.cn.srt
2023/08/09 12:22 113,997 AC3EN2.silhouette.txt
2023/08/09 19:11 71,024 ruta_a_tu_palabra_archivo.cn.srt
2023/ 09/08 12:22 67,713 ruta_a_su_archivo_palabra.txt
2023/08/09 19:11 81,213 Red.Eye.2005.2160p.BluRay.REMUX.HEVC.DTS-HD.MA.5.1-FGT.eng9.cn.srt
2023/08 /09 12:22 75,347 Red.Eye.2005.2160p.BluRay.REMUX.HEVC.DTS-HD.MA.5.1-FGT.eng9.txt
2023/08/09 19:11 1,715 txt2srt3all.py
07/08/2023 22:29 1,671 txt2srt3xuhao56.py
              10 archivos 672,372 bytes
               2 directorios 50,769,960,960 bytes disponibles

J:\! ! ! ! Organización del documento 20230625\en2cn\20230809 Uso de python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\ansi TXT>

 


utf8txt2srt3all.py
[Procesa todos los subtítulos TXT codificados en UTF8 en el directorio como subtítulos SRT, ¡pero no procesa el directorio de subtítulos!

# codificación = utf-8
importar sistema operativo

# Obtener la
ruta del directorio actual = os.getcwd()
# Ver todos los archivos en el directorio actual files
= os.listdir(ruta)

        codificación="UTF-8") temp = 1         xuhao = 1;         #con abierto(f_path) como f:









        
        




        


        

        #con abrir(archivo) como f:
        #con abrir(nuevo_archivo, "w", codificación="UTF-8") como txt_file:
        #con abrir(archivo, "w", codificación="UTF-8") como f :
        con open(file, "r", encoding="UTF-8") como f:
            líneas = f.readlines()
        
        para línea en líneas:
            if temp == 1:
                #f2.write(str(xuhao).encode ())
                #f2.write(str('\n').encode())
                f2.write(str(xuhao))
                f2.write(str('\n'))
                temp=0
            else:
                if len(line ) == 1:
                    temp=1
                    xuhao = xuhao+1
                #f2.write(line.encode())
                f2.write(línea)

        f2.cerrar()


Referencia:
https://pythonjishu.com/nwbuyryewwscpxl/Cómo
cambiar el nombre de archivos por lotes usando Python


python docx utf8 leer y escribir
https://deepinout.com/python/python-qa/t_how-to-read-and-write-unicode-utf-8-files-in-python.html
Cómo leer y escribir Unicode en ¿Archivo Python (UTF-8)?

 

¡Los registros de depuración de los scripts UTF8 están escritos de manera muy diferente!

Microsoft Windows [Versión 10.0.19045.2311]
(c) Microsoft Corporation. reservados todos los derechos.

C:\Usuarios\Administrador>cd J:\! ! ! ! Disposición del documento 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX)\utf8i TXT obtenido por Google Translate en WIN10

C:\Usuarios\Administrador>j:

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por la unidad TXT>dir
 J de Google Translate\utf8i. El volumen en la unidad J es 18680688682.
 El número de serie del volumen es 2A59-69C0

 J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en el directorio WIN10\utf8i TXT

2023/08/09 19:14 <DIR>
2023/08/09 19:14 <DIR>
2023/08/09 12:27 78,650 7 de agosto.txt
2023/08/09 12:27 133,327 AC3EN2 .silueta .txt
2023/08/09 12:27 78,650 ruta_para_guardar_txt+utf8_file.txt
2023/08/09 12:27 78,650 ruta_a_tu_archivo_palabra.txt
2023/08/09 19:11 1,715 txt2srt3all.py
               5 archivos 370.992 bytes
               2 Directorio 50.769.956.864 bytes disponibles

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i TXT>
J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT>python txt2srt3all.py de Google Translate\utf8i
Rastreo (última llamada más reciente):
  Archivo "J:\!!! Documentación Organizar 20230625\ en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT\txt2srt3all.py", línea 34, en <módulo> líneas = f.readlines() UnicodeDecodeError: ' gbk ' codec
    can
' t decodificar el byte 0xb7 en la posición 82: secuencia multibyte ilegal

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT>python txt2srt3all.py

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT>python de Google Translate\utf8i utf8txt2srt3all.py
Rastreo (última llamada más reciente):
  Archivo "J:\!!! Documentación Organizar 20230625\ en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT\utf8txt2srt3all.py de Google Translate\utf8i, línea 23, en <módulo> f2 = open(new_file, "wb", codificación="
    UTF- 8")
ValueError: el modo binario no acepta un argumento de codificación

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT>python de Google Translate\utf8i utf8txt2srt3all.py
Rastreo (última llamada más reciente):
  Archivo "J:\!!! Documentación Organizar 20230625\ en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT\utf8txt2srt3all.py", línea 33, en <módulo> líneas = f.readlines() io.UnsupportedOperation:
    no
legible

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT>python de Google Translate\utf8i utf8txt2srt3all.py
Rastreo (última llamada más reciente):
  Archivo "J:\!!! Documentación Organizar 20230625\ en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT\utf8txt2srt3all.py", línea 38, en <módulo> f2.write(str(xuhao).encode ( ))
    TypeError
: El argumento write() debe ser cadena, no bytes.

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por TXT>python de Google Translate\utf8i utf8txt2srt3all.py
Rastreo (última llamada más reciente):
  Archivo "J:\!!! Documentación Organizar 20230625\ en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT\utf8txt2srt3all.py", línea 40, en <módulo> f2.write(str('\n' ) .encode(
    ) )
TypeError: el argumento write() debe ser cadena, no bytes

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT>python utf8txt2srt3all.py

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT>python utf8txt2srt3all.py

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i's TXT>python utf8txt2srt3all.py

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 en WIN10 para procesar subtítulos en formato SRT (DOCX) obtenidos por la unidad TXT>dir
 J de Google Translate\utf8i. El volumen en la unidad J es 18680688682.
 El número de serie del volumen es 2A59-69C0

 J:\! ! ! ! Documentación 20230625\en2cn\20230809 Utilice python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en el directorio WIN10\utf8i TXT

09/08/2023 19:29 <DIR> .
2023/08/09 19:29 <DIR> ..
2023/08/09 19:29 75,580 8月7日.cn.srt
2023/08/09 12:27 78,650 8月7日.txt
2023/08/09 19:29 128,367 AC3EN2.剪影.cn.srt
2023/08/09 12:27 133,327 AC3EN2.剪影.txt
2023/08/09 19:29 75,580 ruta_para_guardar_txt+utf8_file.cn.srt
2023 /08/09 12:27 78.650 path_to_save_txt+utf8_file.txt
2023/08/09 19:29 75,580 path_to_your_word_file.cn.srt
2023/08/09 12:27 78,650 path_to_your_word_file.txt
2023/08/09 19:29 86,176 Rojo. Ojo.2005.2160p.BluRay.REMUX .HEVC.DTS-HD.MA.5.1-FGT.eng9.cn.srt
2023/08/09 19:28 89,228 Red.Eye.2005.2160p.BluRay.REMUX.HEVC.DTS-HD.MA.5.1-FGT.eng9.txt
2023/08/09 19:11 1,715 txt2srt3all.py
2023/08 /09 19:24 1,568 utf8txt2srt3all.py
              12 archivos 903,071 bytes
               2 directorios 50,767,888,384 bytes disponibles

J:\! ! ! ! Documentación 20230625\en2cn\20230809 Uso de python3 para procesar subtítulos en formato SRT (DOCX) obtenidos por Google Translate en WIN10\utf8i TXT>

 

Supongo que te gusta

Origin blog.csdn.net/wb4916/article/details/132196113
Recomendado
Clasificación