Extraer datos de wiki usando wikiextractor

La dirección del enlace del paquete wikiextractor: GitHub - attardi/ wikiextractor : una herramienta para extraer texto sin formato de los volcados de Wikipedia  .



python -m wikiextractor.WikiExtractor -b 1024M -o /home/work/ljs/wiki/wiki_data /home/work/wiki/zhwiki-latest-pages-articles.xml.bz2
-b 1024M 其中1024M是指单个文件允许的最大的占用硬盘的大小
/home/work/ljs/wiki/wiki_data 指输出数据存放文件夹
/home/work/wiki/zhwiki-latest-pages-articles.xml.bz2 指原始语料存放文件夹

Luego comience a extraer datos wiki. Si el comando anterior se ejecuta incorrectamente, debe haber un problema con el entorno. Verifique el entorno y use el sistema ubuntu tanto como sea posible, de lo contrario pueden ocurrir errores.
Durante la operación:
inserte la descripción de la imagen aquí

 

Supongo que te gusta

Origin blog.csdn.net/u013250861/article/details/131850424
Recomendado
Clasificación