Tres líneas de código, generan automáticamente un resumen para su artículo

Tres líneas de código, generan automáticamente un resumen para su artículo

  • Aquellos que estén interesados ​​en el código y la programación pueden seguir el viejo K para jugar código y comunicarse conmigo.

Tres líneas de código, generan automáticamente un resumen para su artículo

Tres líneas de código, generan automáticamente un resumen para su artículo

Escribí un artículo interesante sobre la reducción de peso del papel antes y recibí una buena respuesta.
¡El arma mágica para graduados, reducción de peso de tesis con un clic ~!
Recientemente, hice una estadística sobre la pregunta y respuesta de la tesis de graduación, y encontré que además de la reducción de peso, la preparación y redacción del "resumen" también es un tema de gran preocupación para los estudiantes. ¿Existe un atajo para el resumen?
De hecho, el viejo K te presentará aquí:

1. Primero importe la biblioteca de terceros requerida


# encoding:utf-8
from gensim.summarization import summarize
import re
  • Dado que nuestro papel está compuesto principalmente de caracteres chinos, para evitar problemas de codificación, ahora escriba la declaración utf-8 en el encabezado del guión;
  • Lo que usaremos es una biblioteca llamada gensim:
“gensim是一个用于自然语言处理的库,最早是用来生成给定文章相似内容的工具,gensim本身就是“generate similar”的合成词。
  • Por lo tanto, gensim es una biblioteca muy adecuada si desea implementar funciones de resumen.
  • Las bibliotecas dependientes que utilizará son numpy y smart_open.

    2. Procesar previamente el texto


text = re.sub(r'。|?|!', '. ', text)
  • El algoritmo de gensim se basa en oraciones.
  • Dado que gensim en sí es para texto en inglés, para permitir que gensim reconozca el concepto de "oración" en chino. Hicimos el procesamiento anterior.
  • Termina con ".", Para que gensim pueda determinar que este es el símbolo de terminación de una oración.

    3. Resumen de implementación de una línea de código


abstract = summarize(text)
  • El módulo de resumen de gensim es una variante basada en textrank.
  • El textrank es la unidad más pequeña de oración, que calcula el grado de relevancia entre oraciones para obtener el texto más representativo. El texto más representativo es en sí mismo la mejor oración para resumir un texto extenso.

    ej. Resumen


# encoding:utf-8
from gensim.summarization import summarize
import re

def do_abstract(text):
    text = re.sub(r'。|?|!', '. ', text)
    abstract = summarize(text)
    return abstratc

El código anterior puede ayudarlo a obtener el contenido principal del documento lo más rápido posible. Puede usarlo para:

  • Obtenga rápidamente el contenido principal de la referencia para determinar si el artículo es adecuado para el tema de su tesis
  • Genere rápidamente un borrador del contenido abstracto de su artículo, que se puede modificar directamente desde el borrador, reduciendo el problema de organizar el lenguaje desde cero.
“textrank是源于google的pagerank算法启发,应用到自然语言处理领域的结果。
  • El módulo de resumen tiene muchos parámetros que se pueden configurar para adaptarse al entorno real donde las necesidades son más personalizadas.
  • Los amigos que estén interesados ​​en textrank pueden aprender más sobre el principio en el artículo "TextRank: Poniendo orden en los textos" escrito por Baidu Rada Mihalcea y Paul Tarau.
  • Los amigos que no sean aptos para la lectura en inglés también pueden seguir mi cuenta pública "Old K Play Code", y escribiré un análisis chino personal de este documento en el futuro.
    Este código solo puede ayudarlo a resumir el contenido principal del artículo, pero no puede reemplazar completamente el trabajo de redacción de resúmenes.
    Old K escribió este artículo con el intercambio de tecnología como su intención original y aún alienta a los graduados a crear tesis de forma independiente.

Maravillosas recomendaciones anteriores:

¿Existen buenos proyectos de Python para la visualización de datos?
[Recomendado] El libro introductorio de Python recomendado por los grandes es una descripción general del
aprendizaje profundo. ¿Qué foros de la comunidad ves?
[Recomendado] 10 proyectos gratuitos de aprendizaje automático en Python para
enseñar a los principiantes cómo instalar Anaconda y configurar el entorno de desarrollo.

Beneficios para los fanáticos:


  • Lea y comparta "Aprenda las habilidades básicas de JavaScript, el viejo K recomienda estos libros", tenga la oportunidad de obtener una copia de "Programación avanzada de JavaScript"
  • Lea y comparta "11 bibliografías imprescindibles recomendadas para que los principiantes aprendan Python por sí mismos" y tenga la oportunidad de obtener una copia de "Programación básica de Python".
    Tres líneas de código, generan automáticamente un resumen para su artículo

Supongo que te gusta

Origin blog.51cto.com/15069443/2576231
Recomendado
Clasificación