Python rastrea todo el texto de la red y el análisis de la nube de palabras (¡con un clic en todo el proceso!)

Introducción al cliente potencial

Python hace mucho calor recientemente, hace mucho calor, parece que ha estado caliente todo el tiempo, jajajaja. Si también cree que es muy popular, finalice este artículo y vea si la popularidad de Python puede hacer que este artículo sea popular.

Entonces, como un lenguaje de programación estrella en ascenso, Python, ¿qué puede hacer? Python ha sido "promocionado" en Internet: oficina con un solo clic, aprende Python bien, doble salario, gana un poco más de dinero en tu vida y haz que tu jefe ¡Mírate con admiración y déjate encontrar confianza a partir de ahora! Esto no es un halago ni una exageración. Desde computación en la nube, big data hasta inteligencia artificial, Python está en todas partes. Una serie de grandes empresas como Baidu, Alibaba, Tencent están usando Python para completar varias tareas, lo que hace que Python esté cada vez más conectado a tierra, y sus funciones no me exigen. Dicho esto, no repetiré más sus ventajas y características. Después de todo, este artículo es un artículo técnico, no hay mucho que decir, ¡hagámoslo!

Si eres un grupo de investigación científica, ¡termina de leer el artículo! ¡Hay una sorpresa al final del artículo!

Haga clic aquí para descargar el código fuente y ejecutarlo directamente

Descripción del Proyecto

Recientemente recibí un mensaje privado de un pequeño fan en CSDN, diciendo que en un artículo anterior Python rastreaba novelas de sitios web y visualizaba análisis , ese sitio web es mejor, y decía que quiero todos los libros en este sitio web, tómalo y estúdialo yo mismo. Por mi preocupación por los fans, y personalmente me gustan las obras literarias, no es imposible leer un libro para cultivar mi sentimiento en mi aburrido tiempo libre, jajaja. Después de recibir la solicitud, comencé inmediatamente con la idea de arquitectura. Encontré sus características observando la estructura de la página web. Finalmente, agregué mis propias ideas de diseño, agregué la función de análisis de nube de palabras, la probé muchas veces y finalmente logré un clic ! ! ! ! ! ! !

Introducción a la idea y la función del proyecto

1. El usuario ingresa el enlace de la página web de cualquier libro en el sitio web, ingresa la ruta de almacenamiento y presiona Enter, y luego ejecuta el rastreador en segundo plano, luego ejecuta la segmentación inteligente de palabras y finalmente usa la poderosa biblioteca pyecharts para mostrar el mapa de nube de palabras.

Inserte la descripción de la imagen aquí
2. Hay tantos libros, suficientes para que los lea. Si no quiere leerlos, quiere saber de qué habla principalmente este libro y qué palabras de alta frecuencia aparecen, lo que eventualmente lo ayudará a comprender y comprender el contenido principal de este artículo.

3. Este proyecto se basa en la biblioteca de análisis de datos y la biblioteca Python original para realizar segmentación de texto, corte inteligente, algoritmo inteligente de nube de palabras y algoritmo rastreador inteligente, con escritura de tecnología anti-escalada y aspectos destacados del análisis de datos.

Realización de proyectos

1. Primero debes instalar estas bibliotecas

Inserte la descripción de la imagen aquí
Si no es así, lea este artículo para obtener una introducción detallada. Si no lo comprende, ¡lo instalaré por usted! Definitivamente se puede instalar ~

2. Implementar el algoritmo del rastreador

Defina las variables globales de antemano

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
import jieba  # jieba用于分词,中文字典及其强大
from fake_useragent import UserAgent
import requests
from lxml import etree
import time
ll = []
lg = []
lk = []
lj = []
lp = []
li = []
d = {
    
    }  # 定义好相应的存储变量

def get_data(title,page,url,num):#title代表文件路径 page代表爬取的章节数 url为修订后网址 num为标签页数
    with open(r"{}.txt".format(title), "w", encoding="utf-8") as file:
        ua = UserAgent()  # 解决了我们平时自己设置伪装头的繁琐,此库自动为我们弹出一个可用的模拟浏览器

        def get_page(url):
            headers = {
    
    "User-Agent": ua.random}
            res = requests.get(url=url, headers=headers)
            res.encoding = 'GBK'
            html = res.text
            html_ = etree.HTML(html)
            text = html_.xpath('//div[@class="panel-body content-body content-ext"]//text()')
            num = len(text)
            for s in range(num):
                file.write(text[s] + '\n')

        for i in range(page):
            # time.sleep(2)
            file.write("第{}章".format(i + 1))#写入文本数据
            get_page(url+"{}.html".format(num + i))#爬虫标签页移动,数据输出爬取过程
            print("正在爬取第{}章!".format(i + 1))
        print("爬取完毕!!!!")

3. Realice una segmentación inteligente de palabras

Yo mismo escribí un algoritmo de nube de palabras inteligente, incluida la realización de varias funciones pequeñas, el diseño no es fácil, me niego a usar la prostitución gratuita, si lo necesita, puede enviarme un mensaje privado o descargarlo usted mismo. ! !

4. Función principal

def main():
    try:
        print("\t\t本小程序只针对:<https://www.cz2che.com/>网址有效,里面有大量的古今中外名著小说!!!\n\n")
        print("C:\\Users\\48125\\Desktop\\")
        title = input("请输入储存文本的路径及名称如桌面:(C:\\Users\\48125\\Desktop\\文本)不需要加.txt!\n")
        urll  = str(input("请输入您要爬取的网站(请将键盘光标移动到网址前面在回车!):"))
        url   = str(urll[:urll.rindex('/') + 1])
        num   = int(urll[urll.rindex('/') + 1:len(urll) - 5])
        print(url,num)
        page  = int(input("请输入本次您要爬取的章节数:\n"))
        get_data(title,page,url,num)
        Open(title)
        print("\n分词完毕!")
        print('''\n\n\t\t一键词云算法生成器
        \t0--退出词云系统
        \t1--生成一词组的词云图
        \t2--生成二词组的词云图
        \t3--生成三词组的词云图
        \t4--生成四词组的词云图
        \t5--生成大于1词组的词云图(研究常用)
        \t6--生成全部词组的词云图(包含所有类型的词组)
        ''')
        num = int(input("请输入本次展示的词语数量(最好不超过100):"))
        data = sort()[:num]
        Str = input("请输入这个词云图的标题:")
        print("词云图已经生成完毕,请查收!")
        print("感谢您对本程序的使用,欢迎下次光临!!")
        c = (
            WordCloud()
                .add(
                "",
                data,  # 数据集
                word_size_range=[20, 100],  # 单词字体大小范围
                shape=SymbolType.DIAMOND)  # 词云图轮廓,有以下的轮廓选择,但是对于这个版本的好像只有在提示里面选
                # circl,cardioid,diamond,triangle-forward,triangle,start,pentagon
                .set_global_opts(title_opts=opts.TitleOpts(title="{}".format(Str)),
                                 toolbox_opts=opts.ToolboxOpts())  # 工具选项
                .render("{}词云制作{}词组.html".format(title, choice))
        )
        return c
    except:
        print("无法找到,请检查你的输入!")

Realización de proyectos

1. Ingrese la URL y la ruta de guardado, así como el número de capítulos que se rastrearán.
Inserte la descripción de la imagen aquí2. El rastreador inteligente comienza a ejecutarse

Inserte la descripción de la imagen aquí

Inserte la descripción de la imagen aquí

3. Algoritmo inteligente activado

Inserte la descripción de la imagen aquíInserte la descripción de la imagen aquí
4. Pantalla de efectos

El escritorio aparece automáticamente, haga clic en el HTML de la página web para mostrar la nube de palabras y podrá descargarla usted mismo. Esta es la característica de la biblioteca pyecharts.
Inserte la descripción de la imagen aquíInserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Se ve bastante bien, también creo que el efecto está bien, principalmente porque este clic es demasiado fácil para mí, en el futuro, podré hacer entrevistas en línea para ayudar a los investigadores a realizar investigaciones científicas, así como a varios sitios web de comercio electrónico. Para resolver la evaluación del producto por parte del jefe, este clic puede ayudarnos a reducir el tiempo perdido y, por supuesto, al jefe también le gustará.

¡Consígueme en privado! ! ! ! ¡El diseño no es fácil! ! !

Desarrollo del proyecto

También diseñé otro análisis de un clic en la nube de palabras de la base de datos del Fondo Nacional de Ciencias Sociales.

El favorito de los bebés de investigación científica, puede enviarme un mensaje directamente si lo necesita. Captar la dirección de su investigación es la opción más correcta.
Inserte la descripción de la imagen aquí Este programa incluye una función de decodificación y transcodificación de páginas web.
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquíInserte la descripción de la imagen aquíInserte la descripción de la imagen aquí

Las categorías de entrada en el interior pueden ser diseñadas por usted mismo, y todos los cuadros de entrada pueden establecer sus propias condiciones de filtro. ! ! !

Si eres un grupo de investigación científica, sería una pena no hacerlo, ¡jajajaja! ! ! ! ! !

Una palabra por texto

El futuro impredecible está lleno de expectativas

Supongo que te gusta

Origin blog.csdn.net/weixin_47723732/article/details/111937273
Recomendado
Clasificación