Python rastreia todo o texto da rede e análise de nuvem de palavras (um clique em todo o processo!)

Introdução ao cliente potencial

Python está muito quente recentemente, está muito quente, parece ter estado quente o tempo todo, hahahaha. Se você também acha que ele é muito popular, termine este artigo e veja se a popularidade do Python pode tornar este artigo popular.

Então, como uma linguagem de programação de estrela em ascensão - Python, o que ela pode fazer? Python tem sido "badalada" na Internet: escritório com um clique, aprenda Python bem, salário duplo, ganhe um pouco mais de dinheiro para sua vida e faça seu chefe Olhe para você com admiração e deixe você encontrar confiança de agora em diante! Isso não é bajulação, nem exagero. De computação em nuvem, big data a inteligência artificial, o Python está em todo lugar. Uma série de grandes empresas, como Baidu, Alibaba, Tencent, está usando o Python para realizar várias tarefas, tornando o Python cada vez mais fundamentado, e suas funções não me exigem. Posto isto, não vou repetir mais as suas vantagens e funcionalidades, afinal este artigo é um artigo técnico, não há muito a dizer, vamos lá!

Se você é um grupo de pesquisa científica, por favor, termine de ler o artigo! Há uma surpresa no final do artigo!

Clique aqui para baixar o código-fonte e executá-lo diretamente

Descrição do Projeto

Recentemente recebi uma mensagem privada de um pequeno fã do CSDN, dizendo que em um artigo anterior Python rastreou romances de sites e visualizou análises , esse site é melhor, e disse que quero todos os livros deste site, pegue e estude sozinho. Por causa da minha preocupação com os fãs, e eu pessoalmente gosto de obras literárias, não é impossível ler um livro para cultivar meu sentimento nas minhas horas vagas entediantes, hahaha. Depois de receber a solicitação, comecei imediatamente a ideia de arquitetura. Encontrei suas características observando a estrutura da página da Web. Por fim, adicionei minhas próprias ideias de design, adicionei a função de análise de nuvem de palavras, testei várias vezes e finalmente consegui um clique ! ! ! ! ! ! !

Ideia do projeto e introdução da função

1. O usuário entra no link da página da web de qualquer livro no site, entra no caminho de armazenamento e pressiona Enter e, em seguida, executa o rastreador em segundo plano, em seguida, executa a segmentação de palavras inteligente e, finalmente, usa a poderosa biblioteca de pyecharts para exibir o mapa de nuvem de palavras.

Insira a descrição da imagem aqui
2. Existem tantos livros, o suficiente para você ler. Se você não quiser ler, você quer saber sobre o que este livro fala principalmente e quais palavras de alta frequência aparecem, o que acabará ajudando você a entender e entender o conteúdo principal deste artigo.

3. Este projeto conta com a biblioteca de análise de dados e a biblioteca Python original para realizar segmentação de texto, corte inteligente, algoritmo de nuvem de palavras inteligente e algoritmo de rastreador inteligente, com tecnologia de escrita anti-escalada e destaques de análise de dados.

Realização do projeto

1. Primeiro você deve instalar essas bibliotecas

Insira a descrição da imagem aqui
Caso contrário, leia este artigo para uma introdução detalhada. Se você não entender, irei instalá-lo para você! Definitivamente pode ser instalado ~

2. Implementar algoritmo de rastreador

Defina variáveis ​​globais com antecedência

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
import jieba  # jieba用于分词,中文字典及其强大
from fake_useragent import UserAgent
import requests
from lxml import etree
import time
ll = []
lg = []
lk = []
lj = []
lp = []
li = []
d = {
    
    }  # 定义好相应的存储变量

def get_data(title,page,url,num):#title代表文件路径 page代表爬取的章节数 url为修订后网址 num为标签页数
    with open(r"{}.txt".format(title), "w", encoding="utf-8") as file:
        ua = UserAgent()  # 解决了我们平时自己设置伪装头的繁琐,此库自动为我们弹出一个可用的模拟浏览器

        def get_page(url):
            headers = {
    
    "User-Agent": ua.random}
            res = requests.get(url=url, headers=headers)
            res.encoding = 'GBK'
            html = res.text
            html_ = etree.HTML(html)
            text = html_.xpath('//div[@class="panel-body content-body content-ext"]//text()')
            num = len(text)
            for s in range(num):
                file.write(text[s] + '\n')

        for i in range(page):
            # time.sleep(2)
            file.write("第{}章".format(i + 1))#写入文本数据
            get_page(url+"{}.html".format(num + i))#爬虫标签页移动,数据输出爬取过程
            print("正在爬取第{}章!".format(i + 1))
        print("爬取完毕!!!!")

3. Perceba a segmentação de palavras inteligentes

Eu mesmo escrevi um algoritmo de nuvem de palavras inteligentes, incluindo a realização de várias pequenas funções, o design não é fácil, eu me recuso a recusar a prostituição gratuita, se você precisar, pode me enviar uma mensagem privada ou fazer o download você mesmo! ! !

4. Função principal

def main():
    try:
        print("\t\t本小程序只针对:<https://www.cz2che.com/>网址有效,里面有大量的古今中外名著小说!!!\n\n")
        print("C:\\Users\\48125\\Desktop\\")
        title = input("请输入储存文本的路径及名称如桌面:(C:\\Users\\48125\\Desktop\\文本)不需要加.txt!\n")
        urll  = str(input("请输入您要爬取的网站(请将键盘光标移动到网址前面在回车!):"))
        url   = str(urll[:urll.rindex('/') + 1])
        num   = int(urll[urll.rindex('/') + 1:len(urll) - 5])
        print(url,num)
        page  = int(input("请输入本次您要爬取的章节数:\n"))
        get_data(title,page,url,num)
        Open(title)
        print("\n分词完毕!")
        print('''\n\n\t\t一键词云算法生成器
        \t0--退出词云系统
        \t1--生成一词组的词云图
        \t2--生成二词组的词云图
        \t3--生成三词组的词云图
        \t4--生成四词组的词云图
        \t5--生成大于1词组的词云图(研究常用)
        \t6--生成全部词组的词云图(包含所有类型的词组)
        ''')
        num = int(input("请输入本次展示的词语数量(最好不超过100):"))
        data = sort()[:num]
        Str = input("请输入这个词云图的标题:")
        print("词云图已经生成完毕,请查收!")
        print("感谢您对本程序的使用,欢迎下次光临!!")
        c = (
            WordCloud()
                .add(
                "",
                data,  # 数据集
                word_size_range=[20, 100],  # 单词字体大小范围
                shape=SymbolType.DIAMOND)  # 词云图轮廓,有以下的轮廓选择,但是对于这个版本的好像只有在提示里面选
                # circl,cardioid,diamond,triangle-forward,triangle,start,pentagon
                .set_global_opts(title_opts=opts.TitleOpts(title="{}".format(Str)),
                                 toolbox_opts=opts.ToolboxOpts())  # 工具选项
                .render("{}词云制作{}词组.html".format(title, choice))
        )
        return c
    except:
        print("无法找到,请检查你的输入!")

Realização do projeto

1. Insira o URL e salve o caminho, bem como o número de capítulos a serem rastreados
Insira a descrição da imagem aqui2. O rastreador inteligente começa a funcionar

Insira a descrição da imagem aqui

Insira a descrição da imagem aqui

3. Algoritmo inteligente ativado

Insira a descrição da imagem aquiInsira a descrição da imagem aqui
4. Exibição de efeitos

A área de trabalho aparece automaticamente, clique no HTML da página da web para exibir a nuvem de palavras e você mesmo pode baixá-la. Esta é a característica da biblioteca de pyecharts
Insira a descrição da imagem aquiInsira a descrição da imagem aqui
Insira a descrição da imagem aqui

Parece muito bom, também acho que o efeito é bom, principalmente porque esse one-click é muito fácil para mim, no futuro, poderei fazer entrevistas online para ajudar pesquisadores a fazer pesquisas em pesquisas científicas, bem como vários sites de e-commerce Para resolver a avaliação do produto pelo chefe, este clique pode nos ajudar a reduzir o tempo perdido e, claro, o chefe também vai gostar.

Forneça-me em particular! ! ! ! O design não é fácil! ! !

Desenvolvimento de projeto

Também desenvolvi outra análise de nuvem de palavras com um clique do banco de dados do National Social Science Fund.

O favorito dos bebês de pesquisa científica, se você precisar, pode me enviar diretamente uma mensagem privada. Segure sua direção de pesquisa é a escolha mais correta.
Insira a descrição da imagem aqui Este programa envolve uma função de decodificação e transcodificação de página da web
Insira a descrição da imagem aqui
Insira a descrição da imagem aquiInsira a descrição da imagem aquiInsira a descrição da imagem aqui

As categorias de entrada dentro podem ser projetadas por você, e todas as caixas de entrada podem definir suas próprias condições de filtro! ! ! !

Se você é um grupo de pesquisa científica, seria uma pena não fazer isso, hahahaha! ! ! ! ! !

Uma palavra por texto

O futuro imprevisível está cheio de expectativas

Acho que você gosta

Origin blog.csdn.net/weixin_47723732/article/details/111937273
Recomendado
Clasificación