Introdução ao cliente potencial
Python está muito quente recentemente, está muito quente, parece ter estado quente o tempo todo, hahahaha. Se você também acha que ele é muito popular, termine este artigo e veja se a popularidade do Python pode tornar este artigo popular.
Então, como uma linguagem de programação de estrela em ascensão - Python, o que ela pode fazer? Python tem sido "badalada" na Internet: escritório com um clique, aprenda Python bem, salário duplo, ganhe um pouco mais de dinheiro para sua vida e faça seu chefe Olhe para você com admiração e deixe você encontrar confiança de agora em diante! Isso não é bajulação, nem exagero. De computação em nuvem, big data a inteligência artificial, o Python está em todo lugar. Uma série de grandes empresas, como Baidu, Alibaba, Tencent, está usando o Python para realizar várias tarefas, tornando o Python cada vez mais fundamentado, e suas funções não me exigem. Posto isto, não vou repetir mais as suas vantagens e funcionalidades, afinal este artigo é um artigo técnico, não há muito a dizer, vamos lá!
Se você é um grupo de pesquisa científica, por favor, termine de ler o artigo! Há uma surpresa no final do artigo!
Clique aqui para baixar o código-fonte e executá-lo diretamente
Descrição do Projeto
Recentemente recebi uma mensagem privada de um pequeno fã do CSDN, dizendo que em um artigo anterior Python rastreou romances de sites e visualizou análises , esse site é melhor, e disse que quero todos os livros deste site, pegue e estude sozinho. Por causa da minha preocupação com os fãs, e eu pessoalmente gosto de obras literárias, não é impossível ler um livro para cultivar meu sentimento nas minhas horas vagas entediantes, hahaha. Depois de receber a solicitação, comecei imediatamente a ideia de arquitetura. Encontrei suas características observando a estrutura da página da Web. Por fim, adicionei minhas próprias ideias de design, adicionei a função de análise de nuvem de palavras, testei várias vezes e finalmente consegui um clique ! ! ! ! ! ! !
Ideia do projeto e introdução da função
1. O usuário entra no link da página da web de qualquer livro no site, entra no caminho de armazenamento e pressiona Enter e, em seguida, executa o rastreador em segundo plano, em seguida, executa a segmentação de palavras inteligente e, finalmente, usa a poderosa biblioteca de pyecharts para exibir o mapa de nuvem de palavras.
2. Existem tantos livros, o suficiente para você ler. Se você não quiser ler, você quer saber sobre o que este livro fala principalmente e quais palavras de alta frequência aparecem, o que acabará ajudando você a entender e entender o conteúdo principal deste artigo.
3. Este projeto conta com a biblioteca de análise de dados e a biblioteca Python original para realizar segmentação de texto, corte inteligente, algoritmo de nuvem de palavras inteligente e algoritmo de rastreador inteligente, com tecnologia de escrita anti-escalada e destaques de análise de dados.
Realização do projeto
1. Primeiro você deve instalar essas bibliotecas
2. Implementar algoritmo de rastreador
Defina variáveis globais com antecedência
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
import jieba # jieba用于分词,中文字典及其强大
from fake_useragent import UserAgent
import requests
from lxml import etree
import time
ll = []
lg = []
lk = []
lj = []
lp = []
li = []
d = {
} # 定义好相应的存储变量
def get_data(title,page,url,num):#title代表文件路径 page代表爬取的章节数 url为修订后网址 num为标签页数
with open(r"{}.txt".format(title), "w", encoding="utf-8") as file:
ua = UserAgent() # 解决了我们平时自己设置伪装头的繁琐,此库自动为我们弹出一个可用的模拟浏览器
def get_page(url):
headers = {
"User-Agent": ua.random}
res = requests.get(url=url, headers=headers)
res.encoding = 'GBK'
html = res.text
html_ = etree.HTML(html)
text = html_.xpath('//div[@class="panel-body content-body content-ext"]//text()')
num = len(text)
for s in range(num):
file.write(text[s] + '\n')
for i in range(page):
# time.sleep(2)
file.write("第{}章".format(i + 1))#写入文本数据
get_page(url+"{}.html".format(num + i))#爬虫标签页移动,数据输出爬取过程
print("正在爬取第{}章!".format(i + 1))
print("爬取完毕!!!!")
3. Perceba a segmentação de palavras inteligentes
4. Função principal
def main():
try:
print("\t\t本小程序只针对:<https://www.cz2che.com/>网址有效,里面有大量的古今中外名著小说!!!\n\n")
print("C:\\Users\\48125\\Desktop\\")
title = input("请输入储存文本的路径及名称如桌面:(C:\\Users\\48125\\Desktop\\文本)不需要加.txt!\n")
urll = str(input("请输入您要爬取的网站(请将键盘光标移动到网址前面在回车!):"))
url = str(urll[:urll.rindex('/') + 1])
num = int(urll[urll.rindex('/') + 1:len(urll) - 5])
print(url,num)
page = int(input("请输入本次您要爬取的章节数:\n"))
get_data(title,page,url,num)
Open(title)
print("\n分词完毕!")
print('''\n\n\t\t一键词云算法生成器
\t0--退出词云系统
\t1--生成一词组的词云图
\t2--生成二词组的词云图
\t3--生成三词组的词云图
\t4--生成四词组的词云图
\t5--生成大于1词组的词云图(研究常用)
\t6--生成全部词组的词云图(包含所有类型的词组)
''')
num = int(input("请输入本次展示的词语数量(最好不超过100):"))
data = sort()[:num]
Str = input("请输入这个词云图的标题:")
print("词云图已经生成完毕,请查收!")
print("感谢您对本程序的使用,欢迎下次光临!!")
c = (
WordCloud()
.add(
"",
data, # 数据集
word_size_range=[20, 100], # 单词字体大小范围
shape=SymbolType.DIAMOND) # 词云图轮廓,有以下的轮廓选择,但是对于这个版本的好像只有在提示里面选
# circl,cardioid,diamond,triangle-forward,triangle,start,pentagon
.set_global_opts(title_opts=opts.TitleOpts(title="{}".format(Str)),
toolbox_opts=opts.ToolboxOpts()) # 工具选项
.render("{}词云制作{}词组.html".format(title, choice))
)
return c
except:
print("无法找到,请检查你的输入!")
Realização do projeto
1. Insira o URL e salve o caminho, bem como o número de capítulos a serem rastreados
2. O rastreador inteligente começa a funcionar
3. Algoritmo inteligente ativado
4. Exibição de efeitos
A área de trabalho aparece automaticamente, clique no HTML da página da web para exibir a nuvem de palavras e você mesmo pode baixá-la. Esta é a característica da biblioteca de pyecharts
Parece muito bom, também acho que o efeito é bom, principalmente porque esse one-click é muito fácil para mim, no futuro, poderei fazer entrevistas online para ajudar pesquisadores a fazer pesquisas em pesquisas científicas, bem como vários sites de e-commerce Para resolver a avaliação do produto pelo chefe, este clique pode nos ajudar a reduzir o tempo perdido e, claro, o chefe também vai gostar.
Forneça-me em particular! ! ! ! O design não é fácil! ! !
Desenvolvimento de projeto
Também desenvolvi outra análise de nuvem de palavras com um clique do banco de dados do National Social Science Fund.
O favorito dos bebês de pesquisa científica, se você precisar, pode me enviar diretamente uma mensagem privada. Segure sua direção de pesquisa é a escolha mais correta.
Este programa envolve uma função de decodificação e transcodificação de página da web
As categorias de entrada dentro podem ser projetadas por você, e todas as caixas de entrada podem definir suas próprias condições de filtro! ! ! !
Se você é um grupo de pesquisa científica, seria uma pena não fazer isso, hahahaha! ! ! ! ! !
Uma palavra por texto
O futuro imprevisível está cheio de expectativas