武汉肺炎疫情词云


获取数据

library(jsonlite)
url <- 'https://view.inews.qq.com/g2/getOnsInfo?name=wuwei_ww_time_line'
pre <- fromJSON(url)
data <- fromJSON(pre$data)

停词库
链接:https://pan.baidu.com/s/1m5lC6Ld-Fu5_YZtLzqQNGw
提取码:2e3i

词频

library(jiebaR)
library(ggplot2)
library(ggthemes)
#删除数字英文字母
data$desc <- gsub('[<U+0-9A-Z>]','',data$desc)
#导入停词库
wk <- worker(stop_word = 'c:/Users/wisonmon/Desktop/stop.txt')
#切词
seg <- segment(data$desc,wk)
#词频
count <- freq(seg)
#排名前20词
kw <- count[order(-count$freq),][1:20,]
kw
         char freq
815      病例  395
1189     确诊  264
766      新型  258
782  冠状病毒  252
821      感染  225
883      肺炎  222
904      新增  195
1897     出院  138
684      累计  105
374      报告  103
1331     患者  101
1094     治愈   64
992      疫情   62
1209     武汉   58
1959     医院   58
1476     死亡   49
736      重症   43
933      治疗   32
1061   湖北省   29
1161     隔离   29
#绘图
ggplot(kw) +
   aes(x = reorder(char,freq), weight = freq) +
   geom_bar(fill = "#0c4c8a") +
   labs(x = "keywords", y = "count", title = "武汉疫情关键词", caption = " ") +
   coord_flip() +
   theme_minimal()

词频.png

词云

文字为侃大山,凑字数要求

我们可以从词云中获取关键信息,知道哪些是焦点词汇。还可以察觉出难以主观洞察或者过度关注焦点信息而忽略的次级关键信息。通过这些词汇,摸索相关信息,形成对事件更完整的整体认知。

词云还可以用不同图片作为背景,有兴趣的可以尝试一下。

#随机生成词云
library(wordcloud2)
wordcloud2(count,minSize = 3)

词云.png


R R语言小白速通
R 懂点R语言
欢迎分享收藏关注

发布了38 篇原创文章 · 获赞 13 · 访问量 3160

猜你喜欢

转载自blog.csdn.net/renewallee/article/details/104213153