大众点评探索性数据分析

探索性分析 数据是3W大众点评八大热门糖水店的评论,包含字段:顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID #引入库 import pandas as pd from matplotlib import pyplot as plt import pymysql import seaborn as sns from wordcloud import WordCloud, STOPWORDS %matplotlib inline 数据库读入数据 我们使用pymysql库连接my
分类: 其他 发布时间: 06-28 23:43 阅读次数: 0

文本挖掘&情感分析

大众点评评价情感分析~ 先上结果: 糖水店的评论文本 模型预测的情感评分 ‘糖水味道不错,滑而不腻,赞一个,下次还会来’ 0.91 ‘味道一般,没啥特点’ 0.52 ‘排队老半天,环境很差,味道一般般’ 0.05 模型的效果还可以的样子,yeah~接下来我们好好讲讲怎么做的哈,我们通过爬虫爬取了大众点评广州8家最热门糖水店的3W条评论信息以及评分作为训练数据,前面的分析我们得知样本很不均衡。接下来我们的整体思路就是:文本特征处理(分词、去停用词、TF-IDF)—机器学习建模—模型评价。 我们先
分类: 其他 发布时间: 06-28 23:42 阅读次数: 0

Hadoop平台及组件部署管理

1-5天参考视频链接https://pan.baidu.com/s/1ycgK24KrVS-kgluFUrUgmA 提取码:3zal 1-5天笔记包含Hadoop全分布式部署+Hadoop伪分布式部署+Hive组件 部署 参考本人博客:大数据day01,day02,day03,day04,day05 Hadoop HA部署:参考http://www.codingke.com/v/5354-lesson sqoop组件部署:参考本人发送文件sqoop组件部署.doc或者 http://note.
分类: 其他 发布时间: 06-28 23:42 阅读次数: 0

交通运输数据采集+数据清洗与分析+数据可视化

1.需求: 1.1 数据采集 一、 数据源 1 1(交通运输) 航空出行由于它的快捷便利,已经被越来越多的人喜欢,某航空公司通过 多年运营,积累了大量会员档案和乘坐航班信息,为对客户进行分群,明确价 值客户群体,将有限的营销资源集中于高价值客户,实现企业利润最大化。为 此,该航空公司聘请“H3CU”大数据分析公司完成此项目。 由于会员信息属于公司机密数据,该航空公司将数据脱敏后以 csv 文件传 送给“H3CU”公司进行数据处理与分析,为安全考虑“H3CU”公司需将数据 先存入数据库中备份,再
分类: 其他 发布时间: 06-28 23:42 阅读次数: 0

招聘数据采集+数据清洗与分析+数据可视化

1.需求: 1.1 数据采集 1、 网站解析,利用 chrome 查看网页源码,分析招聘网站网页结构。 1) “检查”招聘网站,在网页中右键点击检查,或者 F12 快捷键,进入 如下图的查看元素页面; (示例图 1) 2) 检查网站:点击 Network、勾选 Preserve log、点击 Doc、点击清 理按钮、刷新页面、点击 Response,在 Response 查看所需内容。 (示例图 2) 2、 从招聘网站中爬取需要数据,按照要求使用 Java 或 Python 语言编写并完 善爬
分类: 其他 发布时间: 06-28 23:42 阅读次数: 0

hadoop平台+低保数据采集+分析+可视化

1. 需求: 1.1 背景描述 随着中国经济的迅速发展,广大人民群众的收入也在不断提高,但是仍有 一部分人群需要在经济上获得帮助,每月领取城市居民最低生活保障,为了更 好的实现精准扶贫,你所在的小组需要通过给出的“某市低保人群信息表”, 通过采集其中低保人口收入,低保人口中失业人数,视力或听力残疾人数等信 息,分析各地区低保人群数量,人均收入情况,近几年收入总体情况等信息, 为实现精准扶贫给予数据上的佐证。 为完成该项任务,你所在的小组计划选用在业界广泛应用的“Python”语言, 作为整个项
分类: 其他 发布时间: 06-28 23:41 阅读次数: 0

招聘数据采集+Hive数据分析+数据可视化

1.需求 背景描述 近年来随着IT产业的快速发展,全国各地对IT 类的人才需求数量也在不断 增多,“XHS集团”为了明确今后IT产业人才培养方向,在多个省份进行 IT公 司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘 网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、 招聘人数等信息,并通过数据的清洗和分析,最终分析出当前IT产业热门岗位、 大数据相关岗位从业人员数量等信息,并进行可视化呈现。 本次为模拟任务,项目组计划使用分布式节点Hadoop模式,
分类: 其他 发布时间: 06-28 23:41 阅读次数: 0

智联招聘数据Hbase数据分析+可视化

需求: 背景描述 近年来随着IT产业的加速发展,全国各地对IT 类的人才需求也越来越多, “XHS 集团”为了明确公司在各区域的发展布局,在多个省份进行IT公司岗位 情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进 行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘 人数等信息,并通过数据的清洗和分析,最终分析出各地区热门岗位招聘人数, 各地区平均薪资的差异。 本次为模拟任务,项目组计划使用分布式节点Hadoop模式,环境搭建采用 服务器集群方式,通过在招
分类: 其他 发布时间: 06-28 23:41 阅读次数: 0

Linux: 查看文件和文件夹大小的df和du命令

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90439242 Linux常用命令总结 当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 df 统计数据块使用情况 du du可以查看文件及文件夹的大小。 du 统计文件大小相加 查看文件和文件夹大小的df和du命令 df #列出
分类: 其他 发布时间: 06-28 23:40 阅读次数: 0

Linux : 查找最近修改的文件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90444629 Linux常用命令总结 Linux查找最近修改的文件 查找当前目录下.phtml文件中,最近30分钟内修改过的文件。 find . -name ‘*.phtml‘ -type f -mmin -30 查找当前目录下.phtml文件中,最近30分钟内修改过的文件,的详细情况 find . -name ‘*.phtml‘ -type
分类: 其他 发布时间: 06-28 23:40 阅读次数: 0

Linux:find mtime的时间算法

在unix或linux环境中经常会用到find -mtime这样的写法来找某某时间点之前的文件,至于如何写find -mtime +N/-N/N,原来并不是很清楚,今天找了些资料看看,画下了这个图,以便理解和记忆: 从图上可以看出, 以当前时间点开始算起,+表示往左,从该时间点开始再继续往更早推,可以称作xx以外; -表示往右,从该时间点算起往后的时间推,可以称作xx以内; 没有加减号表示据此此前第N天。 find . -mtime N 实际上你应该这样理解.. N * 24 +1 内表示 1
分类: 其他 发布时间: 06-28 23:40 阅读次数: 0

Springboot:windows下部署外置Tomcat,控制台中文乱码解决

springboot外置tomcat启动时经常会遇到中文乱码的问题,通常是由于以下4种原因: IDEA设置的字符编码不对: File->settings->Editor->file encoding将字符编码都修改为UTF-8。 IDEA配置文件中对字符编码的配置不对: 在IDEA的安装目录bin文件夹下找到idea64.exe.vmoptions(32位的选择idea.exe.vmoptions)文件, 编辑此文件,插入:-Dfile.encoding=UTF-8。 Tomcat配置文件中的
分类: 其他 发布时间: 06-28 23:39 阅读次数: 0

Spring Boot:WEB项目,以WAR包形式部署到外部tomcat部署

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90519424 配置步骤: 1、继承SpringBootServletInitializer 外部容器部署的话,就不能依赖于Application的main函数了,而是要以类似于web.xml文件配置的方式来启动Spring应用上下文,此时我们需要在启动类中继承SpringBootServletInitializer并实现configure方法
分类: 其他 发布时间: 06-28 23:39 阅读次数: 0

SpingBoot2.x文件上传:failed to convert java.lang.String to org.springframework.util.unit.DataSize

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90598418 问题现象: SpringBoot项目由1.5.x升级到2.x,文件上传启动报错 配置文件 #文件上传路径 linux配置路径 spring.servlet.multipart.max-file-size=50Mb spring.servlet.multipart.max-request-size=50Mb file.upload
分类: 其他 发布时间: 06-28 23:39 阅读次数: 0

Tomcat:修改日志输出位置

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90602590 认识Tomcat的日志:catalina.out、localhost、manager、localhost_access_log 参考:https://blog.csdn.net/fly910905/article/details/78463909 修改日志输出位置 修改localhost 、catalina 、manager 、
分类: 其他 发布时间: 06-28 23:39 阅读次数: 0

Linux:vim编辑器的基本使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90667506 Linux常用命令总结 Vim编辑器 1.1 Vi简介 vi / vim 是Unix / Linux上最常用的文本编辑器而且功能非常强大。 只有命令,没有菜单。 Vim工作模式: 1.2 编辑使用的快捷键 i 在光标前插入 I 在光标当前行开始插入 a 在光标后插入 A 在光标当前行末尾插入 o 在光标当前行的下一行插入新行 O
分类: 其他 发布时间: 06-28 23:38 阅读次数: 0

Linux:nohup、&、 2>&1、/dev/null

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/90739559 nohup语法 不挂断地运行命令。no hangup的缩写,意即“不挂断”。 nohup Command [ Arg ... ] [ & ] nohup 命令运行由 Command参数和任何相关的 Arg参数指定的命令,忽略所有挂断(SIGHUP)信号。 nohup放在命令的开头,表示不挂起(no hang up),也即,关闭终
分类: 其他 发布时间: 06-28 23:38 阅读次数: 0

Linux:限制网络带宽

在本文中,我将描述两种不同的方法来限制Linux上的网络流量。 限制Linux上的应用程序流量(Rate Limit an Application on Linux) 限制网络流量速率的一种方法是通过一个名为trickle的命令行工具。 通过在程序运行时,预先加载一个速率限制 socket 库 的方法,trickle 命令允许你改变任意一个特定程序的流量。 trickle 命令有一个很好的特性是它仅在用户空间中运行,这意味着,你不必需要 root 权限就可以限制一个程序的带宽使用。 要能使用
分类: 其他 发布时间: 06-28 23:38 阅读次数: 0

SpringBoot整合Shiro,Swagger2页面样式加载不出来问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fly910905/article/details/91431128 问题现象: 在把/swagger-ui.html,赋值为anno的权限后,依然出现页面空白,调试分析是因为css和js没有加载进来 因此可以推断拦截器拦截了 "/swagger-resources" "/v2/api-docs" 几个包的资源,修改shiro可以匿名访问后,发现有一些样式仍不能加载: 发现"/webjars/sp
分类: 其他 发布时间: 06-28 23:37 阅读次数: 0

fastjson:格式化输出,处理NULL,日期格式化

JSON.toJSONString 源码 /** * This method serializes the specified object into its equivalent Json representation. Note that this method works fine if the any of the object fields are of generic type, * just the object itself should not be of
分类: 其他 发布时间: 06-28 23:37 阅读次数: 0