47-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-3

1、人工智能概念介绍
概念定义：AI Artificial Intelligence
直观解释：其实就是用计算机解决之前人类自己搞定的事情
现状：是以大数据技术为基础，结合深度学习技术，让AI获得重生。
AI是一个应用，他不是一个单纯的技术，是各个技术主体的混合使用，并在各场景下落地。

2、技术发展三步走

应用开发，hadoop&spark&hive,javaweb
数据分析&挖掘，nlp & 分类 & 聚类。。。。
深度学习，TensorFlow、MxNet…

3、分类&聚类
分类：将你的输入信息，划分到已知的类别的1个或多个。
聚类：将输入的信息，进行自动划分类别，此时的类别是未知的。

4、语境
上下文，Context

5、中文分词的词库说明
词库是中文分词效果的重要保证。
分类：
1) 系统词库：分词器中自带的词库
2) 第三方(行业)词库：医药健康、金融财经、人文历史、企事业单名称等等
3) 自定义词库：个人自定义动态添加的

6、maven pom配置构成

我是谁：group,artifact,version
我从哪里找依赖库-仓库源-repository:
我的依赖是什么
打包构建

7、maven scope的作用
scope: 范围
应用场景：当开发环境和生产环境不一致时，经常用到
值的函意：provided,默认不加
provided:代表生产环境已经有了，不需要你打包的时候再加入最终的jar包中了。
默认：就是正常打包，依赖的包统统打入最终的jar包中。

8、StringBuilder和StringBuffer的对比分析
相同点：处理字符串的工具类，都具备动态扩展的功能。
差异点：StringBuilder线程不安全，速度更快
StringBuffer线程安全，速度慢一些

9、ansj分词在第一次分词时，为什么很慢？
因为其要加载各种词库和分词模型，初始化这两部分用时较长，与运行环境的配置相关性很大，
但是初始化完成后，进行分词是很快的，基本可达到每秒百分字的切词/分词速度。

10、log4j介绍
概念：java开发中最主流的日志管理工具包
依赖：log4j jar包
使用方法：
注意事项：必须要添加log4j.properties的配置文件
日志级别： FATAL 致命的
ERROR 错误的
WARN 警告
INFO 一般性提示
DEBUG 调试模式

11、上午知识小点
1) eclipse更改项目的所有编码为utf-8,包括txt,java,properties
2) eclipse自定义添加类的注释，加入author和date

12、‘\001’字符意义？
数据仓库中，绝大部分存储均为结构化的文本数据，即为二维表格。
二维表格分隔主要由两个分隔符组成，一个是行间分隔符多用"\n"，
另一个是字段间分隔符多用’\t’，也可用’\001’，且目前大多数情况下都建议用’\001’来区分。

备注：web2.0的大数据时代，是由UGC(User Generate Content)模式产生。
 
举例说明：
    username   content   date
张三1	   我今天要去上课,	但是我迟到了'	2018-11-29

13、hive udf/udaf/udtf的异同点
1) udf
全称：user defined function
输入与输出的特点：in : out = 1:1
应用场景：1：1操作，如加密、做数值计算、字符串处理
实现方式：继承UDF类，定义一个evalute方法

2) udaf
 全称：.......aggregation....      
     In : Out = n:1
 应用场景：n:1操作，如求和，求平均数，最大/最小
     实现方法：继承UDAF,实现UDAFEvaluator接口，
           定义5个方法：
	      init : 定义map和reduce进程所需要的初始化变量
	      iterate : map阶段，迭代处理每个输入的记录
	                返回值是布尔类型，返回值要一直是true，如果出现false，则计算终止。
	      terminatePartial : map阶段，相当于combiner，做局部合并使用
	                        其输入值是iterate的处理结果(即在init初始化的变量，而非通过返回值方式).
				其输出值是merge的输入
	      merge : reduce阶段，迭代处理terminatePartial的输出结果
	              输入：terminalPartial的返回值
		      输出：其处理结果(init中的初始化变量)，作为terminate的输入，但不是通过返回值。
	      terminate ： reduce阶段的最终处理方法，处理merge的最终结果输出
	              输入：merge内部的处理结果，通过init的初始化变量传递过来
		      输出：即为udaf最终的输出
3) udtf
     全称：.....table-generator function
 in : out = 1 : n 
     应用场景：1:n的操作，当需要将值构造成一个表时，则使用之
 实现方法：lateral view explode + udf来达到udtf的需求

14、重写和重载的对比分析
重写：子类继承父类、方法名相同、参数个数/类型/顺序相同、返回值相同、
访问修饰符不大于父类,多数情况均为相同即可
重载：一个类中定义多个不同方法，但方法名称相同

15、什么是多态？
子类继承父类、方法重写、父类引用指向子类对象
实例说明：Person p=new Student()
Animal animal=new Dog()…

16、combiner作用分析
map端的reduce，局部合并的作用
主要作用：减少reduce的计算量、减少map->reduce的数据传输
应用场景：适用于一切可以局部合作的需求，
比如求平均数、求两表或多表的join操作等

17、maven常用命令
maven clean ：清空之前的target下的旧数据
maven compile : 编译
maven package : 打包
maven install : 打完包之后进行maven local安装
maven build : 写自定义构建脚本，做各种命令的灵活组合
其中compile,package,install是有前后级联关系的

天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建，
以"快乐工作，认真生活，打造高端职业技能教育的一面旗帜"为愿景，胸怀"让天下没有难找的工作"使命，
坚持"客户第一、诚信、激情、拥抱变化"的价值观，
全心全意为学员赋能提效，践行技术改变命运的初心。

更多学习讨论，请加入
官方-天亮大数据交流-366784928
群二维码：
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址：http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号，大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享，官方微信公众号二维码：
这里写图片描述

天亮教育官方群318971238，
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网：http://myhope365.com
项目研发业务尚云科技官网：http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

47-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-3

猜你喜欢