47-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-3

1、人工智能概念介绍
概念定义:AI Artificial Intelligence
直观解释:其实就是用计算机解决之前人类自己搞定的事情
现状:是以大数据技术为基础,结合深度学习技术,让AI获得重生。
AI是一个应用,他不是一个单纯的技术,是各个技术主体的混合使用,并在各场景下落地。

2、技术发展三步走

  1. 应用开发,hadoop&spark&hive,javaweb
  2. 数据分析&挖掘,nlp & 分类 & 聚类 。。。。
  3. 深度学习,TensorFlow、MxNet…

3、分类&聚类
分类:将你的输入信息,划分到已知的类别的1个或多个。
聚类:将输入的信息,进行自动划分类别,此时的类别是未知的。

4、语境
上下文,Context

5、中文分词的词库说明
词库是中文分词效果的重要保证。
分类:
1) 系统词库:分词器中自带的词库
2) 第三方(行业)词库:医药健康、金融财经、人文历史、企事业单名称等等
3) 自定义词库:个人自定义动态添加的

6、maven pom配置构成

  1. 我是谁:group,artifact,version
  2. 我从哪里找依赖库-仓库源-repository:
  3. 我的依赖是什么
  4. 打包构建

7、maven scope的作用
scope: 范围
应用场景:当开发环境和生产环境不一致时,经常用到
值的函意:provided,默认不加
provided:代表生产环境已经有了,不需要你打包的时候再加入最终的jar包中了。
默认:就是正常打包,依赖的包统统打入最终的jar包中。

8、StringBuilder和StringBuffer的对比分析
相同点:处理字符串的工具类,都具备动态扩展的功能。
差异点:StringBuilder线程不安全,速度更快
StringBuffer线程安全,速度慢一些

9、ansj分词在第一次分词时,为什么很慢?
因为其要加载各种词库和分词模型,初始化这两部分用时较长,与运行环境的配置相关性很大,
但是初始化完成后,进行分词是很快的,基本可达到每秒百分字的切词/分词速度。

10、log4j介绍
概念:java开发中最主流的日志管理工具包
依赖:log4j jar包
使用方法:
注意事项:必须要添加log4j.properties的配置文件
日志级别: FATAL 致命的
ERROR 错误的
WARN 警告
INFO 一般性提示
DEBUG 调试模式

11、上午知识小点
1) eclipse更改项目的所有编码为utf-8,包括txt,java,properties
2) eclipse自定义添加类的注释,加入author和date

12、‘\001’字符意义?
数据仓库中,绝大部分存储均为结构化的文本数据,即为二维表格。
二维表格分隔主要由两个分隔符组成,一个是行间分隔符多用"\n",
另一个是字段间分隔符多用’\t’,也可用’\001’,且目前大多数情况下都建议用’\001’来区分。

备注:web2.0的大数据时代,是由UGC(User Generate Content)模式产生。
 
举例说明:
    username   content   date
张三1	   我今天要去上课,	但是我迟到了'	2018-11-29

13、hive udf/udaf/udtf的异同点
1) udf
全称:user defined function
输入与输出的特点:in : out = 1:1
应用场景:1:1操作,如加密、做数值计算、字符串处理
实现方式:继承UDF类,定义一个evalute方法

2) udaf
 全称:.......aggregation....      
     In : Out = n:1
 应用场景:n:1操作,如求和,求平均数,最大/最小
     实现方法:继承UDAF,实现UDAFEvaluator接口,
           定义5个方法:
	      init : 定义map和reduce进程所需要的初始化变量
	      iterate : map阶段,迭代处理每个输入的记录
	                返回值是布尔类型,返回值要一直是true,如果出现false,则计算终止。
	      terminatePartial : map阶段,相当于combiner,做局部合并使用
	                        其输入值是iterate的处理结果(即在init初始化的变量,而非通过返回值方式).
				其输出值是merge的输入
	      merge : reduce阶段,迭代处理terminatePartial的输出结果
	              输入:terminalPartial的返回值
		      输出:其处理结果(init中的初始化变量),作为terminate的输入,但不是通过返回值。
	      terminate : reduce阶段的最终处理方法,处理merge的最终结果输出
	              输入:merge内部的处理结果,通过init的初始化变量传递过来
		      输出:即为udaf最终的输出
3) udtf
     全称:.....table-generator function
 in : out = 1 : n 
     应用场景:1:n的操作,当需要将值构造成一个表时,则使用之
 实现方法:lateral view explode + udf来达到udtf的需求

14、重写和重载的对比分析
重写:子类继承父类、方法名相同、参数个数/类型/顺序相同、返回值相同、
访问修饰符不大于父类,多数情况均为相同即可
重载:一个类中定义多个不同方法,但方法名称相同

15、什么是多态?
子类继承父类、方法重写、父类引用指向子类对象
实例说明:Person p=new Student()
Animal animal=new Dog()…

16、combiner作用分析
map端的reduce,局部合并的作用
主要作用:减少reduce的计算量、减少map->reduce的数据传输
应用场景:适用于一切可以局部合作的需求,
比如求平均数、求两表或多表的join操作等

17、maven常用命令
maven clean :清空之前的target下的旧数据
maven compile : 编译
maven package : 打包
maven install : 打完包之后进行maven local安装
maven build : 写自定义构建脚本,做各种命令的灵活组合
其中compile,package,install是有前后级联关系的



天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
这里写图片描述

天亮教育官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/84917466