45-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-1

1、方向划分

  1. 爬虫研发方向
  2. 离线开发-数据仓库方向-ETL工程师
    代码量要求不高,以SQL+工具+业务为主
  3. 大数据全栈开发工程师
    代码要求比较高,能够写各种业务代码,核心是掌握各种编程技巧和框架应用开发

2、研发三个层次

  1. 应用开发层:其中大数据开发属于最高层
  2. 数据分析与挖掘: 根据一定的分析方法或挖掘算法,得出有价值的数据信息。
  3. 深度学习:深度神经网络的各种应用实战,最大特点是具备了自学习自适应的能力。

3、nlp
nature language process:自然语言处理

4、为什么将hive数据推送到mysql?
当需要实时查询数据时,要将数据存储在可供实时查询的数据,像mysql,sqlserver,oracle,redis,elasticsearch,mongodb。
hive:数据仓库,无法做实时查询,ms级响应
mysql:关系型数据库,特别适合查询等线上业务应用。

5、里程碑
milestone:针对一个大项目或大工程,进行阶段划分,每个重要阶段即为一个里程碑。

6、order by和sort by的对比分析
sort by : 局部排序,单个reduce内部的排序
order by : 全局排序,全部reduce的排序,此时有且仅有一个reduce产生。
归并排序:先把大数据量按某种规则分成若干小块,拿出局部小块使之有序,最终使得全局有序。
大而化小,分而治之。

7、流水线-PipeLine
核心就是分IO,按层或是按功能分

8、什么是结构化、半结构化、非结构化?
结构化:表格或者表。
半结构化:html,xml
非结构化:完全没有结构。

9、html和xml对比分析?
相同点:都是半结化结构,都是标签性语言
不同点:html是xml的子集

10、流式数据处理和一次性加载数据处理
流式:一点一点的消费数据,连续不可中断
一次性加载:将数据全量加载到内存之后,再处理

11、大数据环境下的机器角色划分
开发机:写代码所在的机器
机器集群:hadoop集群
包含了hdfs集群: namenode、datanode、client
及yarn集群:ResourceManager,NodeManager,ApplicationManager
spark集群。。。
入口机/集群的客户端/生产环境/服务布署机器:布署你的代码时候所使用的机器
跳板机:隔离开发和入口机的中间保护层

12、仪表盘(Dashboard)
对系统的整体概览描述、可视化。。。。

13、linux expect编程
提供一种程序和linux命令行交互的方式

14、数据加密和数据脱敏
数据加密:对原数据保护的一种方式,也是数据脱敏的一种方式
数据脱敏:掩码形式脱敏,186****1010
其次就是常见的加密方式

15、scp远程拷贝-从本机拷到远程,从远程拷贝到本地
1) 从本机拷到远程
scp -r 源文件/目录 username@hostname:/路径
2) 从远程拷贝到本地
scp -r username@hostname:/路径 源文件/目录

16、???写一个测试用例TestCase,来验证hdfs是否直接可识别gzip格式的文件?
1) gzip文件
2) upload to hdfs path
3) hdfs dfs -text hdfs_gzip_file_path

17、数据清洗和脏数据问题
1) ETL工程师-extract,transform,load,主要工作之一即为数据清洗
2) 脏数据:非法数据,如身份证号21位、手机号12位、及相关业务脏数据

18、写一个测试用例TestCase,来验证xargs切分输入的分隔符是什么?
1) echo “1 2 3” | xargs -n1
可以测试n2,n3,n4的作用

19、内外表说明
1) 区分方法
加external代表是外表,不加的即为内表
2) 差异点
外表:hive只管元数据不管实体数据,删表后只会删除元数据,不会改变实体数据。
内表:元数据和实体数据均归hive管理,删表后全部随之删除。
3) 应用场景
内表应用场景:当该表可以在hive内部自生成的时候使用。
外表应用场景:不能自生成的,即由外部导入的数据,则必须建成外表。
当建立外表的表结构时,注意保持源数据格式与表存储格式的一致性。



天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
这里写图片描述

天亮教育官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/84842440