54-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-11

1、做项目的感觉

  1. 越做越小,但是问题越来越多,越来越深。
    举例说明:请介绍一下BDB这个数据库?
    1.1)概念介绍
    开源kv型嵌入式数据库
    1.2)特点/优缺点
    优点:简单、跨语言、功能强大
    缺点:无网络IO、无SQL
    1.3)应用场景
    高效的kv查询场景、快速布署场景
    1.4)具体的代码经典实现方法
    1.4.1) 初始化数据库环境变量-Enviroment
    1.4.2) 得到数据库操作对象-DataBase
    1.4.3) CRUD examples: db.put(null,keyByteArray,valueByteArray);
    注意事项:内外存结合,落盘的时候要调用sync,及时关闭db和environment。

2、MR编程套路
2.1) Driver类:驱动类,即为MR计算的业务管理类
2.2) Map类:将数据按照某种规则进行打散处理
2.3) Reduce类:将数据按照即定规则进行归约处理
2.4) shell 调用 yarn执行编写的mr代码生成的jar包即可。

3、阅读类代码的常用套路
3.1) 如果是独立运行的类,应该从主方法开始看。
3.2) 如果是非独立运行的类,即该类是被方法调用的使用情况,则可以从上往下,
或是通过ide中的方法导航查看亦可。

4、MR参数分类
4.1) 系统参数:传给MR框架,比如说压缩、严格非严格模式、设置reduce个数、作业名称
4.2) 应用参数:传给你自己写的应用代码的,比如输入输出、黑白名单文件等.

5、eclipse与idea的ide环境简介对比
共性:都是优秀的IDE,全球都在使用。
差异分析:
优点:
eclipse:简单、使用量极广、初中高级均可使用、最古老成熟
idea: 入手时略复杂、习惯后极其强大、但是建议代码功底强大后再使用最好。
代码提示功能大、插件集成度更高

    缺点:
   eclipse: 细节暴露给程序员的太多、有一些常见的bug比较明显(比如异常关机后重启eclipse项目通通报错、maven下载过程中断网等)
   idea:  细节封装的太狠、很多问题出现后对初学者解决起来很不方便

6、mapper结构说明
1、extends Mapper类
2、setup方法:初始化进程所需要的变量
3、map方法:逐条处理接收到的数据。
4、cleanup方法:扫尾工作

7、如何写递归函数?

  1. 递归函数的写法
  2. 终止条件

8、StackOverflowError分析
概率:栈溢出
原因分析:递归函数要么代码写对了但是目录太深,
更多见是代码写错了导致了递归死循环了。

9、练习题:
将mapper中自定义的bdb文件夹数量改成参数传递方式来决定,而不是写死在mapper代码中?

10、做事情三个层次
用手做事、用脑子做事、用心做事

11、正则表达式的匹配方式
有三种,
1) 全量匹配:matches
2) 前向匹配:lookingAt
3) 任意匹配:find



天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
在这里插入图片描述

天亮教育官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/86299324