53-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-10

1、索引结构
作用:提高数据查询效率
索引结构分类:
1) 正向索引
文章到词条的一个映射关系
文章1 term1,term2,term3…
文章2 term3,term4,term5…

2) 倒排索引
       词条到文章的一个映射关系
       term1  文章1,文章2
       term2  文章2,文章3
       term3  文章1

2、restful与传统webservice的对比分析
webservice:网络服务,泛指不同系统通过web服务互联互通的技术。
重量级、使用方对服务提供方有依赖、维护成本高
restful: 新兴的网络互联互通技术,
轻量级、无依赖、维护成本低

3、mr中partition和reduce的关系?
partition_number=(key.hashCode() & Integer.MaxValue)%reduce_number
partition_number<=reduce_number
partition是个map内的局部输出,reduce是job的全局输出。
reduce_number任务执行之前确定的,有两种确定方式:
第一种是自定义mapred.reduce.tasks,
第二种是自动推测,map的输入字节总大小/每个reduce可处理的单个map的输入大小(hive.exec.reducers.bytes.per.reducer)

4、distribute by关键字
按照指定某个或某几个字段进行分发,用于后续的按照特定规则进行分区的操作。

5、任务评估
1)计算密集型
其瓶颈在于CPU
2)IO密集型
其瓶颈在于网络IO或是磁盘IO,如果磁盘IO卡是瓶颈,那么网络IO一定是瓶颈。
如果网络IO是瓶颈,此时磁盘IO未必是瓶颈。
现实当中,更多见的是网络IO是瓶颈。

6、任务执行时间的预判

  1. 定性
    大任务,还是小任务
  2. 定量
    计算时间是多长、磁盘使用量是多大

7、有模式和无模式简介
有模式:有scheme,即为有就可以用,没有就绝对不可以用。
多用于关系型数据库
无模式:有就直接用,没有就可以自动创建(构建)后再使用。
多用于nosql数据库,其中kv数据库就是nosql的一个分支。

8、bdb环境构建之参数分析
主目录-即为所有bdb数据的大本营
Environment:将主目录进行bdb对象化构建
EnvironmentConfig: 负责配置Environment的参数
DataBase : 即为bdb中数据库的实例化对象
DataBaseConfig :即为数据库自定义参数配置

9、在java中,是不是所有对象均可以序列化?
肯定不是
有状态的可以被序列化,无状态的是不能被序列化的。
比如:线程对象,Socket对象

10、工具类的封装方法

  1. 先写测试类
  2. 将测试类测试充分,搞清楚该工具类的主要功能点及输入输出。
  3. 将功能划分好、将功能当中的静态变量定义,抽象成参数,即为方法抽象。
  4. 多个方法抽象完成,即完成工具类的抽象。

11、抽象的级别划分

  1. 方法抽象
  2. 类抽象
  3. 包抽象
  4. 项目抽象
  5. 子系统抽象


天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
在这里插入图片描述

天亮教育官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/86299283
今日推荐