48-天亮大数据系列教程之舆情热点挖掘项目-课堂笔记-5

1、load data的两种方式对比分析

  1. 本地加载
    load data local inpath…
    把本地文件拷贝到hdfs相应的目录一份,对本地方无任何影响。
  2. hdfs加载
    load data inpath…
    移动源hdfs文件到指定的表的hdfs目录
    原因:hdfs源文件,意味着默认有3个副本,如果hdfs加载方式的话,不进行移动的话,相当一式六份,因此hdfs加载均为移动hdfs数据文件。

2、数据敏感性
停用词表的大小:系统自带2792,加自定义合计2804个。
数据一共多少周:实用的是2周,可用的是52周。
占磁盘:解压后占42G ,zip解压前占19G。
总条数:2.52亿。。。

一天有多少小时:24小时
多少分钟:1440
多少秒钟:86400

3、数据类项目复习
主线:数据的各个状态节点
1) zip文件
2) csv文件
3) weibo_origin
4) weibo_product
5) weibo_seg_result
6) weibo_seg_wc

4、web项目与hive数据仓库的可集成性?
如果是在线型的项目,是不能让web直接查询hive仓库数据的。
hive数仓的定位:离线数据仓库,不强调即时性,而强调吞吐量(单位时间内的计算量)。
如果是实时性要求不高的,可以集成hive的。

5、在线数据库使用选型?
mysql是互联网公司必选,小巧、开源、灵活、免费、社区非常活跃。
适用于用户即时交互性的业务场景,即为在线业务场景。

6、hive表数据落盘到本地的命令及注意事项?

  1. 落盘到本地的命令
    insert overwrite local directory ‘directory_path’
    row format delimited fields terminated by ‘\t’
    select语句
  2. 注意事项
    请自拟测试用例TestCase,来验证落盘到本地时,对本地数据目录的要求和写入模式?
    输出目前是否存在、输出模式是增量还是覆盖式的?

7、mysql赋权后,为何要执行flush privileges?
1) mysql服务启动的时候,首先从磁盘加载配置文件(包括权限参数)到内存,
使mysql权限管理生效,即必须到内存才可使权限生效。
2) mysql赋权命令,执行完成先到磁盘,落地为安,此时并没有主动加载到内存,
所以赋权命令不会即时生效。
3) 手动让mysql将配置文件加载到内存:
3.1) 重启服务
3.2) flush privileges命令,显式重新加载配置文件到内存。

8、mysql的存储引擎对比分析?

  1. 引擎分类:InnoDB和MyISAM
  2. 各自的优缺点
    2.1) InnoDB
    有事务安全性高、行级别锁、适用于update,insert
    2.2) MyIsam
    非事务安全性弱、表级别锁、适用于select

9、网络链接和端口开放介绍

  1. 直接开放
    如果你的主机有外网(公网)IP,则可以直接开放。
  2. 间接开放
    如果你的主机没有外网IP,只有内网(局域网)IP,则只能选接间接开放。
    间接访问复杂性和网络链路多变性较强,所以当访问间接开放的服务时,
    极有可能不能直接访问到后边的实体服务。

10、mysql创建表的脚本,通过命令行如何创建?
1) 找到mysql的软件位置,配置相应的参数,包括-h,-u,-p
2) mysql -e “”,将mysql脚本放入-e后边即可。
3) 案例:
M Y S Q L h MYSQL -h remote_mysql_server_ip -u r e m o t e m y s q l s e r v e r u s e r n a m e p remote_mysql_server_username -p remote_mysql_server_password -e "
use $db_name;
CREATE TABLE $table_name (word varchar(255) DEFAULT NULL,freq int DEFAULT NULL,week_seq varchar(255) DEFAULT NULL) ENGINE=MyISAM DEFAULT CHARSET=utf8;
"
注意符号修改和参数抽取

11、c/s和b/s架构介绍
1) 概念
c/s=client/server,指传统的需要安装客户端的
b/s=browser/server,指通过浏览器方式访问和操作服务器的方式

2) 优缺点
   c/s比较重的模式,因为有依赖。
   其次就是维护和升级,用户体验比较差。
   b/s比较轻的模式,就靠一个浏览器。
   其次就是维护和升维几乎没有感知,用户体验要好很多。

3)应用场景
   现在市场占用量依然不分伯仲,主要看使用场景。
   c/s使用场景:某些特定场景,对交互、硬件、安全等有特殊要求的,则必须使用c/s
                如qq、微信、支付宝为代表,其次像税务软件、金融类app等。
   其它之外的绝大多数情况下,均推荐使用b/s结构,
   b/s结构是以后软件发展的大趋势。

12、spring两大特性-AOP和IOC
IOC(Inversion of Control),即“控制反转”,传统的对象使用都是工程师自行准备和初始化等,IOC机制作了控制反转,只需要声明即可通过容器的反转机制,在需要时拿到相应对象。
AOP:aspect oriented program,面向切面的编程,
将系统中共用的模块或功能进行模向切割抽象,如登陆/退出功能、日志功能、权限管理等等。
通过简单的配置实现一处代码多处共用。

13、程序设计语言与地域发展的关系
html->asp->jsp/php->框架->大数据->人工智能相关技术和应用
未来1-3年,石家庄的大数据人才需求一定会井喷。

14、传统webservice与微服务对比分析
传统的webservice: 比较重,需要有各种依赖和运维升级的麻烦。
微服务:比较轻,不需要安装依赖任何发布服务方的东西,
只需要通发送http请求即可。

15、一个经典的maven bug导致的项目构建异常(找不到引入的类)
1)对某问解答:是否在开发过程中,遇到过很印象深度或难解决的问题?
2)bug描述:当下载jar包,尤其是体量偏大的jar包依赖,需要下载的时间越来,
若过程中出现断网、关机等情况,会导致jar包下载异常,但此时maven是不知道的或是无感的,
此时会导致ide环境出现明明jar包已导入,但内部引入的class类找不到的问题。
3)bug重现
将maven的原依赖包删掉后,进行maven update操作,过程中进行手工断网可重现。
4)bug解决
将之前的残留文件进行全部清空后,进行maven update操作,同时保证网络不要中断即可。

16、war包和jar包说明
jar包:java application项目的依赖或自身打成的包,均为jar包。
war包:java语言开发的web项目,最终打成的包,均为war包。

17、web容器介绍
web容器:运行动态网页的环境。
web容器举例:最著名是tomcat,另外还有商用的web容器,比如jboss,websphere等。
容器的存在形式:
内置和外置
外置即独立布署web容器环境,
优点:效率会略高于内置,缺点:不可独立运行。
内置即在项目发布的jar包中,自带web容器。
优点:不需要任何外置容器参与,即可独立运行。缺点:效率会略低于外置。

18、注解说明
用注释说明(注解)的方式来使某个类具备指定的功能作用。
以@符号作为注解的标志符

19、常见服务的默认端口
http 80
https 443
ssh 22
mysql 3306
tomcat 8080

20、url请求模板
协议://host:端口/路径

21、页面模板引擎
1) 目标:简化传统动态web页面的代码复杂,尽量降低数据和可视化的耦合性。
2) 做法:定义一套方便、快捷的标签语言,方便实现页面的数据操作及可视化。
3) 常见的模拟引擎
FreeMarker,Thymeleaf等

22、h4和h5的区别是什么?
1) h5增加很多新的标签,在动作、样式、多媒体等应用方面。
2) h5使得页面更容易适配到移动端。



天亮教育是一家从事大数据云计算、人工智能、教育培训、产品开发、咨询服务、人才优选为一体的综合型互联网科技公司。
公司由一批BAT等一线互联网IT精英人士创建,
以"快乐工作,认真生活,打造高端职业技能教育的一面旗帜"为愿景,胸怀"让天下没有难找的工作"使命,
坚持"客户第一、诚信、激情、拥抱变化"的价值观,
全心全意为学员赋能提效,践行技术改变命运的初心。

更多学习讨论, 请加入
官方-天亮大数据交流-366784928
群二维码:
这里写图片描述
天亮教育公开课-从小白到大佬修成记-全系列视频地址:http://bbs.myhope365.com/forum.php?mod=viewthread&tid=1422&extra=page%3D1

欢迎关注天亮教育公众号,大数据技术资料与课程、招生就业动态、教育资讯动态、创业历程分享一站式分享,官方微信公众号二维码:
这里写图片描述

天亮教育官方群318971238,
爬虫、nlp技术qq群320349384
hadoop & spark & hive技术群297585251
教育培训官网:http://myhope365.com
项目研发业务尚云科技官网:http://shangyuninfo.com/
官方天亮论坛:http://bbs.myhope365.com/

猜你喜欢

转载自blog.csdn.net/erliang20088/article/details/85036758