[大数据、Hadoop、数据采集、MySQL、计算机基础、Windows、练习题库、面试]

1. 下列哪种行为符合使用计算机的道德规范()

A.利用网络公布他人隐私

B.利用网络歪曲他人私人信息

C.利用网络破坏他人计算机

D.删除自己计算机中不用的软件

正确答案:D

2. 创建用户时,需要赋予新用户( )权限才能使它联上数据库

A.connect

B.source

C.table

D.role

正确答案:A

3. 公司中有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,从部门到职员的联系类型是( )

A.多对多

B.一对一

C.多对一

D.一对多

正确答案:D

4. 使用( ),可以将某个SQL语句的执行依赖于另一个查询语句的执行结果

A.内连接查询

B.子查询

C.外连接查询

D.合并查询

正确答案:B

5. SQL的下列运算符中表示任意字符的是

A.*

B.%

C.LIKE

D._

正确答案:B

6. 分析以下SQL命令: SELECT price FROM inventory WHERE price BETWEEN 1 AND 50 AND (price IN(55, 30, 95); 命令执行后的最可能的输出结果是

A.55

B.30

C.95

D.51

正确答案:B

7. 数据采集是数据分析前的重要且首要环节,数据采集需要符合哪些特性()

A.多维性、灵活性、高延迟

B.全面性、多维性、高效性

C.低维度、高并发、高速率

D.单一化、低维度、低并发

正确答案:B

8. 在操作系统中,多个进程请求相同资源而引起的无休止的相互等待的过程叫做()

A.死锁

B.挂起

C.阻塞

D.中断

正确答案:A

9. 在OSI的七层参考模型中,工作在第二层上的网间连接设备是()

A.交换机

B.网关

C.路由器

D.集线器

正确答案:A

10. Apache服务器是实现(    )网络协议的服务器。

A.FTP

B.DHCP

C.HTTPD

D.HTTP

正确答案:D

11. 关于Python语言的变量,以下选项中说法正确的是

A.随时声明、随时使用、随时释放

B.随时命名、随时赋值、随时使用

C.随时声明、随时赋值、随时变换类型

D.随时命名、随时赋值、随时变换类型

正确答案:B

12. 若k为整形, 下述while循环执行的次数为() k=1000   while k>1:    print(k)   k = k/2

A.9

B.10

C.11

D.1000

正确答案:B

13. type(1+2L*3.14)的结果是( )。

A.<type "int">

B.<type "long">

C.<type "float">

D.<type "str">

正确答案:C

14. 网络爬虫最常需要配置的请求头是()。

A.user-agent

B.accept-encoding

C.accept

D.referer

正确答案:A

15. JS埋点式数据采集的主要作用不包括()

A.数据监控

B.性能监控

C.异常监控

D.访问者IP收集

正确答案:D

16. 以长格式列目录时,若文件test的权限描述为:drwxrw-r--,则文件test的类型及文件主的权限是()

A.目录文件、读写执行

B.目录文件、读写

C.普通文件、读写

D.普通文件、读

正确答案:A

17. 在Linux环境下的Apache容器数据的采集中,启动apache服务代码是( )。

A.httpd

B.startup.bat

C.filebeat

D.logstash

正确答案:A

18. 在Linux环境下的Tomcat容器数据的采集中,启动Tomcat容器的代码是(   )。

A.httpd

B.startup.sh

C.filebeat

D.logstash

正确答案:B

19.   在XPath中,XML文档是被作为节点树来对待的。树的根被称为()。

A.文档节点

B.总节点

C.树节点

D.元素

正确答案:A

20. 下列哪个正则表达式表示简单的身份证号验证?

A.\d{15}|\d{18}$

B.\d{15}|\d{18}

C.\{15}|\d{18}$

D.d{15}|\d{18}$

正确答案:A

21. ELK在安装过程中,彼此之间存在一定的依赖关系,正确的安装顺序是()

A.Logstash-ElasticSearch-Kibana

B.ElasticSearch-Logstash-Kibana

C.ElasticSearch-Kibana-Logstash

D.Kibana-ElasticSearch-Logstash

正确答案:B

22. 以下不属于常用的日志框架的是()

A.Log4j

B.Slf4j

C.Logback

D.vue

正确答案:D

23. 响应状态码中,表示“未授权,不能访问”的是()。

A.500

B.501

C.302

D.401

正确答案:D

24. 选择html页面上所有class属性为“cls”的div标签,Xpath代码为()。

A.//div[class='cls']

B.//div[@class='cls']

C./div[@class='cls']

D.//div[@class=cls]

正确答案:B

25. 以下哪项()URL对SEO最友好

A.seostudy/index.html

B.seostudy/

C.seostudy.php?id=021

D.seostudy.aspx

正确答案:A

多选题(共15题 共30分)

1. 下列哪些概念不是为了提高数据库的访问速度而存在( )

A.外键

B.视图

C.关系

D.索引

正确答案:A B C

2. 使用SQL命令将教师表teacher中工资salary字段的值增加500,下列哪些命令是不能实现的( )

A.Replace salary with salary+500

B.Update teacher salary with salary+500

C.Update set salary with salary+500

D.Update teacher set salary=salary+500

正确答案:A B C

3. 数据采集,从网页或各业务系统中来抽取数据,并进行本地存储,其具体步骤包括()

A.分析数据

B.采集数据

C.清洗数据

D.存储数据

正确答案:B C D

4. Windows操作系统在其运行的生命周期中会记录其大量的日志信息,这些日志信息包括()

A.Windows事件日志(Event Log)

B.Windows服务器系统的IIS日志

C.FTP日志

D.Exchange Server邮件服务

E.MS SQL Server数据库日志

正确答案:A B C D E

5. 在Windows系统中申请、查看、释放IP地址分别使用什么命令?

A.ipconfig /refree

B.ipconfig /renew

C.ipconfig /all

D.ipconfig /release

正确答案:B C D

6. 关于 Python 组合数据类型,以下选项中描述错误的是()

A.Python 的 str、tuple 和 list 类型不都属于序列类型

B.Python 组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易

C.组合数据类型可以分为 3 类:序列类型、集合类型和映射类型

D.序列类型是二维元素向量,元素之间存在先后关系,通过序号访问

正确答案:A D

7. HTTP请求报文包含()

A.请求行

B.请求头

C.空行

D.请求体

正确答案:A B C D

8. 埋点式采集数据的方式又可以根据埋点位置的不同,可以分为哪几种()

A.前端埋点

B.代理埋点

C.后端埋点

D.数据库埋点

正确答案:A C

9. 下面哪些建议可以增强系统的安全性?

A.尽可能关闭不必要的服务

B.废除所有默认的帐号

C.限制用户尝试登陆的次数

D.加密

正确答案:A C D

10. Apache容器数据采集中常用( )工具完成数据采集。

A.Apache服务器

B.Filebeat

C.logstash

D.Nginx

正确答案:B C

11. Xpath表达式的返回值可以返回什么类型?

A.节点值

B.字符串

C.布尔类型

D.数字

正确答案:A B C D

12. 下列哪些是正则表达式的正确表示?

A.Regular Expression

B.regex

C.regexp

D.RE

正确答案:A B C D

13. 完整的日志具有哪些作用()

A.信息查找

B.服务诊断

C.业务拓展

D.数据分析

正确答案:A B D

14. Scrapy架构中,中间件包括()。

A.Downloader Middlewares

B.Scheduler Middlewares

C.Spider Middlewares

D.Pipeline Middlewares

正确答案:A C

15. urllib的urlopen方法的参数,至少是()或()中的一个。

A.data

B.url

C.headers

D.Request对象

正确答案:B D

判断题(共20题 共20分)

1. 关系数据库中,实体之间的联系是通过表与表之间的公共元组实现的

正确

错误

正确答案:错误

2. 视图是由一个或若干基表产生的数据集合,但视图不占存储空间。建立视图可以保护数据安全(仅让用户查询修改可以看见的一些行列)、简化查询操作、保护数据的独立性

正确

错误

正确答案:正确

3. DELETE语句用来删除表中的数据,一次只能删除一行

正确

错误

正确答案:错误

4. 大数据采集一般数据量大、数据面广,因此信息采集执行效率相对低效且获取数据不追求及时性

正确

错误

正确答案:错误

5. 进程具备多种特性,如:动态性、顺序性、独立性和同步性

正确

错误

正确答案:错误

6. 在TCP/IP协议中,TCP提供可靠的面向连接服务,UDP提供简单的无连接服务

正确

错误

正确答案:正确

7. Apache虚拟目录的位置与主目录的位置可以不在同一磁盘上

正确

错误

正确答案:正确

8. Python 不需要显式声明变量类型,在第一次变量赋值时由值决定变量的类型

正确

错误

正确答案:正确

9. Python内存管理中,变量无须先创建和赋值而直接使用

正确

错误

正确答案:错误

10. 在TCP/IP协议中,TCP协议提供可靠的连接服务,通过使用四次握手建立一个连接。

正确

错误

正确答案:错误

11. 通过前端埋点数据采集,可以统计用户在每一个页面的停留时间。

正确

错误

正确答案:正确

12. 利用JS埋点技术进行数据采集时,必须通过用户在网页中触发网络请求才能完成采集。

正确

错误

正确答案:错误

13. chmod命令仅由root用户可以执行。

正确

错误

正确答案:错误

14. 经常使用filebeat和logstash完成日志数据的采集

正确

错误

正确答案:正确

15. Xpath通配符不可以用来选取未知的XML元素。

正确

错误

正确答案:错误

16. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正确

错误

正确答案:正确

17. 若要了解一个业务系统的访问量、运行状态、异常情况、功能访问分布等情况,可通过爬取其日志信息进行数据分析和信息提取

正确

错误

正确答案:正确

18. 一个网站获取的反向链接越多越好,说明被认同的范围越广,所以反向链接追求高数量,对质量要求低

正确

错误

正确答案:错误

19. Get传送的数据量较小,这主要是因为受URL长度限制;Post传送的数据量较大,一般被默认为不受限制。

正确

错误

正确答案:正确

20. Scrapy中,pipline用于对Item进行清理、验证,并定义其输出

正确

错误

正确答案:正确

1. 下列哪种行为符合使用计算机的道德规范

A.利用网络公布他人隐私

B.利用网络歪曲他人私人信息

C.利用网络破坏他人计算机

D.删除自己计算机中不用的软件

正确答案:D

2. 创建用户时,需要赋予新用户( )权限才能使它联上数据库

A.connect

B.source

C.table

D.role

正确答案:A

3. 公司中有多个部门和多名职员,每个职员只能属于一个部门,一个部门可以有多名职员,从部门到职员的联系类型是( )

A.多对多

B.一对一

C.多对一

D.一对多

正确答案:D

4. 使用( ),可以将某个SQL语句的执行依赖于另一个查询语句的执行结果

A.内连接查询

B.子查询

C.外连接查询

D.合并查询

正确答案:B

5. SQL的下列运算符中表示任意字符的是

A.*

B.%

C.LIKE

D._

正确答案:B

6. 分析以下SQL命令: SELECT price FROM inventory WHERE price BETWEEN 1 AND 50 AND (price IN(55, 30, 95); 命令执行后的最可能的输出结果是

A.55

B.30

C.95

D.51

正确答案:B

7. 数据采集是数据分析前的重要且首要环节,数据采集需要符合哪些特性()

A.多维性、灵活性、高延迟

B.全面性、多维性、高效性

C.低维度、高并发、高速率

D.单一化、低维度、低并发

正确答案:B

8. 在操作系统中,多个进程请求相同资源而引起的无休止的相互等待的过程叫做()

A.死锁

B.挂起

C.阻塞

D.中断

正确答案:A

9. 在OSI的七层参考模型中,工作在第二层上的网间连接设备是()

A.交换机

B.网关

C.路由器

D.集线器

正确答案:A

10. Apache服务器是实现(    )网络协议的服务器。

A.FTP

B.DHCP

C.HTTPD

D.HTTP

正确答案:D

11. 关于Python语言的变量,以下选项中说法正确的是

A.随时声明、随时使用、随时释放

B.随时命名、随时赋值、随时使用

C.随时声明、随时赋值、随时变换类型

D.随时命名、随时赋值、随时变换类型

正确答案:B

12. 若k为整形, 下述while循环执行的次数为() k=1000   while k>1:    print(k)   k = k/2

A.9

B.10

C.11

D.1000

正确答案:B

13. type(1+2L*3.14)的结果是( )。

A.<type "int">

B.<type "long">

C.<type "float">

D.<type "str">

正确答案:C

14. 网络爬虫最常需要配置的请求头是()。

A.user-agent

B.accept-encoding

C.accept

D.referer

正确答案:A

15. JS埋点式数据采集的主要作用不包括()

A.数据监控

B.性能监控

C.异常监控

D.访问者IP收集

正确答案:D

16. 以长格式列目录时,若文件test的权限描述为:drwxrw-r--,则文件test的类型及文件主的权限是()

A.目录文件、读写执行

B.目录文件、读写

C.普通文件、读写

D.普通文件、读

正确答案:A

17. 在Linux环境下的Apache容器数据的采集中,启动apache服务代码是( )。

A.httpd

B.startup.bat

C.filebeat

D.logstash

正确答案:A

18. 在Linux环境下的Tomcat容器数据的采集中,启动Tomcat容器的代码是(   )。

A.httpd

B.startup.sh

C.filebeat

D.logstash

正确答案:B

19.   在XPath中,XML文档是被作为节点树来对待的。树的根被称为()。

A.文档节点

B.总节点

C.树节点

D.元素

正确答案:A

20. 下列哪个正则表达式表示简单的身份证号验证?

A.\d{15}|\d{18}$

B.\d{15}|\d{18}

C.\{15}|\d{18}$

D.d{15}|\d{18}$

正确答案:A

21. ELK在安装过程中,彼此之间存在一定的依赖关系,正确的安装顺序是()

A.Logstash-ElasticSearch-Kibana

B.ElasticSearch-Logstash-Kibana

C.ElasticSearch-Kibana-Logstash

D.Kibana-ElasticSearch-Logstash

正确答案:B

22. 以下不属于常用的日志框架的是()

A.Log4j

B.Slf4j

C.Logback

D.vue

正确答案:D

23. 响应状态码中,表示“未授权,不能访问”的是()。

A.500

B.501

C.302

D.401

正确答案:D

24. 选择html页面上所有class属性为“cls”的div标签,Xpath代码为()。

A.//div[class='cls']

B.//div[@class='cls']

C./div[@class='cls']

D.//div[@class=cls]

正确答案:B

25. 以下哪项()URL对SEO最友好

A.seostudy/index.html

B.seostudy/

C.seostudy.php?id=021

D.seostudy.aspx

正确答案:A

多选题(共15题 共30分)

1. 下列哪些概念不是为了提高数据库的访问速度而存在( )

A.外键

B.视图

C.关系

D.索引

正确答案:A B C

考生答案:B、A、C得分:2

试题解析:

2. 使用SQL命令将教师表teacher中工资salary字段的值增加500,下列哪些命令是不能实现的( )

A.Replace salary with salary+500

B.Update teacher salary with salary+500

C.Update set salary with salary+500

D.Update teacher set salary=salary+500

正确答案:A B C

3. 数据采集,从网页或各业务系统中来抽取数据,并进行本地存储,其具体步骤包括()

A.分析数据

B.采集数据

C.清洗数据

D.存储数据

正确答案:B C D

4. Windows操作系统在其运行的生命周期中会记录其大量的日志信息,这些日志信息包括()

A.Windows事件日志(Event Log)

B.Windows服务器系统的IIS日志

C.FTP日志

D.Exchange Server邮件服务

E.MS SQL Server数据库日志

正确答案:A B C D E

5. 在Windows系统中申请、查看、释放IP地址分别使用什么命令?

A.ipconfig /refree

B.ipconfig /renew

C.ipconfig /all

D.ipconfig /release

正确答案:B C D

6. 关于 Python 组合数据类型,以下选项中描述错误的是()

A.Python 的 str、tuple 和 list 类型不都属于序列类型

B.Python 组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易

C.组合数据类型可以分为 3 类:序列类型、集合类型和映射类型

D.序列类型是二维元素向量,元素之间存在先后关系,通过序号访问

正确答案:A D

7. HTTP请求报文包含()

A.请求行

B.请求头

C.空行

D.请求体

正确答案:A B C D

8. 埋点式采集数据的方式又可以根据埋点位置的不同,可以分为哪几种()

A.前端埋点

B.代理埋点

C.后端埋点

D.数据库埋点

正确答案:A C

9. 下面哪些建议可以增强系统的安全性?

A.尽可能关闭不必要的服务

B.废除所有默认的帐号

C.限制用户尝试登陆的次数

D.加密

正确答案:A C D

10. Apache容器数据采集中常用( )工具完成数据采集。

A.Apache服务器

B.Filebeat

C.logstash

D.Nginx

正确答案:B C

11. Xpath表达式的返回值可以返回什么类型?

A.节点值

B.字符串

C.布尔类型

D.数字

正确答案:A B C D

12. 下列哪些是正则表达式的正确表示?

A.Regular Expression

B.regex

C.regexp

D.RE

正确答案:A B C D

13. 完整的日志具有哪些作用()

A.信息查找

B.服务诊断

C.业务拓展

D.数据分析

正确答案:A B D

14. Scrapy架构中,中间件包括()。

A.Downloader Middlewares

B.Scheduler Middlewares

C.Spider Middlewares

D.Pipeline Middlewares

正确答案:A C

15. urllib的urlopen方法的参数,至少是()或()中的一个。

A.data

B.url

C.headers

D.Request对象

正确答案:B D

判断题(共20题 共20分)

1. 关系数据库中,实体之间的联系是通过表与表之间的公共元组实现的

正确

错误

正确答案:错误

2. 视图是由一个或若干基表产生的数据集合,但视图不占存储空间。建立视图可以保护数据安全(仅让用户查询修改可以看见的一些行列)、简化查询操作、保护数据的独立性

正确

错误

正确答案:正确

3. DELETE语句用来删除表中的数据,一次只能删除一行

正确

错误

正确答案:错误

4. 大数据采集一般数据量大、数据面广,因此信息采集执行效率相对低效且获取数据不追求及时性

正确

错误

正确答案:错误

5. 进程具备多种特性,如:动态性、顺序性、独立性和同步性

正确

错误

正确答案:错误

6. 在TCP/IP协议中,TCP提供可靠的面向连接服务,UDP提供简单的无连接服务

正确

错误

正确答案:正确

7. Apache虚拟目录的位置与主目录的位置可以不在同一磁盘上

正确

错误

正确答案:正确

8. Python 不需要显式声明变量类型,在第一次变量赋值时由值决定变量的类型

正确

错误

正确答案:正确

9. Python内存管理中,变量无须先创建和赋值而直接使用

正确

错误

正确答案:错误

10. 在TCP/IP协议中,TCP协议提供可靠的连接服务,通过使用四次握手建立一个连接。

正确

错误

正确答案:错误

11. 通过前端埋点数据采集,可以统计用户在每一个页面的停留时间。

正确

错误

正确答案:正确

12. 利用JS埋点技术进行数据采集时,必须通过用户在网页中触发网络请求才能完成采集。

正确

错误

正确答案:错误

13. chmod命令仅由root用户可以执行。

正确

错误

正确答案:错误

14. 经常使用filebeat和logstash完成日志数据的采集

正确

错误

正确答案:正确

15. Xpath通配符不可以用来选取未知的XML元素。

正确

错误

正确答案:错误

16. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正确

错误

正确答案:正确

17. 若要了解一个业务系统的访问量、运行状态、异常情况、功能访问分布等情况,可通过爬取其日志信息进行数据分析和信息提取

正确

错误

正确答案:正确

18. 一个网站获取的反向链接越多越好,说明被认同的范围越广,所以反向链接追求高数量,对质量要求低

正确

错误

正确答案:错误

19. Get传送的数据量较小,这主要是因为受URL长度限制;Post传送的数据量较大,一般被默认为不受限制。

正确

错误

正确答案:正确

20. Scrapy中,pipline用于对Item进行清理、验证,并定义其输出

正确

错误

正确答案:正确

猜你喜欢

转载自blog.csdn.net/m0_57781407/article/details/127128415