数据分析/数据挖掘/数据开发【笔试题经验】【不定期更新】

计算机系统的base寄存器/limit寄存器作用:base寄存器是指向程序起始地址。limit寄存器是指向程序内存越界位置。

聚类分析k-means的计算原理及步骤:数据预处理(对数据进行基本划分)、确定距离值、分类、评估聚类结果质量

数据挖掘的工作步骤:获取数据来源、得到相关技术及知识(数据含义)、脏数据处理、选择合适模型及算法、建立模型、验证及评估模型、应用

hadoop、spark、mpi的区别及应用场景:

hadoop采用HDFS作为分布文件存储,Hadoop 是离线计算,基于磁盘,每次运算之后的结果需要存储在HDFS里面,适用于离线数据处理和不需要多次迭代计算的场景,用于海量数据对实时要求又不是特别高的场景,如服务器的日志分析,网站KPI的分析。

spark内存计算框架,适用于多次迭代的计算模型,Spark提供了一组RDD的接口,Tran敏感词ormations和Action。Tran敏感词ormations是把一个RDD转换成为另一个RDD以便形成Lineage血统链,这样当数据发生错误的时候可以快速的依靠这种继承关系恢复数据。Spark应用于对实时要求高的场景,如网络安全的实时监控、电商网站的实时推荐系统。

MPI是消息传递接口,可以理解为是更原生的一种分布式模型,基于消息传递的并行计算框架。适用各种复杂应用的并行计算。支持MPMD( 多程序多数据) ,开发复杂度高。

猜你喜欢

转载自blog.csdn.net/yushu4772/article/details/82860982