CSDN社群十问十答(大数据第一期）

过去的一周，我们从CSDN 大数据社群中，整理了小伙伴们提问较多的问题，并请技术达人对这些问题进行了回答，现整理如下。欢迎大家在社群中积极提问哦，积极提问的小伙伴还将获得CSDN提供的神秘纪念礼品哦！

问题1、Spark可以完全替代hadoop吗？
不可以，spark 只是分布式计算平台，而hadoop已经是分布式计算、存储、管理的生态系统。
与Spark相对应的是Hadoop Mapreduce 。我认为spark是可取代MapReduce的。从而成为Hadoop系统中不可或缺的一部分。

问题2、学习Spark一定要先学Hadoop吗？
不需要，Spark做计算可以不依赖Hadoop，只不过Hadoop的HDFS已经是大数据存储的标配了，Hadoop也比较成熟了，大多数情况下，你只需要部署好Hadoop直接用就可以了。

问题3、LR与线性回归的区别与联系是什么？
个人感觉逻辑回归和线性回归首先都是广义的线性回归，
其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，
另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。

问题4、KNN中的K如何选取的？
在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证（简单来说，就是一部分样本做训练集，一部分做测试集）法来选择最优的K值

问题5、机器学习中，为何要经常对数据做归一化？
1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度。

问题6、如何优化优化Kmeans？
使用kd树或者ball tree，将所有的观测实例构建成一颗kd树，之前每个聚类中心都是需要和每个观测点做依次距离计算，现在这些聚类中心根据kd树只需要计算附近的一个局部区域即可。

问题7、大数据与BI有什么区别?
A：认为不可这么理解，单纯的从数据角度来说，人们把大数据总结出4V，四个特点，但个人认为大数据应该是一个架构，是一个大的概念，既包括数据本身，还包括相关的设备和技术。而，BI（Business Intelligence），只是为了数据分析的需要，对数据的一种处理方式，个人感觉它应该算是数据处理的范畴，而处理的对象可以是一般的数据也可以是“大数据”，这里的大数据指的是数据量比较大的数据集。

问题8、HDFS在上传文件的时候，如果其中一个块突然损坏了怎么办？
其中一个块坏了，只要有其它块存在，会自动检测还原。

问题9、NameNode的作用是什么？
namenode总体来说是管理和记录恢复功能。
比如管理datanode，保持心跳，如果超时则排除。
对于上传文件都有镜像images和edits,这些可以用来恢复。

问题10、NameNode的HA是什么？
NameNode的HA一个备用，一个工作，且一个失败后，另一个被激活。他们通过journal node来实现共享数据

欢迎大家扫码进群交流哦！我们还将每周分享技术学习资源+每月推出技术主题月活动+群主、技术达人在线答疑互动！

CSDN社群十问十答(大数据第一期）

猜你喜欢