经常感觉没有什么目标,于是就百度汇总了一下可以学习的东西,比较全面了,包括数据分析与可视化,机器学习
可以根据自己的喜好来选择
大数据通用处理平台:1. Spark 2. Flink 3. Hadoop
分布式存储:HDFS
资源调度: Yarn Mesos
机器学习工具: Mahout 1. Spark Mlib 2. TensorFlow (Google 系) 3. Amazon Machine Learning 4. DMTK (微软分布式机器学习工具)
数据分析/数据仓库(SQL类): 1. Pig 2. Hive 3. kylin 4. Spark SQL, 5. Spark DataFrame 6. Impala 7. Phoenix 8. ELK (8.1 ElasticSearch 8.2Logstash 8.3Kibana)
消息队列: 1. Kafka(纯日志类,大吞吐量) 2. RocketMQ 3. ZeroMQ 4. ActiveMQ 5. RabbitMQ
流式计算: 1. Storm/JStorm 2. Spark Streaming 3. Flink
日志收集: Scribe Flume
编程语言: 1. Java 2. Python 3. R 4. Ruby 5. Scala
数据分析挖掘: MATLAB SPSS SAS
数据可视化: 1. R 2. D3.js 3. ECharts 4. Excle 5. Python
机器学习:
机器学习基础 1. 聚类 2. 时间序列 3. 推荐系统 4. 回归分析 5. 文本挖掘 6. 决策树 7. 支持向量机 8. 贝叶斯分类 9. 神经网络
机器学习工具: 1. Mahout 2. Spark Mlib 3. TensorFlow (Google 系) 4. Amazon Machine Learning 5. DMTK (微软分布式机器学习工具)
算法: 一致性 1. paxos 2. raft 3. gossip
数据结构: 1. 栈,队列,链表 2. 散列表 3. 二叉树,红黑树,B树 4. 图
常用算法: 1.排序 插入排序 桶排序 堆排序 2.快速排序 3,最大子数组 4.最长公共子序列 5.最小生成树 最短路径 6.矩阵的存储和运算