Data scientist成长路线

分析工具:

(1)SQL

    select from

    where

    group by having

    order by

    limit

    运算符(算数运算符+-*/、比较运算符><=、逻辑运算符not/and/or)

    聚合函数(count、sum、avg、max、min)

    函数(算术函数、字符串函数、日期函数)

    子查询(标量子查询、关联子查询)

    谓词(like、between、is null、in)

    case when

    集合运算(表的加减法、表联结)

(2)python

    列表/元祖/字典/集合

    if/while/for

    函数/高阶函数

    迭代器/生成器

    类/继承/多态

    numpy

    pands

    matplotlib/seaborn

    scikit-learn

    搜索(二分)

    排序(希尔、归并、快排)

    递归(斐波拉契、回文)

    最优化(背包、动态规划、贪心)

    随机游走

    二叉树

(3)Linux

    Bash shell

理论基础:

(1)统计概率

    条件概率/贝叶斯/极大似然估计/最大后验估计

    概率分布(0-1分布/伯努利分布、二项分布、泊松分布、正态分布/高斯分布、指数分布、β分布、γ分布)

    中心极限定理/大数定律

    假设检验(抽样、区间估计、置信区间、P值)

    方差分析/显著性差异(T检验、F检验)

    蒙特卡罗

    时间序列

(2)机器学习

    代价函数(MSE、交叉熵损失)

    梯度下降(随机梯度、小批量梯度)

    极大似然估计

    交叉验证(gridsearchCV)

    模型评估(R2、RMSE、accuracy、Precision、AUC、ROC、F1 score)

    模型融合(voting、averaging、bagging、boosting、stacking)

    过拟合

    正则化

    预处理(标准化、归一化)

    异常值检测

    特征工程(embedding)

    线性回归(lasso、ridge)

    logistic回归(熵、基尼系数)

    感知机/SVM(凸优化、神经网络)

    决策树/随机森林(ID3、C4.5、CART)

    adaboost/gbdt/xgboost/lightgbm

    朴素贝叶斯

    KNN(kd树)

    k-means

    PCA/SVD

    推荐系统(关联分析Apriori、协同过滤)

(3)大数据

    hadoop原理

    mapreduce原理

业务逻辑:

(1)方法论

    金字塔/逻辑树

    5W2H(whay、what、who、when、where、how、how much)

    pest行业分析(政治、经济、社会、技术)

    4P营销理论(产品、价格、渠道、促销)

    用户行为理论(认知/访问、熟悉/浏览搜索、试用/注册、使用/登录订购、忠诚/黏性流失)

    生命周期理论

(2)分析方法

    对比分析

    漏斗分析

    A/B test

    埋点分析

    来源分析

(3)指标体系

    人(用户画像)

    商品()

    订单(购买行为)

    时间(生命周期)

猜你喜欢

转载自www.cnblogs.com/janekim/p/10201306.html