读书笔记_中国期货市场量化交易（李尉）02

第四章基础统计模型

金融数据（问题）和传统数据（问题）差异：传统数据（时序等）更稳定，金融更博弈，高噪
对机器学习模型影响：模型简单则无法学习充分，模拟复杂则容易过拟合。（个人补充：对所有机器学习都有这个问题，但特殊在与传统问题我们人类可以取得较好结果，大多情况下，我们可以对其进行针对优化（构造特征等），而金融数据，即使我们人类也无法对其进行准确描述和建模，所以也和难优化，即使对于是过拟合还是飞过拟合都无从判断（所谓过拟合和非过拟合，不能单单通过测试集准确率-验证集准确率>0or<0判断，应为凡是测试集准确率必定高于验证集合））。
金融数据R2较低，一般采用相对性筛选，排序选最好就行了。
p和t-value：传统统计指标在金融数据中也无需太关注，由于其不满足样本的独立性和一些概率分布的假设
机器学习处理金融是过拟合了，（个人认为这也是不对的，不确定作者怎么得到这个结论的，如果是测试集准确率大于验证集，那么所有机器学习问题都过拟合了，单独对金融数据申明这一点并不合适）
对于样本外不佳的处理：l1,l2正则化

ridge：解决过拟合，去掉不重要特征（大体没问题，但需要先做标准化和归一化，作者在书中并未提到，如果不进行标准化和归一化，这么做就是错误的） 
lasso：解决过拟合，去掉不重要特征（这也是不对的，lasso主要是解决特征共线性的，而且lasso去掉的特征也不是不重要，而是和另一个特征高相关了，和特征本身重不重要没太大关系，对过拟合可能也有微弱削减，但削减其实依靠减少特征实现的，作用非常微弱）

第五章复杂统计模型与机器学习

（拙见：这一章整个都在验证不同算法，但实际机器学习问题，7成工作是在做特征工程，特征工程才是机器学习问题的核心，可视化，分析，转换等，但作者这里完全没有提到，只是把算法当做黑箱套用，分析出较好算法）
gbm算法，随机森林等算法
跨品种因子：把类似品种的另一个产品因子也拿过来，当做本产品的因子使用（我大不大理解，这么做意义，个人以为副作用，引入无理由的高相关特征，容易过拟合）
传统数据相对金融数据优势：传统问题稳定(人类误差低，理论上可以处理的）。数据分布一致。信噪比高（这三点非常认同）
拙见：这一章和上一章很多细节都是需要在斟酌的，不准确的信息太多了。