机器学习问题的一般思路

# 定义问题
1导入需要的类库和数据
2对数据集进行瘦身处理
3建立可视化数据集
# 理解数据
通过描述性统计和可视化来观测数据
# 数据准备
数据的预处理,并让数据更好的展示问题,以及输入与输出的关系
1 错误重复数据的筛选
2 特征选择,移除多余的特征属性和增加新的特征属性
3 数据转化调整数据尺度或是调整数据分布以便更好地展示
# 评估算法
目的在于寻找最佳的算法子集
1分离出评估数据集,以验证训练集
2定义模型评估标准,以用来评估算法模型
3抽样审查线性算法和非线性算法
4比较算法的准确度,此过程需要大量的时间
# 优化模型
方法
1通过调参来确定最优参数
2通过集合算法来提高模型的准确度
# 结果部署
1使用测试集验证优化模型
2通过整个数据集来生成模型
3将模型序列化,以便于预测新的数据集


猜你喜欢

转载自www.cnblogs.com/sugar-k/p/11480353.html