实际工程问题中应用机器学习和深度学习的踩坑心得总结 - 代码天地

实际工程问题中应用机器学习和深度学习的踩坑心得总结

编程语言 2019-02-22 16:59:21 阅读次数: 0

数据样本

一开始会偏好去套用论文中的各种华丽算法，希冀提高百分之几的指标，最后“啪啪啪”打脸，发现还是那句老话说得好，“对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型、算法的选择及优化则是在逐步接近这个上限”。所以追本溯源，提高结果的关键手段之一是提高数据和特征的质量和数量，这能达到快速提高指标结果的目的。

增加训练样本数量，收集更多的数据
优化数据清洗
改善样本分布

特征工程

特征工程主要是在应用机器学习算法时需要重点关注的地方，深度学习本身并不需要进行人工提取特征。

模型过拟合，可适当减少特征数量
尝试获得更多的特征
尝试增加多项式特征

模型选择

建模初期阶段，试图复现论文中各式各样的模型，但是实际工程应用中，这些往往不如基于一个模型逐步调参更有效。

初期可以先用一个baseline模型（通常是逻辑回归lr模型），看看指标的基线大致在多少，然后再尝试调参或者其他模型（CNN、RNN等）
尝试减少或增加正则化程度
深度学习神经网络中的隐藏层数选择，可以先从一层开始逐渐增加层数
深度学习中，embedding很重要
模型精度固然重要，但在部署上线时，计算效率也很重要

深度学习

样本规模：小规模训练样本在输入时可以直接load进内存处理，但深度学习往往样本百万级，直接load限制数据规模，规模超过内存则内存爆炸。数据预处理通常在python中直接调用，后续使用算法训练时使用gpu处理，这样gpu和cpu来回切换，gpu占用率抖动。所以并行计算是个好办法，用spark将样本数据构造成tfrecord的格式，效率高，数据规模也有进一步的提升空间。

模型评估

模型调参或更换是否性能得到改进，需要应用一些评价指标来判断。

选择合适的评价指标，一般有准确率、召回率、F1值、AUC等

参考：

吴恩达机器学习课程
论算法工程师首先是个工程师之深度学习在排序应用踩坑总结

猜你喜欢

转载自blog.csdn.net/m511655654/article/details/87879518

实际工程问题中应用机器学习和深度学习的踩坑心得总结

深度学习实战应用：分享一些深度学习在实际问题中的应用案例和经验

机器学习实战应用：分享一些机器学习在实际问题中的应用案例和经验

实际问题中如何使用机器学习模型

机器学习（四）机器学习与深度学习的实际应用整理

Fastjson踩“坑”记录和“深度”学习

《机器学习》的总结与心得

深度学习踩坑记录

机器学习/深度学习问题总结及解答

R语言深度学习在解决复杂问题中的强化学习应用

那些年踩过的深度学习坑一维度问题

关于机器学习和深度学习的一些心得

LE-1 如何学习机器学习和深度学习用于解决实际问题的常规套路

机器学习和深度学习入门总结

PySpark实际应用踩坑

ftrace在实际问题中的应用

从-Quora-的-187-个问题中学习机器学习和NLP

机器学习中梯度下降算法的实际应用和技巧

工作学习总结-pdf.js的踩坑和运用

学习（踩坑）记录——新建工程

Linux 深度学习踩过的坑

【pytorch】深度学习模型踩坑

【机器学习pandas踩坑（一）】

机器学习踩坑之CTPN

机器学习、深度学习总结

机器学习算法工程师需要掌握的技能与要踩的坑

机器学习:分类问题中的“维数灾难”

收藏！机器学习与深度学习面试问题总结.....

深度学习 --- 应用数学和机器学习基础（数值计算）

LabVIEW应用和部署：机器学习/深度学习

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)