[系统工程]机器学习的通用步骤 - 代码天地

[系统工程]机器学习的通用步骤

其他 2019-04-29 13:21:09 阅读次数: 0

版权声明：未经博主允许不得转载(https://github.com/ai-word) https://blog.csdn.net/BaiHuaXiu123/article/details/89577485

我们在进行机器学习过程中一个通用步骤主要有以下几个方面：

1）明确问题

实现什么目标
需要什么数据这个问题：如果公司有大量的数据，可以确定最终的目标是什么；如果没有则需要通过目标来确定数据集

2）获取数据

自己公司内部的数据（项目上使用），如数据库等
开源数据集,如：UCI、GoogleTrends、Kaggle、AWS公用数据集、Imagenet、MINIST、麻省理工大学人脸识别、歌曲数据库、图像处理COCO、视频数据集youtube等等

3）数据格式整理

往往我们的数据大多都是数据库文件数据，并不是里面所有的维度信息都是需要用到的，所以这里需要进行相应的处理。

把收集到的数据转换为txt,csv,xsl等的形式，方便机器学习库进行读取
原始数据的所有的变量量化，进一步转变为含数据（Data）和标签（Labels）的数据框形式，方便建模。

4）数据预处理

偏差检测：即检查导致偏差的因素，并识别离散值与噪声值。
数据清洗：即处理缺失值与噪声。
数据标准化

5）数据拆分

将数据集随机打乱按照7:3或者8比2或者其他拆分为训练集和测试集。

6）根据场景采用不同的合适机器学习模型

考虑因素：

数据的维度大小，数据的质量和数据的特征属性；
可以利用的计算资源；
所在的项目组对该项目的时间预计；
手上的数据能应用在哪些项目中；

选择的依据

如果要进行降维操作，那么你可以使用主成分分析方法（PCA）；
如果要快速进行手写数字预测，那么你可以使用决策树或者逻辑回归；
如果要进行数据分层操作，那么你可以使用分层聚类。
等等

7）设置损失函数loss

0-1损失函数 也就是说，当预测错误时，损失函数为1，当预测正确时，损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误，就是1。
平方损失函数 是指预测值与实际值差的平方。
绝对值损失函数 该损失函数的意义和上面差不多，只不过是取了绝对值而不是求绝对值，差距不会被平方放大。
对数损失函数
Hinge loss

8) 设置学习率

对于不同大小的数据集，调节不同的学习率
在每次迭代中调节不同的学习率

9）测试，检验

综上整个大致流程如图所示：

以上有不准确的，欢迎提意见，探讨。。

资源下载

[资源下载]https://github.com/ai-word

猜你喜欢

转载自blog.csdn.net/BaiHuaXiu123/article/details/89577485

[系统工程]机器学习的通用步骤

系统工程的本质

软件工程学习笔记(二):系统工程

需求工程与系统工程

【MBSE】系统工程的本质

系统架构设计师（第二版）学习笔记----系统工程

系统工程中的需求管理（一）

Sso系统工程搭建——登录功能

Sso系统工程搭建——注册功能

Linux系统工程狮养成记

信息系统工程监理资质

系统工程新发展——体系

MBSE基于模型的系统工程

医院诊疗管理系统工程代码

基于模型的系统工程 | MBSE

《云计算：大数据时代的系统工程》试读

云计算：大数据时代的系统工程

云计算：大数据时代的系统工程（三）

云计算：大数据时代的系统工程(二)

Google的系统工程师(SA)如何工作

Git版本控制系统工程开发实践

知识图谱的系统工程观（综述）

淘淘商城之后台管理系统工程结构

Linux系统工程师面试题

什么是测试系统工程师（TSE）？

邹鹏程：操作系统工程视角下的AIoT

android系统工程师常用软件

干货分享|基于模型的系统工程（MBSE）介绍

侯捷C++系统工程师

智睿思维基于模型的系统工程软件（MBSES）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)