【零基础学机器学习 2】机器学习的实操步骤-以及在Python中实现机器学习模型

企业开发 2023-05-17 06:54:58 阅读次数: 0

文章目录

1. 收集数据
2. 准备数据
3. 选择模型
4. 训练模型
5. 评估模型
6. 参数调整
7. 进行预测
在Python中实现机器学习模型

机器学习是一种人工智能的分支，它使用算法和统计模型来让计算机系统自动地从数据中学习，并根据学习结果做出预测或决策。机器学习的目标是让计算机系统通过学习数据中的模式和规律，从而能够自主地进行分类、预测、识别、优化等任务，并不断地改进自己的性能。机器学习应用广泛，包括自然语言处理、计算机视觉、语音识别、推荐系统、金融风险管理等领域。

将智能赋予机器的任务似乎是艰巨而不可能的。但实际上，它非常容易。它可以分为7个主要步骤

1. 收集数据

机器是从我们提供的数据中学习的。收集可靠的数据非常重要，以便我们的机器学习模型可以找到正确的模式。我们提供给机器的数据的数量和质量将决定模型的准确性。如果我们有不正确或过时的数据，我们将得到不靠谱的结果，甚至是错误结果或预测。

确保使用来自可靠来源的数据，因为它将直接影响我们的模型的结果。好的数据是相关的，包含非常少的缺失和重复值，并且具有各种子类别/类别的良好表示。

Machine_learning_Fig_2。

2. 准备数据

在获得数据之后，我们必须准备数据。我们可以通过以下方式完成

将我们拥有的所有数据放在一起并进行随机化。这有助于确保数据均匀分布，而排序不会影响学习过程。
清理数据以删除不需要的数据、缺失值、行和列、重复值、数据类型转换等。我们甚至可能需要重构数据集并更改行和列或行和列的索引。
可视化数据以了解其结构并了解各种变量和类别之间的关系。
将清理后的数据分成两个集合-训练集和测试集。训练集是模型学习的集合。测试集用于在训练后检查模型的准确性。

Machine_learning_Fig_3

3. 选择模型

机器学习模型确定了在收集的数据上运行机器学习算法后获得的输出。选择与手头任务相关的模型非常重要。多年来，科学家和工程师开发了适用于不同任务的各种模型，如语音识别、图像识别、预测等。除此之外，我们还必须看看我们的模型是否适用于数值或分类数据，并相应选择。

Machine_learning_Fig_4

4. 训练模型

训练是机器学习中最重要的步骤。在训练中，我们将准备好的数据传递给机器学习模型以查找模式并进行预测。模型从数据中学习，随着时间的推移，通过训练，模型变得更好地进行预测。

扫描二维码关注公众号，回复： 15108660 查看本文章

Machine_learning_Fig_5

5. 评估模型

在训练模型后，我们必须检查其性能。这是通过测试模型在先前未见过的数据上的性能来完成的。使用的未见过的数据是我们之前将数据分成的测试集。如果在用于训练的相同数据上进行测试，则不会得到准确的度量结果，因为模型已经习惯了数据，并在其中找到了相同的模式。这将给我们不成比例的高准确性。

在测试数据上使用，我们将获得有关模型性能及其速度的准确度度量。

Machine_learning_Fig_6

6. 参数调整

一旦我们创建并评估了模型，请查看其准确性是否可以以任何方式改进。这是通过调整模型中存在的参数来完成的。参数是程序员通常决定的模型中的变量。在参数的特定值下，准确度将达到最大值。参数调整是指查找这些值。

Machine_learning_Fig_7。

7. 进行预测

最后，我们可以使用我们的模型在未见过的数据上进行准确的预测。

在Python中实现机器学习模型

现在，我们将看到如何使用Python实现机器学习模型。

在此示例中，收集的数据来自一家保险公司，告诉我们设置保险金额时发挥作用的变量。使用此数据，我们将必须预测某个人的保险金额。此数据是从Kaggle.com下载的。

我们需要从导入所需的任何模块开始，如下所示。

Machine_learning_Fig_8

接下来，我们将导入数据。

Machine_learning_Fig_9。

Machine_learning_Fig_10

现在，通过删除重复值并将列转换为数字值以使其更易于处理来清理数据。

Machine_learning_Fig_11

最终数据集如下所示。

Machine_learning_Fig_12

现在，将数据集拆分为训练集和测试集。

Machine_learning_Fig_13

由于我们需要基于某些参数预测数字值，因此必须使用线性回归。模型需要在训练集上进行学习。这是通过使用“.fit”命令完成的。

Machine_learning_Fig_14

现在，预测我们的测试数据集并查找我们的预测的准确性。

Machine_learning_Fig_15。

1.0是我们可以获得的最高准确度级别。现在，获取我们的参数。

Machine_learning_Fig_16。

上图显示了影响数据集中各个变量的超参数。

猜你喜欢

转载自blog.csdn.net/shangyanaf/article/details/130691961

【零基础学机器学习 2】机器学习的实操步骤-以及在Python中实现机器学习模型

【零基础学机器学习 1】什么是机器学习？

零基础入门学习Python（2）

机器学习实操的7个步骤

机器学习-2（机器学习程序的步骤）

2、机器学习基础

机器学习基础-2

如何零基础入门机器学习？

零基础入门学习Java（2）

【零基础-2】PaddlePaddle学习Bert

机器学习零基础也不怕，“TensorFlow 官方入门实操课程”来了

从机器学习到大模型（零基础）

《零基础入门学习Python》学习笔记2

机器学习2 线性模型

零基础python机器学习笔记--L2过拟合和惩罚稀疏岭回归--代码实战第三天

TensorFlow2 构造机器学习模型的步骤

2机器学习数学基础

机器学习基础随笔（2）

机器学习之路的Python基础篇2

零基础学习机器学习视频

Python语法命令学习-Day2（零基础）

小甲鱼零基础学习python_2 【if -else】

零基础学习python笔记（2）之循环结构

零基础入门学习Python（10）-列表（2）

【零基础学机器学习 3】机器学习类型简介：监督学习 - 无监督学习 - 强化学习

零基础从20K到25K的深度学习之路--1为啥要学机器学习.

机器学习零基础初学者入门

ML笔记 | 零基础学懂机器学习（五）

机器学习项目步骤总结2

零基础学习MySql数据库—2

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)