机器学习之旅｜开始你的第一个机器学习项目 - 代码天地

机器学习之旅｜开始你的第一个机器学习项目

其他 2020-05-24 12:54:58 阅读次数: 0

前言

大家好，关于数据挖掘或者机器学习的理论我想大家应该都已经了解很多，而数据挖掘的工具例如Pandas、NumPy、Sklearn等在历史文章都有所介绍，因此今天我们将开始第一个也是很多人入门机器学习的项目：简单线性回归模型——通过工作年限预测薪水。先来回顾一下基本步骤：

加载清洗数据
建立、调整模型
分析预测

加载并观察数据

首先我们打开Jupyter Notebook导入相关库并加载数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
data = pd.read_excel('salary.xlsx')

接着查看数据

再查看一下描述性统计摘要

可以看到，我们的数据集非常简单所以不需要进行清洗，仅有两个变量：工作年限、薪资水平。一共10行2列，通过观察数据并结合经验，可以认为工作年限与薪资水平应该成线性关系，因此我们接下来将建立线性回归模型(有监督)。

建模预测

现在开始建模预测，虽然数据不大但是我们仍将它划分为训练集和测试集

X = data[['工作年限']]
y = data['薪水']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

接下来使用Sklearn包中的LinearRegression这个类来训练模型

model = LinearRegression()
model.fit(X_train,y_train)

在模型训练完毕之后，让我们使用之前的测试数据集来判断模型的准确性

当然也可以绘制散点图和回归直线来判断

可以看到我们的模型拥有100%的准确性，不过在真实的数据中几乎不可能出现这样的结果，一般超过90％的准确性就很好了，当然现在我们还可以使用其他数据来进行预测，比如预测拥有6.6年的工作经验对应的薪资水平是16300元。

结束语

以上就是使用Sklearn进行一次简单的回归建模预测的过程，也是我学习入门的案例，虽然简单，但是应该足够让小白搞懂基本流程，下一期来我们将使用著名的IRIS数据集来讲一讲分类。

猜你喜欢

转载自blog.csdn.net/weixin_41846769/article/details/105902487

机器学习之旅｜开始你的第一个机器学习项目

心得丨在开始第一个机器学习项目之前就了解的那些事儿

第一个机器学习项目： Iris Flower

JavaScript玩转机器学习打造你人生中的第一个AI项目

猿创征文｜Python-sklearn机器学习快速入门：你的第一个机器学习实战项目

机器学习初步：鸢尾花data建立第一个机器学习项目

机器学习：用6行Python代码开始写第一个机器学习程序

使用Python，创建你的第一个实用型入门机器学习项目（上）

TensorFlow入门：第一个机器学习Demo

TensorFlow入门：第一个机器学习Demo TensorFlow入门：第一个机器学习Demo

《机器学习Python实践》第三章——第一个机器学习项目

第一个机器学习项目（鸢尾花分类问题）

如何开始一个机器学习项目

Flutter学习之旅（一）创建你的第一个Flutter应用程序

开始你的第一个node项目

springboot学习之旅（一）：创建我们的第一个SpringBoot项目

【100天精通Python】Day75：Python机器学习-第一个机器学习小项目_鸾尾花分类项目（上）

快来！建立你的第一个Python聊天机器人项目

Pytorch机器学习（一）——FashionMNIST学习第一个神经网络

Kotlin学习之旅(D11)-第一个App之项目介绍

springboot学习之旅-springboot-road（壹）：创建第一个springboot项目

开始第一个项目

Springboot学习之路（一）开始第一个Springboot项目

TensorFlow入门之一：第一个机器学习Demo

从零开始的React开发之旅：构建你的第一个应用程序

机器学习之路：初识tensorflow 第一个程序

机器学习第一个算法决策树（DecisionTree）

Tensorflow实现第一个简单的机器学习demo

机器学习：Regression，第一个简单的示例，多项式回归

第一个机器学习scikit-learn可视化例子

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)