Machine Learning with scikitlearn in Python by Hands on

作者:禅与计算机程序设计艺术

1.简介

scikit-learn (简称sklearn)是一个开源的Python机器学习库,其实现了许多常用机器学习模型。它提供了简单易用的API接口,并且可以用于文本处理、特征提取、分类、回归等任务。本文通过两个方面介绍scikit-learn库:第1部分对相关概念进行简单的介绍;第2部分从最基础的算法模型(线性回归、支持向量机、决策树、K-近邻)出发,详细剖析每个模型的实现原理及在scikit-learn中如何调用。并结合实际应用案例,介绍如何利用scikit-learn快速搭建机器学习模型,为日后的工作或研究提供便利。最后还包括一些进阶应用及工具介绍。希望本文能够帮助读者了解并掌握基于scikit-learn的机器学习库的使用方法。

2.预备知识

2.1机器学习的定义

机器学习是指让计算机从数据中自动分析得到模式、规律和结构的一种学科。它的目标是使机器系统通过自然的方式学习和改善性能,而不是依赖于人工设计的规则。该领域涉及广泛的数学理论和方法,包括概率论、统计学、优化算法、信息论、凸分析、博弈论等。

2.2基本术语

机器学习有很多重要的术语,如特征、标签、训练集、测试集、算法、超参数、模型、代价函数、损失函数等。下面我们对这些术语逐个进行解释。 ①特征:机器学习的输入数据通常被表示成特征向量或矩阵,也可能包括原始数据的一部分,比如图像中的像素值。特征向量或矩阵可以用来表示样本,也可以用来表示一个训练集。 ②标签:训练好的机器学习模型不仅需要获取特征作为输入,而且还要学习到标记或输出值,即所期望的结果。一般来说,标签可以是连续变量,也可以是离散变量,比如分类问题中“好”或者“坏”ÿ

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132706212