分类学习基础 - 代码天地

分类学习基础

其他 2021-02-27 22:46:19 阅读次数: 0

机器学习的数据：文件csv

数据集的结构：

kaggle 大数据竞赛平台、真实数据、数据量巨大

uci 专业数据集，覆盖了生活的方方面面

scikit-learn 数据量较小，方便学习。

结构：特征值+目标值。

房子面积、位置、楼层、朝向为特征值

		房子面积	房子位置	房子楼层	房子朝向	目标值
样本1	数据1	80	9	3	0	80
样本2	数据2	100	9	5	1	120
样本3	数据3	80	10	3	0	100

有些数据集可以没有目标值

特征工程：对数据集中特征的处理，将文本中的特征转化为数字

使用工具sklearn（不仅限于这个）

下图是机器学习的整个流程。

安装sklearn（需要numpy,pandas等库）

在Python3的虚拟环境中，mkvirtualenv -p /.../ ml3

ubuntu的虚拟环境中运行：pip install Scikit-learn

检查是否可以使用：import sklearn

tf: term frequency 词频率出现的次数

idf inverse document frequency 逆文档频率 log(总文档数量、本次出现文档的数量）

tf*idf 称为重要性

可以将词语按照重要性进行从大到小排序，这样可以得出一篇文章中关键词汇从而进行分类处理。

from sklearn.preprocessing import MinMaxScaler
def mm():
    '''归一化处理'''
    mm = MinMaxScaler()
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)
if __name__ == "__main__":
    mm()

当异常值比较多的时候，直接使用归一化会影响最大最小值，从而影响最后结果的准确性。由于标准化是大批数据进行，所以一般在归一化前进行标准化。

如何处理缺失值？

1、删除如果缺失值比较多，删除的话会大大减少数据量（一般不用）

2、填补平均数、中位数进行填补

猜你喜欢

转载自blog.csdn.net/qq_38851184/article/details/108484507

分类学习基础

AlexNet分类学习

多分类学习

caffe分类学习及问题

CNN图像分类学习

TensorFlow Classification 分类学习

IMDB情感分类学习

theano学习之分类学习

机器学习之多分类学习

机器学习 --- 多分类学习

机器学习实验——分类学习算法

机器学习——图像分类学习笔记

Tensorflow中Classification分类学习

TensorFlow练习（六）——Classification分类学习

调用sklearn库分类学习

新闻文本分类学习笔记

机器学习3-分类学习-线性分类器

【机器学习】多分类学习的拆分策略

基于Python的机器学习之分类学习

机器学习8-分类学习-集成模型

机器学习7-分类学习-决策树

机器学习6-分类学习-K近邻

文本分类学习（六） AdaBoost和SVM

神经网络从零到熟练——水果分类学习

评分卡系列（三）：分类学习器的评估

Tensorflow2.1.0 Keras实现MNIST分类学习

【附代码】【入门级】多任务分类学习

机器学习4-分类学习-支持向量机分类

文本分类学习（八）SVM 入门之线性分类器

Matlab自带的分类学习工具箱（SVM、决策树、Knn等分类器）

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)