2.9学习笔记（西瓜书1） - 代码天地

2.9学习笔记（西瓜书1）

其他 2020-04-13 16:45:03 阅读次数: 0

提高模型性能：自己制作特征，制作多个模型
特征选择：
1.跑一遍随机森林得到特征重要性，删掉重要性低的
2.计算每个特征和label的相关性

1.加载数据，数值化求特征
2.svm算法学习一个模型
3.利用模型对新数据做分类预测

print("开始...................")

import pandas as pd
from sklearn.svm import LinearSVC '''线性svm分类器'''
from sklearn.feature_extraction.text import TfidfVectorizer '''要构造文本词频特征的一个函数接口'''

df_train=pd.read_csv('./train_set.csv')
df_test=pd.read_csv('./test_set.csv')
#把下载的数据加载进来
df_train.drop(columns=['article','id'],inplace=True)
df_test.drop(columns=['article'],inplace=True)
#删掉article和id列


vectorizer=TfidfVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9)
#定义一个TfidVectorizer类
vectorizer.fit(df_train['word_seg'])
#调用这个方法，可以学习到这个训练集的每个样本所对应的的一个向量
x_train=vectorizer.transform(df_train['word_seg'])
x_test=vectorizer.transform(df_test['word_seg'])
y_train=df_train['class']-1	#让label从0开始计数
#fit：为转换做准备
#transform：文本转换成向量


#训练一个SVM分类器
classifier=LinearSVC()	#初始化一个分类器
classifier.fit(x_train,y_train) #学习过程

#用学习好的分类器预测测试集样本
y_test=classifier.predict(x_test)

#将预测结果保存到本地
df_test['class']=y_test.tolist()
df_test['class']=df_test['class']+1
df_result=df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index=False)

print("结束............................")

Rbdash

发布了5 篇原创文章 · 获赞 2 · 访问量 2672

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43621813/article/details/104257373

2.9学习笔记（西瓜书1）

西瓜书1、2章学习笔记

西瓜书阅读笔记1

1、西瓜书笔记：绪论

西瓜书笔记（1）—— 绪论

机器学习西瓜书（周志华）学习笔记（1）-绪论

机器学习笔记之西瓜书、南瓜书（一）——1-6章

西瓜书笔记-支持向量机-1

《机器学习》周志华（西瓜书）学习笔记

机器学习(1)-西瓜书-线性回归

【机器学习-西瓜书】- 1 绪论

机器学习（西瓜书）-- 读书笔记

机器学习西瓜书泛读笔记(一)

机器学习西瓜书泛读笔记(二)

机器学习入门（西瓜书笔记）

西瓜书笔记04：集成学习

《机器学习》西瓜书笔记目录

《机器学习》西瓜书读书笔记

西瓜书第4章学习笔记

西瓜书第3章学习笔记

西瓜书第5章学习笔记

《机器学习（周志华西瓜书）》学习笔记1：第三章-线性模型

《机器学习-西瓜书》-周志华-学习笔记系列（1）--序言、前言和主要符号表

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY1-绪论

西瓜书阅读笔记（机器学习周志华）D1什么是假设空间和版本空间？

机器学习笔记１(西瓜书)：聚类任务、性能度量、距离计算、

西瓜书笔记

西瓜书笔记——绪论

机器学习-西瓜书

西瓜书笔记吴恩达参考 1-13

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)