python - 实现文本分类（准确度不高） - 代码天地

python - 实现文本分类（准确度不高）

其他 2019-04-20 16:21:27 阅读次数: 0

第三方库

pandas

sklearn

数据集

来自于达观杯

训练：train.txt
测试：test.txt

概述

TF-IDF 模型提取特征值
建立逻辑回归模型

代码

# _*_ coding:utf-8 _*_

# 简单文本分类实现
import time
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

print("start......")
time_start=time.time()

# (1)加载数据 - 利用pandas读取cvs中数据
df_train = pd.read_csv("D:/train.txt")
df_test=pd.read_csv("D:/test.txt")
# [1.1]数据处理 - 根据个人对算据的分析
# 本次实验 - 删除'article','id'列
df_train.drop(columns=['article','id'],inplace=True)
df_test.drop(columns=['article'],inplace=True)

# (2)特征提取
"""
特征是什么：选取一些“重要元素”标识一个文本
特征选取：抽取关键特征值（TF-IDF,LDA..）,原因：特征太多，构成的特征向量计算机非常难处理（内存空间，时间）
一个类别如何标识：文本（多个）+特征（多个）=>[二维向量] --- 标识一个类别 
"""
# TF-IDF 模型
# sklearn 提取文本特征
# [1]TfidfVectorizer
# [2]CountVectorizer 文本特征提取方法 - 文本中的词语转换为词频矩阵
# 词频矩阵 - 矩阵元素a[i][j] 表示j词在第i个文本下的词频

# sklearn - CountVectorizer
vectorizer=CountVectorizer(ngram_range=(1, 2), min_df=3,max_df=0.9, max_features=100000)
vectorizer.fit(df_train['word_seg'])
#训练和测试的词频向量格式保持一致
x_train=vectorizer.transform(df_train['word_seg'])
x_test=vectorizer.transform(df_test['word_seg'])
y_train = df_train['class']-1

# sklearn - TfidfVectorizer
# (3)分类模型 - 逻辑回归模型
#  modal ：LogisticRegression
lg = LogisticRegression(C=4, dual=True,solver='liblinear',multi_class='ovr')
lg.fit(x_train, y_train)

# (4)预测
y_test = lg.predict(x_test)

# (5)结果展示
df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:, ['id', 'class']]
df_result.to_csv('D:/result.csv', index=False)

time_end=time.time()
print("running time={}".format(time_end-time_start))
print("end......")

猜你喜欢

转载自www.cnblogs.com/floakss/p/10741276.html

python - 实现文本分类（准确度不高）

python的文本分类

利用Python sklearn库里的决策树模型生成决策树图片以及测试分类的准确度

Python基于迁移学习的交通信号识别实战【图像多分类任务】【实测准确度超过96.7%】

【NLP】CNN文本分类原理及python代码实现

Python基于迁移学习的猫狗大战实战【图像二分类任务】【实测准确度超过99.5%】

Python文本分类服务 — klassify

机器学习算法的分类准确度

03-分类准确度

北大开源了Python中文分词工具包，准确度远超Jieba

Python bm25短文本分类，相似度识别，BM25算法相似度匹配，疾病相似度匹配gensim实现，bm25算法原理和实现实例

简单的朴素贝叶斯算法实现英文文本分类（Python实现）

使用CNN进行文本分类 - python3实现

机器学习-朴素贝叶斯文本分类Python实现

基于Python的文本分类系统设计与实现课程论文+项目源码

基于卷积神经网络的文本分类的设计与实现（Python）

NLP系列——用Python实现一个简单的文本分类器

基于python的微博情感分析与文本分类系统的设计与实现

python 文本分词+文本相似度分析

Python 机器学习理论基础过拟合和欠拟合成本函数模型准确度

NLP系列（一）pkuseg-python：一个高准确度的中文分词工具包

使用python语言编写常见的文本分类算法

sklearn+python:朴素贝叶斯及文本分类

基于双向 GRU 的文本分类 Python 算法实战

多分类 & 多标签准确度计算

Python文本分析 | 余弦相似度的计算

手把手教你在Python中实现文本分类（附代码、数据集）

[Python人工智能] 三十三.Bert模型 (2)keras-bert库构建Bert模型实现文本分类

python 文本分析

python文本分析

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)