sklearn学习--读取mysql数据源进行训练样本和预测文本分类 - 代码天地

sklearn学习--读取mysql数据源进行训练样本和预测文本分类

编程语言 2018-05-12 12:39:19 阅读次数: 2

# coding=utf-8
import re
import pandas as pd
import string
import MySQLdb
import jieba

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn import metrics
from sklearn.metrics import roc_curve, auc
from sklearn.svm import LinearSVC

#jieba分词 
def jieba_tokenizer(x): return jieba.cut(x,cut_all=True)
def partition(x): return x
def filter_html(s):
    d = re.compile(r'<[^>]+>',re.S)
    return d.sub('',s)

#链接mysql数据库
conn=MySQLdb.connect(host='localhost',user='root',passwd='',db='article',port=3306,charset="utf8")
cursor =conn.cursor()
cursor.execute("SET NAMES utf8")

#训练数据样本
data_ret = pd.DataFrame()
for i in range(0,5):
    sql = "SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id>100 ORDER BY a.id ASC LIMIT "+str(i*1000)+",1000"
    #print sql
    ret = pd.read_sql_query(sql, conn)   
    data_ret = data_ret.append(ret)

Score = data_ret['classid']
data_ret['artcontent'] = [filter_html(msg) for msg in data_ret['artcontent']] 

X_train = data_ret['artcontent']
Y_train = Score.map(partition)

corpus = []
for txt in X_train:
    corpus.append(' '.join(jieba_tokenizer(txt)))
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(corpus)     
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
clf = LinearSVC().fit(X_train_tfidf, Y_train)


#可以把clf持久化

#测试数据 预测分类
test_set = []
test_txt_data = pd.read_sql_query("SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id<50 ORDER BY a.id ASC", conn)
X_test = [filter_html(msg) for msg in test_txt_data['artcontent']] 

for text in X_test:
    text=' '.join(jieba_tokenizer(text))
    test_set.append(text)

        
X_new_counts = count_vect.transform(test_set)
X_test_tfidf = tfidf_transformer.transform(X_new_counts)

result = dict()
result = clf.predict(X_test_tfidf)

for i in range(0, len(result)):
    print "ID:"+str(test_txt_data['id'][i])+" -> classid:"+str(result[i])


cursor.close()
conn.close()

猜你喜欢

转载自strayly.iteye.com/blog/2317526

sklearn学习--读取mysql数据源进行训练样本和预测文本分类

opencv训练样本分类器

第003篇：ArcGIS中基于矢量样本点制作分类训练样本和测试样本的方法。

机器学习使用sklearn进行模型训练、预测和评价

利用sklearn进行豆瓣电影评论的文本分类

sklearn学习--文本分类多分类应用

sklearn 用于文本分类

D.8零样本文本分类应用：基于UTC的医疗意图多分类，打通数据标注-模型训练-模型调优-预测部署全流程。

基于ipc分类号生成样本训练集指导文本分类【一】

豆瓣评分预测（如何用自己的数据集进行文本分类）——基于pytorch的 BERT中文文本分类，超详细教程必会！！！

python深度学习训练样本图像增强

MTCNN创建训练样本

文本分类对抗样本生成

天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(一)数据读取和分析

Bert+对抗训练+对抗性样本防御的文本分类实战

机器学习之文本分类（附带训练集+数据集+所有代码）

20 Newsgroup文本分类-基于sklearn

文本分类（2）-基于传统机器学习方法进行文本分类

K-NN(k近邻算法) 初识K-NN（k-Nearest Neighbor）：K-NN（k-近邻算法）是一种常用的监督学习方法，其工作机制非常的简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k 个“邻居”的信息来进行预测，通常在分类任务中可以使用投票法，即选择这k个样本中出现最多的类别标记作为预测结果。

【机器学习】训练文本分类器（“达观杯”）

Robert+Prompt+对比学习+对抗训练文本分类

K个最近邻的训练样本类别是预测KNN

使用深度学习进行中文文本分类

【NLP】文本分类主题预测综述

传统文本分类和基于深度学习文本分类

吴恩达机器学习之svm根据训练样本数量和样本特征数量关系选择核函数

使用gensim和sklearn搭建一个文本分类器（二）：代码和注释

图像识别训练样本集

制作theano可用的训练样本

从LabelImg建立TFRecord格式的训练样本

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)