导入python包
import pandas as pd
from pandas import Series, DataFrame
导入非名人数据
notCelebrity=[]
for each in 'ABCDEFGHIJKLMNOPQRSTUVWYZ':
dataCSV = pd.read_csv('baidubaike_noCelebrity/{}_notCelebrity.csv'.format(each), sep='|', header=None)
notCelebrity.extend(dataCSV[4])
data_1 = {'content':notCelebrity}
dataFrame_1=DataFrame(data_1)
dataFrame_1['values']='1'
dataFrame_1
content | values | |
---|---|---|
0 | @德国ABAS AG一向致力於促进“企业资源规划系统”(ERP)在中国的发展。 | 1 |
1 | @电影作品 上映时间剧名扮演角色导演主演担任职务2010列侬在纽约Himself (arch… | 1 |
2 | @个人简介:代表国家队为出场0次,进0球,欧洲三大杯为出场0次,进0球,欧洲冠军联赛为出场0… | 1 |
3 | @电影作品上映时间剧名扮演角色导演主演担任职务2003扭转 斯戴芬·阿森尼叶维克Admir… | 1 |
… | … | … |
739 | @电影作品上映时间剧名扮演角色导演主演担任职务2008Hayattan korkma Be… | 1 |
740 | @电影作品 上映时间剧名扮演角色导演主演担任职务2011爱丽丝漫游奇境皇家芭蕾版Mother… | 1 |
741 rows × 2 columns
导入名人数据
Celebrity=[]
dataCSV = pd.read_csv('baidubaike_celebrity.csv', sep='|')
for each in data['Celebrity'].values:
if each==each:
Celebrity.append(each)
data_2 = {'content':Celebrity}
dataFrame_2=DataFrame(data_2)
dataFrame_2['values']='0'
dataFrame_2
content | values | |
---|---|---|
0 | Valerie Cruz,演员,主要作品有《阁楼》等。 | 0 |
1 | Katerine本,唱作歌手,在九十年代中期已经出道。 | 0 |
2 | 提安娜·安迪逊(Teyona Anderson),1988年出生于新泽西州,美国时尚模特。 | 0 |
3 | Davis Cleveland于《舞动芝加哥》饰演调皮捣蛋的Flynn《舞动芝加哥》剧情简介… | 0 |
… | … | … |
7182 | Deddie Davies,英国演员,代表作品有《骄傲》、《Bad Night for th… | 0 |
7183 | Treg Brown,剪辑师,主要作品有《疯狂兔宝宝》等。 | 0 |
7184 rows × 2 columns
合并名人数据与非名人数据
dataFrame = dataFrame_1.append(dataFrame_2)
进行分词
import jieba
dataFrame['分词']=dataFrame['content'].apply(lambda x:' '.join(jieba.cut(x)))
x=dataFrame['分词']
y=dataFrame['values']
建立分隔训练集和测试集
from sklearn.cross_validation import train_test_split
train_X,test_x,train_y,test_y = train_test_split(x,y,test_size=20)
提取文本特征
from sklearn.feature_extraction.text import TfidfTransformer,CountVectorizer
vectorizer = CountVectorizer()
X_train_termcounts = vectorizer.fit_transform(train_X)
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_termcounts)
获取词袋中所有文本的关键字
feature_name = vectorizer.get_feature_names()
# print(feature_name)
建立朴素贝叶斯分类器进行训练
from sklearn.naive_bayes import GaussianNB,MultinomialNB
classifier = MultinomialNB().fit(X_train_tfidf, train_y)
模型测试
X_input_termcounts = vectorizer.transform(test_x)
X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)
#模型预测
predicted_categories = classifier.predict(X_input_tfidf)
print(predicted_categories)
print(test_x)
['1' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0'
'0' '0']
465 @ 电影 作品 上映 时间 剧名 扮演 角色 导演 主演 担任 职务 1987 天上人间...
4745 奥布瑞 · 普拉 扎 ( Aubrey Plaza ) , 1984 年 6 月 26 ...
7002 Zsa Zsa Padilla , 演员 、 制作 人 , 主要 作品 有 《 母爱...
2447 Farentino 自 1982 年 以来 一直 是 一名 女演员 , 当时 她 出现 在 ...
3776 Orestes Matacena , 演员 , 代表作品 有 《 约书亚 之树 》 、 ...
4985 Conchata Ferrell , 1943 年 3 月 28 日 出生 , 美国 西...
336 Rock Hudson , 1925 年出 生于 伊利诺斯州 的 一个 劳工阶层 家庭 ...
217 @ 主要 作品 上映 时间 剧名 扮演 角色 导演 主演 担任 职务 2010 成年 仪式 ...
6031 Richardson , 演员 , 主要 作品 有 1965 年 上映 的 《 大 怪兽 嘉...
211 Michale Graves , 演员 , 代表作品 有 《 珀金斯 14 亡魂 》 、...
281 Tenniel Chu , 艺术 指导 , 主要 作品 《 恶作剧 之夜 》 。
4839 日本 的 女性 声优 , 青森县 出身 , 所属 事务所 为 青二 Production 。...
4119 海拉 ( Hela ) , 是 北欧 神话 中 的 死神 , 是 火神 洛基 和 女巨人 安...
568 罗莫尼 · 罗斯 出 生于 英格兰 , 国际 英格兰 , 足球 运动员 。
5206 花王 集团 创立 于 1887 年 , 是 日本 最大 的 家庭用品 和 化妆品 企业 , ...
2639 Cocoa Brown , 演员 , 主要 作品 《 抗体 》 、 《 Betty ...
2237 minato ( 流星 P ) 活跃 在 niconico 上 的 Vocaloid ...
4589 上海 希尔 企业 管理 咨询 有限公司 ( 简称 “ HILL 或 hill 或 上海 希尔...
374 Tyron Leitso , 演员 , 1976 年 1 月 7 日出 生于 加拿大 ,...
6835 Chaney Kley , 演员 , 主要 作品 《 通向 瓦尔 哈拉 之 路 》 、 ...
Name: 分词, dtype: object