分隔百度百科中的名人信息与非名人信息

导入python包

import pandas as pd
from pandas import Series, DataFrame

导入非名人数据

notCelebrity=[]
for each in 'ABCDEFGHIJKLMNOPQRSTUVWYZ':
    dataCSV = pd.read_csv('baidubaike_noCelebrity/{}_notCelebrity.csv'.format(each), sep='|', header=None)
    notCelebrity.extend(dataCSV[4])

data_1 = {'content':notCelebrity}
dataFrame_1=DataFrame(data_1)
dataFrame_1['values']='1'
dataFrame_1
content values
0 @德国ABAS AG一向致力於促进“企业资源规划系统”(ERP)在中国的发展。 1
1 @电影作品 上映时间剧名扮演角色导演主演担任职务2010列侬在纽约Himself (arch… 1
2 @个人简介:代表国家队为出场0次,进0球,欧洲三大杯为出场0次,进0球,欧洲冠军联赛为出场0… 1
3 @电影作品上映时间剧名扮演角色导演主演担任职务2003扭转  斯戴芬·阿森尼叶维克Admir… 1
739 @电影作品上映时间剧名扮演角色导演主演担任职务2008Hayattan korkma  Be… 1
740 @电影作品 上映时间剧名扮演角色导演主演担任职务2011爱丽丝漫游奇境皇家芭蕾版Mother… 1

741 rows × 2 columns

导入名人数据

Celebrity=[]
dataCSV = pd.read_csv('baidubaike_celebrity.csv', sep='|')
for each in data['Celebrity'].values:
    if each==each:
        Celebrity.append(each)

data_2 = {'content':Celebrity}
dataFrame_2=DataFrame(data_2)
dataFrame_2['values']='0'
dataFrame_2
content values
0 Valerie Cruz,演员,主要作品有《阁楼》等。 0
1 Katerine本,唱作歌手,在九十年代中期已经出道。 0
2 提安娜·安迪逊(Teyona Anderson),1988年出生于新泽西州,美国时尚模特。 0
3 Davis Cleveland于《舞动芝加哥》饰演调皮捣蛋的Flynn《舞动芝加哥》剧情简介… 0
7182 Deddie Davies,英国演员,代表作品有《骄傲》、《Bad Night for th… 0
7183 Treg Brown,剪辑师,主要作品有《疯狂兔宝宝》等。 0

7184 rows × 2 columns

合并名人数据与非名人数据

dataFrame = dataFrame_1.append(dataFrame_2)

进行分词

import jieba
dataFrame['分词']=dataFrame['content'].apply(lambda x:' '.join(jieba.cut(x)))
x=dataFrame['分词']
y=dataFrame['values']

建立分隔训练集和测试集

from sklearn.cross_validation import train_test_split
train_X,test_x,train_y,test_y = train_test_split(x,y,test_size=20)

提取文本特征

from sklearn.feature_extraction.text import TfidfTransformer,CountVectorizer
vectorizer = CountVectorizer()
X_train_termcounts = vectorizer.fit_transform(train_X)

tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_termcounts)

获取词袋中所有文本的关键字

feature_name = vectorizer.get_feature_names()
# print(feature_name)

建立朴素贝叶斯分类器进行训练

from sklearn.naive_bayes import GaussianNB,MultinomialNB
classifier = MultinomialNB().fit(X_train_tfidf, train_y)

模型测试

X_input_termcounts = vectorizer.transform(test_x)
X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)
#模型预测
predicted_categories = classifier.predict(X_input_tfidf)
print(predicted_categories)
print(test_x)
['1' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0' '0'
 '0' '0']
465     @ 电影 作品   上映 时间 剧名 扮演 角色 导演 主演 担任 职务 1987 天上人间...
4745    奥布瑞 · 普拉 扎 ( Aubrey   Plaza ) , 1984 年 6 月 26 ...
7002    Zsa   Zsa   Padilla , 演员 、 制作 人 , 主要 作品 有 《 母爱...
2447    Farentino 自 1982 年 以来 一直 是 一名 女演员 , 当时 她 出现 在 ...
3776    Orestes   Matacena , 演员 , 代表作品 有 《 约书亚 之树 》 、 ...
4985    Conchata   Ferrell , 1943 年 3 月 28 日 出生 , 美国 西...
336     Rock   Hudson , 1925 年出 生于 伊利诺斯州 的 一个 劳工阶层 家庭 ...
217     @ 主要 作品 上映 时间 剧名 扮演 角色 导演 主演 担任 职务 2010 成年 仪式 ...
6031    Richardson , 演员 , 主要 作品 有 1965 年 上映 的 《 大 怪兽 嘉...
211     Michale   Graves , 演员 , 代表作品 有 《 珀金斯 14 亡魂 》 、...
281            Tenniel   Chu , 艺术 指导 , 主要 作品 《 恶作剧 之夜 》 。
4839    日本 的 女性 声优 , 青森县 出身 , 所属 事务所 为 青二 Production 。...
4119    海拉 ( Hela ) , 是 北欧 神话 中 的 死神 , 是 火神 洛基 和 女巨人 安...
568                 罗莫尼 · 罗斯 出 生于 英格兰 , 国际 英格兰 , 足球 运动员 。
5206    花王 集团 创立 于 1887 年 , 是 日本 最大 的 家庭用品 和 化妆品 企业 , ...
2639    Cocoa   Brown , 演员 , 主要 作品 《 抗体 》 、 《 Betty   ...
2237    minato ( 流星 P )   活跃 在 niconico 上 的 Vocaloid  ...
4589    上海 希尔 企业 管理 咨询 有限公司 ( 简称 “ HILL 或 hill 或 上海 希尔...
374     Tyron   Leitso , 演员 , 1976 年 1 月 7 日出 生于 加拿大 ,...
6835    Chaney   Kley , 演员 , 主要 作品 《 通向 瓦尔 哈拉 之 路 》 、 ...
Name: 分词, dtype: object

猜你喜欢

转载自blog.csdn.net/qq_38251616/article/details/81286493