处理搜狐新闻语料

其他 2018-08-17 13:04:27 阅读次数: 0

数据集来源：http://www.sogou.com/labs/resource/cs.php

目的：得到title集合文本，content集合文本

代码：

#python2
import chardet
with open("news_sohusite_xml.dat",'r') as h:
    x=h.readlines()
# print(x[3])

topics=x[3::6]
print(len(topics))
contents=x[4::6]

type = chardet.detect(x[3])
print(type)

# a = topics[0].decode(type["encoding"])

for i in topics:
    with open("sohusite_topics.txt","a") as f_out:
        f_out.write(i[14:-16].decode("gb18030").encode("utf-8")+'\n')
#         f_out.write(i[14:-16].decode(type["encoding"]).encode("utf-8")+'\n')
        
for i in contents:
    with open("sohusite_contents.txt","a") as f_outt:
        f_outt.write(i[9:-11].decode("gb18030").encode("utf-8")+'\n')

解码编码上花了点时间：原本用chardet.detect可以得到文本编码是gb2312，但是decode的时候会报错：

UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence

解决办法：

猜你喜欢

转载自www.cnblogs.com/helloworld0604/p/9492682.html

处理搜狐新闻语料

中文预处理流程（以搜狐语料全网新闻数据为例）

搜狐新闻下载|搜狐新闻app下载

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块

python爬虫搜狐新闻

10.新闻语料分类

python爬取搜狐网的新闻

基于TfidfVectorizer的搜狐新闻文本分类

Jsoup+HttpUnit爬取搜狐新闻

zhwiki语料预处理

搜狗新闻语料库解析

自然语言处理语料

第十五季搜狐新闻马拉松举办张朝阳：跑步体现搜狐长期主义

搜狐基于Spark的新闻和广告推荐实战

搜狐新闻资讯版怎么赚钱是真的吗

搜狐实验室新闻点击量项目

Python与爬虫入门实践——简易搜狐新闻爬虫01

Python与爬虫入门实践——简易搜狐新闻爬虫02

基于word2vec的搜狐新闻文本分类

献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二(转载)

献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一(转载)

三大金融文本语料(工商,新闻,资讯) - NLP语料

文本离散表示（二）：新闻语料的one-hot编码

手机新闻客户端：腾讯、网易、头条、搜狐新闻竞品分析

构建语言模型（一）：文本语料处理

自然语言处理语料库

NLP学习（五）-中文语料处理

利用jieba,word2vec,LR进行搜狐新闻文本分类基于jieba,TfidfVectorizer,LogisticRegression进行搜狐新闻文本分类

基于jieba,TfidfVectorizer,LogisticRegression进行搜狐新闻文本分类利用jieba,word2vec,LR进行搜狐新闻文本分类

设计之下——搜狐新闻客户端的用户体验设计（全彩）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)