基于百度AI的自然语言处理文字分类 - 代码天地

基于百度AI的自然语言处理文字分类

其他 2018-12-18 18:01:24 阅读次数: 0

前言：

需要在百度AI平台注册登录并创建项目。

爬虫代码

 1 import scrapy
 2 from BaiDuAi.items import  BaiduaiItem
 3 
 4 class AiSpider(scrapy.Spider):
 5     name = 'ai'
 6     # allowed_domains = ['www.xxx.com']
 7     #人民网url
 8     start_urls = ['http://politics.people.com.cn/n1/2018/1217/c1001-30470023.html']
 9 
10     def parse(self, response):
11         title=response.xpath('/html/body/div[4]/h1/text()').extract_first()
12         content=response.xpath('//*[@id="rwb_zw"]//text()').extract()
13         content=''.join(content).strip('\n \t')
14         item=BaiduaiItem()
15         item['title']=title
16         item['content']=content
17 
18         yield  item

爬虫代码

管道代码

 1 from aip import AipNlp
 2 
 3 """ 你的 APPID AK SK """
 4 APP_ID = '15198150'
 5 API_KEY = 'jaObSr6rmSmqsjWfKGGpmwxB'
 6 SECRET_KEY = '808Eiz4FPkfMwS2ajClXYhKrcFMN1YUN'
 7 
 8 client = AipNlp(APP_ID, API_KEY, SECRET_KEY)
 9 
10 class BaiduaiPipeline(object):
11     keys=[]
12     def process_item(self, item, spider):
13         title=item['title'].replace('\xa0','')
14         content=item['content'].replace('\xa0','')
15         keys_dict=client.keyword(title,content)
16         for dic in keys_dict['items']:
17             self.keys.append(dic['tag'])
18 
19 
20         keys="/".join(self.keys)
21         typec_dic=client.topic(title,content)
22         news_type=typec_dic['item']['lv1_tag_list'][0]['tag']
23 
24         with open('./xinwen.html','w',encoding='utf-8')as fp:
25             fp.write(title+'\n\n'+content+'\n\n'+keys+'\n\n'+news_type)
26         return item

管道

猜你喜欢

转载自www.cnblogs.com/duanhaoxin/p/10138702.html

基于百度AI的自然语言处理文字分类

百度自然语言处理

【NLP】百度AI平台自然语言处理API调用（情感分析案例）

百度云自然语言处理(Nlp)

Unity使用百度AI，进行自然语言处理过程中遇到的编码格式问题

调用百度AI开放平台的接口实现自然语言情感分析

使用Python调用百度自然语言处理API

《统计自然语言处理》高清PDF 百度网盘下载分享

2020百度暑期实习面试（机器学习、数据挖掘、自然语言处理岗位）

【自然语言处理（NLP）】基于LSTM实现文字检测

【自然语言处理（NLP）】基于GRU实现情感分类

java调用百度自然语言处理API参考（仿某宝评论观点抽取）

python调用百度智能云API请求（以自然语言处理——词法分析为例）

百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历

基于百度AI的文字识别-Python

python基于百度AI开发文字识别

【自然语言之分类处理】

自然语言处理-文本分类

自然语言处理-NLP应用分类

自然语言处理——文本分类

Github for Ai ==自然语言处理

AI与Python - 自然语言处理

AI在自然语言处理的主要步骤

NLP-百度自然语言python包安装

自然语言 pdf 电子书大全百度云

调用百度自然语言接口实现文本分析

【2022春实习】百度笔试记录（机器学习/数据挖掘/自然语言）

自然语言最强总结！百度NLP前沿探讨：从BERT到ERNIE有多远

用Python编程实现百度自然语言处理接口的对接，助力你开发智能化处理程序

自然语言处理 —— 困惑度

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

keepalived实现LB配置

数据库相关中间件收录集

Spring Boot 入门之 Web 篇（二） Spring Boot 入门之 Web 篇（二）

gitee 搭建个人网站

Java校招基础知识总结（横扫BAT,就业经验交流会演讲稿）

工程管理器

Delphi定位TDataSet数据集最后一条记录

cocos2dx笔记1:概述

Java实现 LeetCode 110 平衡二叉树

MacBook IDEA激活码

每日归档

更多

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)