只有100个标记数据，如何精确分类400万用户评论？ - 代码天地

只有100个标记数据，如何精确分类400万用户评论？

编程语言 2018-12-08 01:33:48 阅读次数: 0

在本文中，我们将介绍自然语言处理（NLP）在迁移学习上的最新应用趋势，并尝试执行一个分类任务：使用一个数据集，其内容是亚马逊网站上的购物评价，已按正面或负面评价分类。然后在你可以按照这里的说明，用你自己的数据重新进行实验。

383f2c0bc478c830fe8e9fbe9abdc5bc88b5bd18

迁移学习模型的思路是这样的：既然中间层可以用来学习图像的一般知识，我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型（模型已针对ImageNet任务训练了数周时间），删除网络的最后一层（完全连接层），添加我们选择的分类器，执行适合我们的任务（如果任务是对猫和狗进行分类，就选择二元分类器），最后仅对我们的分类层进行训练。

由于我们使用的数据可能与之前训练过的模型数据不同，我们也可以对上面的步骤进行微调，以在相当短的时间内对所有的层进行训练。

除了能够更快地进行训练之外，迁移学习也是特别有趣的，仅在最后一层进行训练，让我们可以仅仅使用较少的标记数据，而对整个模型进行端对端训练则需要庞大的数据集。标记数据的成本很高，在无需大型数据集的情况下建立高质量的模型是很可取的方法。

迁移学习NLP的尴尬

目前，深度学习在自然语言处理上的应用并没有计算机视觉领域那么成熟。在计算机视觉领域中，我们可以想象机器能够学习识别边缘、圆形、正方形等，然后利用这些知识去做其他事情，但这个过程对于文本数据而言并不简单。

猜你喜欢

转载自blog.csdn.net/weixin_40581617/article/details/84875223

干货 | 只有100个标记数据，如何精确分类400万用户评论？

只有100个标记数据，如何精确分类400万用户评论

只有100个标记数据，如何精确分类400万用户评论？

线性排序3：如何根据年龄给100万用户数据排序？

【10】线性排序：如何根据年龄给100万用户数据排序？

如何通过 Dataphin 构建数据中台新增100万用户？

让用户上瘾的营销利器，如何轻松撬动100万用户

MySQL数据库，每天100万以上的增量，该如何优化？（只有链接）

如何对100万个星系进行分类？

20万用户同时访问一个热点Key，如何优化缓存架构？

ImageTag 修改标记数据

最有效的赚钱方法，只有100元如何赚到10万？

独立开发变现周刊（第100期）：如何将视频编辑工具发展到10万用户和2万美元月收入？...

经验全公开！一个微信小号，如何靠30篇内容，从0做到8万用户？

如何测试一个门户网站是否可以支持10万用户同时在线？

如果20万用户同时访问一个热点缓存，如何优化你的缓存架构？

【渗透实战】0day?!我是如何利用企业漏洞拿到60万用户数据的

Slack每天有800万用户，300万付费用户

Tsung笔记之100万用户压测执行步骤篇

上线 5 天获得 100 万用户，可为什么我开发的 App 最终却倒闭了？

php结合Redis实现100万用户投票项目，并实时查看到投票情况的案例

祸及400万用户！Zoom爆出严重漏洞：任何网站可劫持Mac摄像头

NodeJS （又一个）豆瓣标记数据备份插件（爬虫）

CROSS正式上线1个月已在全球拥有23万用户——附CROSS平台发展规划

6个月20万用户，我是如何在一片唱衰声中打造出爆款应用的？

如果20万用户同时访问一个热点缓存，如何优化你的缓存架构？【石杉的架构笔记】

220亿次访问，5000万用户，腾讯健康码的诞生有着怎样的故事？

220亿次访问，5000万用户，腾讯健康码的诞生有着怎样的故事？

一个新Bug泄露Google+5250万用户信息

Docker Hub数据库遭黑客入侵，19万用户敏感数据泄露

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)