漫画主动学习:人工智能居然被PUA了?

f9456ad4ea52ae104f219fdbc04cb536.png

图文原创:谭婧

人工智能的江湖,有句笑(定)话(理):“想有多少智能,就得有多少人工。”

这里的“人工”不是高级工程师,而是纯手工,是数据标注所耗费的人力。

别看不上数据,算法也是在解释数据。

别看不上数据标注,你得把答案教给人工智能,它才能做题。

教猫,把猫框起来,写上“猫”。

换到自动驾驶汽车场景,以此类推。

af17964dfd22f06547292d36881db7e2.png

工作不难,可是架不住量大。

人工智能是人类的学生,而且,这种教学已经花费了数万小时。

专业说法是,有监督的机器学习需要有标注的数据集。

原来,学习诚可贵,答案价更高。

094f8748e2b42c6cdc8ef91f37c37c5f.png

一种,

让人工智能自己给自己用的数据做标注,“智能标注”。

另一种,边学边标,提升模型性能。

恭喜你理解了主动学习(Active Learning)。

本次科普结束。

(完)


科普结束了,但是实践不行。

大数据爆发,数据标不完,标不起,相当于,学不完,学费贵。

于是,主动学习登场了。

主动学习是机器学习的一个分支。

话说,人工智能要学习的知识点都在数据里。主动学习就好比那种江湖人称“考试型选手”。

为了考高分,普通人把所有的知识点都学一遍,而学霸是找到考试重点内容,使巧劲。

以前,全靠人类把数据标好了,扔进给模型。

现在,由算法给人类派活,它自己有标准(策略),知道怎么挑。

把高价值样本“挑”出来,虽不认识,但值得认识。

一边,算法在从人类标注的高价值图片(样本)中学习。

另一边,扩充已标注样本集。

人类亲自给标注的数据,相当于单独辅导,那成绩自然上升。

到这里,智能标注的活就干完了,目标就是让算法给数据打上标签。

智能标注的口号就是:边学边标。

723225d7df18438ac6de14e6785f671c.jpeg

专业的说法是,人机融合,迭代演化,“Human-in-the-Loop”。

没错这是一个单词。这里翻译出来是:你们人类也别闲着,欢迎干点活,在链路里。

别记这个单词,太长了。

来看看电商场景,每天新增商品图片20万。(对,是单日新增。)

全量标注得花不少钱,那些高价值图片得被分出来,由人类亲自来标注。

ceaeff6b0a0e1c4e571200d68dbb4472.jpeg

举个例子,纯手工时代,全部标注,时间和金钱成本都挺高。

毛衣毛帽这类保暖用品的图片各1000张,一共2000张。

好消息是人类教会人工智能认识了毛衣,毛帽。

结果,第二天,又新来了10000张图片,全部都是毛手套。

因为之前没教过,不认识毛手套,直接傻眼了。

8a58458c86f532c405f2c4397b73e57c.png

主动学习一顿操作猛如虎,从新来的一万张图片里面挑出一些,比如,500张,转交给人类。

人类一看这不是毛手套嘛,把正确答案写上,一口气写了500张。

有主动学习的好处是,只用标500张,人工智能就学会了。

没有主动学习,所有图片都得写上答案。

毛手套,就是困难样本,也就是人工智能做不出的题。

于是,要么胡写答案。要么拿不准。

胡写答案时候,指着毛手套说:“这是毛裤。”

拿不准的时候,说:“我看50%概率是毛衣,50%是毛裤。”

be6c7f9de1c2513309533cc8e0a63caf.png

看把人工智能给难的,险些变成人工智障。

赶紧让人类给困难样本写上答案。

下一步呢?

回流,而且是必须要回流,回流到机器学习训练系统中。

这是一个多次循序迭代的过程,直到模型性能指标达到目标性能为止。

智能标注是中级玩家,主动学习融入机器学习链路是高级玩家。

ea9c8b34744aafeb2931dd2f65d355fa.png

主动学习的“变身”一个迭代工作流。

人生是一个过程,主动学习也是一个过程。

专业一点的问法就是,主动学习能不能和模型训练打通?

必须打通。但是打通之后的目标就变了,变为提高模型效果。

ffe69ff0dedb2c90cc25a6001f667240.png

(观察数据流,可点击看大图)

本质是,人类写下困难样本的答案,答案可以用于教学(训练),学习了之后,人工智能就更聪明了。

技术亮点之一是如何从几万张图片找出几百张高价值的,只有这些是值得给人类去做手工标注。

追求的结果是把训练样本量降下来,还要提高机器学习模型的准确性,达到全量训练的预期性能指标。

火了这几年,人工智能终于感觉到自己被PUA了:

又想奶牛少吃草,还要奶牛多产奶。

主动学习用在计算机视觉中,还会用在文本理解、音视频等多种模态中。

坦白说,标注数据是一种劳动密集型工作,大公司通常都是外包出去。

成本按业务分,按部门分都可以,谁的标注,谁来出钱。

7df5e182281fa3625592cebfee845c32.png

反正互联网大厂一年花几个亿也正常。

常见物品的图片,标注一个花几分钱。

然而,标出肺结节这种,得加钱,可能几十元到一百块人民币。

更糟糕的还是涉密数据,给外包标注根本不可能。

通常来说,人们花在训练过程中的注意力多,花在数据上的太少。

市场上,少有创业公司推出技术含量高的工具,以便查看和了解人工智能所用的数据的情况。

有的云厂商还处在主动学习的预研阶段。

AWS用上了主动学习技术的产品叫Amazon SageMaker Ground Truth Plus,AWS自称其为“端到端数据标注管理”。

de611e216be8c9c038efe29ea9ed7618.png

对标美国,国内极少有技术含量的标注公司,大多是纯人力外包标注公司,看上去技术驱动的数据标注赛道还是一片蓝海。

(但这和我没有什么关系,我不搞一级市场投资,快乐都是你们的。)

主动学习已经用在很多方面了,没办法很多领域的数量非常大,亟待减轻标注工作量。

科学领域包括,天文,生物,化学;

工业领域包括,自动驾驶,药物发现,人脸识别,黑产风控,电力系统检测。

还有一个应用之处好玩极了,研究北极冰。

8372149b28ef797e409d3552a4f5541f.png

另外,推荐一本好书,《Human-in-the-Loop Machine Learning Active learning and annotation for human-centered AI》这本书的作者在苹果公司任职,可惜没有中文。

(此书封面请自行在推文内寻找。)

他的核心观点之一是,人工智能是人类的学生。

教好学好,教坏学坏。

教得好,科技向善,教得坏,毁灭世界。

所以,你说人和人工智能,磕不磕CP呢?

ceec2fff6b2048d257689d7a313e89aa.png

更多阅读

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

漫画系列

1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛逼症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML科普:攒钱买个“调参侠机器人”划算吗?

10. AutoML科普:你爱吃的火锅底料,是机器人自动进货丨漫画

11. 强化学习科普:人工智能下象棋,走一步,能看几步?

12. 漫画时序数据库:好险,差一点没挤进工业制造的高端局

DPU芯片系列:

1. 造DPU芯片,如梦幻泡影?丨虚构短篇小说

2. 永远不要投资DPU?

3. DPU加持下的阿里云如何做加密计算?

4. 哎呦CPU,您可别累着,兄弟CIPU在云上帮把手

长文系列:

1. 我怀疑京东神秘部门Y,悟出智能供应链真相了

2. 超级计算机与人工智能:大国超算,无人领航

3. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?

83f42bff0879899330998c5e3312e049.jpeg

最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

个人微信:18611208992

原创不易,多谢转发

还想看我的文章,就关注“亲爱的数据”。  

猜你喜欢

转载自blog.csdn.net/weixin_39640818/article/details/127543771
今日推荐