2018 全球人工智能与机器人峰会（CCF-GAIR）－－探讨自然语言处理的商业落地

本文对参加圆桌会议嘉宾的观点进行了整理。

云孚科技--专注于为企业提供自然语言处理技术解决方案。

创始人兼 CEO 张文斌：商业化的本质首先一定要盈利，其次要做到规模化盈利。

人工智能这一块的创业公司要盈利，大方向有两个，做 toC 直接面对消费者，和做 toB 面对企业。云孚科技选择了 toB，周期相对可控，比较容易把营收做起来。

规模化盈利又有两个方向，创业公司选择最多的是深入行业做垂直行业的应用，这样可以规模化做特定行业用户，而且可以做大订单，也是投资人比较认可的方向。我们还看到另外一个方向，就是做基础技术平台，因为它足够基础，可以面向多个行业的客户提供产品，订单相对比较小，但客户数更广。

竹间智能 --主要是做情感计算，不只做文本情感，还做语音情绪和表情。目前主要在金融、电商、IOT 领域、运营商等领域落地。

CTO 翁嘉颀：目前人工智能必须从单个到单独的领域去突破，去那个领域先收集语料，以及到底要解决什么问题，针对这一类问题我能解决哪些？

神州泰岳大数据 VP 张瑞飞：讲到商业落地，我们要解决几个矛盾，第一个矛盾是人工智能现在处于初级阶段，尤其在认知科学领域。在初级阶段要落地，就意味着你要管客户收钱。第二个矛盾是我们要解决成本和实际达成成效之间的平衡，理论上讲，只要你投入足够多的成本，人工智能的效果就会更好一些，但是它又有最佳值，我们要找到最佳值在哪儿。第三是我们要解决在算法工程和基础算法之间的选择，我们在算法工程中要解决的问题和我们在基础算法中进行的优化研究结合起来。

准是你能使用的非常高的影响力，它也是能要到钱的基础

薄言 RSVP.ai --公司的初衷就是希望让机器了解语言，自动帮人做一些关于语言的事情。

落地的技术难点和应用难点

NLP 技术目前处于相对不太成熟的阶段，也是因为它的任务非常多且复杂。分词相对比较成熟，测试语料上准确率可以做到 97% 以上，就算分词这么成熟的技术，落到特定行业，面对一些新词，效果还是不足够理想，还需要花很多精力去做针对特定领域去做优化。

目前 NLP 在短文本、短句 15 个字以内，意图理解、意思理解可能没有什么问题，长文本目前还不太行。

自然语言处理属于认知智能范畴，所以自然语言处理的终极目标是理解人类的思维和想法，在这个过程中，我们需要拿捏尺度，这个尺度即把机器智能和人类智慧融合在一起，而不是用机器智能取代人类智慧。

目前自然语言处理的问题是如果我把算法做得特别深，往往有普适性的问题，如果做平台，往往做深入就会有困难，这是第一点。第二点，拿语义相似度短文本来讲，一些领域它们的训练语量没有那么多，但又有各自领域自己的知识和特点，这个时候通用的数据集怎么达到更好的效果？第三点是在商业化中，自然语言处理跟 CV 领域还有一个差别，大家很多时候是用大量的 LSTM、Model 等，哪怕 Attention 才是你真正需要的东西，但实际上它还是时序模型，如果我把它放到线上系统，时延是有问题的，而且成本非常高，所以自然语言处理商业化也要考虑成本问题。

需要重点解决的问题

短文本语义相似度

实际上在语义上Q&A两句话不是完全相等的。此外，我们在方法上还有一个维度的区别，现在很多服务是基于搜索的技术，现在业内也有一些新的评价方式，即在平行文本做评价，两种评价都达到很好的效果，但是如果做交叉，总会有损失，这个问题对我们来讲是比较棘手的问题。

要解决标注好的数据，用户使用过程中反馈的数据。

如何做好对话控制，如何限制用户讲话方式，这真的是一个技巧，因为用户乱讲一通，你是没有办法理解的。

怎么样在没有标注语料或很少的标注语料的情况下就能把他们想要的结构化信息抽取出来，抽取完再构建这个行业的知识图谱。我们也积累了一些经验，一般可以先用已有的通用系统结合基于规则的方法先做一版系统出来，这样可以先跑一个初步结果，从中挑一部分比较严重的 badcase 出来，人工标注语料，再重新训练模型，如此反复迭代。最终可以花比较小的人力标注成本把系统迁移到其他领域。当然，刚才说的这个过程还比较理想，怎么样用尽可能少的标注语料，可以快速迁移领域？这是我们实际工作中碰到的一个非常实际的问题。

学术界的前沿研究对于企业的产业化落地能得到哪些借鉴和思考？

没有一个单一的算法能够解决好问题，可能要看四、五十篇 Paper，从里面融合出一个方法，所以每一个算法，每一个 Paper 都有它可取的地方，比如其中四个算法告诉我他要退货，一个算法告诉我他要换货，我会用投票的方式，比较有机会真正落地解决问题，因为算法有弱点，用多个算法去做，能互相弥补缺陷。

不能评价哪个算法好与坏，因为算法要看适用场地，适用你的应用场景的方法就是最好的方法。

学术界的诉求跟工业界还是不一样，学术界追求理论上、模型上的创新，如果有重复了就需要构思下一个新的模型。而创业公司是把他们探索出来的模型拿过来试，我们的核心是效果导向。其次，真正用这些算法做预测时，我们还得考虑它的性能，在正式场合，包括它需要的硬件条件是否符合业务需求，这也是我们落地时要考虑的因素，有的算法虽然非常高大上，可能高出 0.1 或 0.2 个点，但它的速度慢了很多，对硬件要求特别高，我们就会有所取舍，采用更加实用的算法。

论文中的数据集往往跟我们面临的问题是不一样的，所以非常重要的是公司内部要有自己的测试集和标准，对于新的方法能够快速适应和尝试。

参考链接：https://www.leiphone.com/news/201807/JHAwVgSYvCfKZQLm.html