第七届中国数据挖掘会议纪要

本文链接： https://blog.csdn.net/john_bian/article/details/83152379

这次会议是一个数据挖掘领域的会议，因而有些东西可能与我们进行可视化相关研究并不具有那么直接的联系。不过我们的可视化研究在某种程度上来说是为数据挖掘服务的，因而增加一些对数据挖掘其他方面的了解还是很有意义的。

产业界高峰论坛

五号下午几位来自产业界的老师分别进行了报告。七位讲者分别来自滴滴、IBM、京东、腾讯、阿里、爱奇艺和智铀科技。主要讲的是他们公司目前做的一些项目。大都是些机器学习之类的技术，这次还听到了一个新的名词——迁移学习，这个应该是早就有了，只是我以前没有知道过。

滴滴的叶杰平老师讲到了如何猜测规划路线，如何推荐司机接人地点，以及对路线进行规划等。介绍了滴滴的智能算法系统的发展历史，也提到了他们的AI客服系统和车内的语音交互系统，在这其中提到使用了迁移学习的方法。

来自IBM的苏中老师介绍了几种机器学习方法：Transfer Learning，Multi-Task Learning，Adversarial Learning和Active Learning。指出现在机器学习的几个主要的挑战：small data，need multimodal，many varied tasks以及explainability。苏老师的报告对机器学习的一些东西介绍占的比重比较大。

来自京东的张钧波博士报告的主题是城市计算，使用大数据和AI打造智慧城市，感觉这个主题与陈老师之前的项目有点联系。他的工作主要是致力于解决交通、规划、环境、能耗、公共安全、商业、医疗等城市管理的痛点，主要采用的模式是云计算+大数据+AI+城市场景。京东的城市计算平台是利用大数据和人工智能从数据中获取知识，利用知识解决行业问题，以帮助新型智慧城市建设；以解决城市痛点为出发点，可基于任意云搭建服务，提供开放式的生态平台；采用点、线、面相结合的顶层设计和多领域垂直应用结合的方式。张博士的报告中用到了北京区域人群流量、空气质量预测等几个例子。其中有个水资源的例子感觉可以与我们的VAST竞赛相结合一下。

腾讯的史树明老师主要讲的是自然语言处理的研究。他提到目前的聊天机器人还处在“人工智障”的阶段。目前语音识别和机器翻译的水平属于还可以的水平，而对话机器人、语义理解和文本生成这三个方面目前处于比较差的水平，这应该是接下来这方面的研究者需要努力提高的主要方面。自然语言理解的研究重点是语义挖掘、语义分析和面向对话的文本理解。而腾讯目前与NLP相关的主要业务有信息流（天天快报、腾讯新闻、QQ看点……）、搜索、广告匹配、自动客服、只能设备等。

爱奇艺的周寻老师主要讲的是爱奇艺大数据平台、数据挖掘应用和产品与服务者三个方面。印象比较深的是他在讲爱奇艺的用户识别的时候。像是爱奇艺这种视频应用用户注册和登录的比例是不高的，而他们又需要向用户进行定向推送。并且存在多个人使用同一账号，或同一个人使用多个不同设备的问题。所以这个用户的自然人识别就比较复杂了。

最后一个报告的是智铀科技的夏粉老师。他提出了一种思路，就是将传统的机器学习建模过程变成一种自动的建模过程，不需要人工地去进行选择算法、调参等。如果能够实现的很好了，那应该是革命性的进展了。

总的来说，第一天的产业界高峰论坛部分，主要就是来自企业的几位老师结合自己公司的项目来进行的介绍。能够大致地了解到目前几个具有代表性的企业正在用什么东西、研究什么东西，参加这个论坛的目的也就基本达到了。

数据挖掘前沿讲习班

六号的内容是三个讲习班，用于介绍几个方面的基本内容。包括自然语言处理、视觉数据分析和深度学习三个部分。

讲解自然语言处理的是中科院自动化所的宗成庆老师，主要讲了自然语言处理的基本概念、模型、方法等，也给出了一些例子。讲得比较清楚，以前在信息检索课程上也接触过一点自然语言处理的东西，所以还算能听懂。

讲解视觉数据分析、理解与挖掘的是来自京东AI研究院的梅涛博士。他的讲座内容主要包括三个方面：输入一幅图片，系统输出一段描述性的文字来表达图片中的内容；输入一段视频，系统输出一段描述性的文字来表达视频中的情景；输入一段描述性文字，系统自动生成符合描述的图片或视频。感觉这个研究比较有意思，下面这PPT中的两幅图片就是系统根据文字描述生成的。但是由于对一些深度学习的概念不太懂，所以具体的算法不太明白。

晚上的报告是转讲深度学习，报告的老师是来自清华大学的张长水老师。张老师从最基本的神经网络开始讲起，然后讲到了深度神经网络、卷积神经网络、循环神经网络以及具有一定遗忘功能的LSTM网络等。最后介绍了神经网络的发展历程、所经历过的几次寒冬。张老师讲座中的几种神经网络算法在那本著名的深度学习“花书”中都有介绍，只不过之前我并没有看完，这次听了张老师的报告算是有了一个大致的了解。通过这次报告我感觉到深度学习虽然在当下十分火爆，但是还有好多很重要的东西没有得到解决。当然，套用我们以前中学课本上的话来讲，这对于我们来讲既是机遇也是挑战。机遇在于，现在不完善，或许我们在将来的工作可以将其变得更加完善。而挑战在于，深度学习这条路究竟有没有问题，毕竟这里面的好多东西现在来讲都是无法得到合理解释的。因此个人感觉没有必要去狂热地去追求之，也不适合关起门来不去看。

下面是参加这次讲习班的结业证书照片。

学术论坛

七号的内容是几个组的学术论坛，不同的组在不同的地点并行进行。上午去听了智能体与多智能体系统的论坛。有四个讲者做了特邀报告。

中科大的陈小平老师的报告的题目是人工智能的三重空间：知识、数据与现实。听名字就知道主要讲的是一些人工智能的东西。他提到智能的三重空间如下所示。

陈老师提到脆弱性是人工智能的试金石。比如对一个判断麻疹的医疗人工智能系统输入一个生锈的铁的信息，结果系统输出得了麻疹，这就是系统脆弱的表现。基于此，他介绍了人工智能发展中的三种思维方式。

（1）、基于解析模型的暴力法：针对知识层，依赖精确性，存在脆弱性；

（2）、基于数据拟合的训练法：面向从数据到知识，依赖采样一致性假设，存在脆弱性；

（3）、基于容差性的灵巧性技术：面向显示层和不确定性问题。

后面陈老师还介绍了AlphaGO Zero的算法架构。

第二个进行报告的是上海财经大学的陆品燕教授，他的报告题目是最优拍卖机制设计：简单性与鲁棒性。他的报告比较偏经济一点。比如提到了一个在拍卖中按照最高报价确定买者，按照第二高价作为实际成交价，这样对买卖双方都比较合理之类的理论。

第三个报告的是来自上海交大的吴帆教授，讲的是关于卖数据的东西。主要讲的是数据作为商品的一些特殊的性质，以及数据作为商品进行出售所面临的的一些挑战。当然这个报告中并没有涉及到太多具体的算法的东西，但是在当下数据爆炸的时代，数据作为商品进行买卖也会成为一个比较常见的现象，我们也需要对此有一定的认识。

第四个报告讲的是面向视觉感知的大规模深度Q网络方法。只记得里面提到过一个智能搜集易拉罐的扫地机器人的例子。

下午去聚类分析组想去听一下他们的论坛，结果到了之后发现会场布置比较糟糕，已经没有能够比较好的看到PPT的地方了，听的效果特别差。于是趁中间休息的机会，转到社交网络分析与挖掘组去了。当时电子科大的周涛正在进行报告，听了他的半截报告。感觉他的一些东西适合进行一些可视化的工作。他举了一些他们做的例子。一个是用社交网络（推特）的在线时间数据推测西班牙的社会经济信息，例如早上晚起的人比较多则说明现在经济情况不好，失业者很多。通过电子科大同学的校园卡数据来推测每个同学的行为谨严性，如果一个同学每天的吃饭和洗澡时间比较固定说明该同学谨严性比较好，甚至可以由此推断同学的成绩好差。还有优势产业的近邻区域学习、产业发展的合适时机预测、美国劳动市场的技能极化现象研究等等。感觉周老师的这个报告是比较有意思的，也比较适合用一些可视化的技术来对结果进行展示。

CCDM正式会议

好像八号开始才是CCDM会议的本体。由咱们学校的尹义龙教授主持开幕式，被称为国内机器学习第一人的周志华教授做了开幕式致辞。在开幕式的合影之后是大会的三个特邀报告。

首先第一个报告的是京东的郑宇博士，讲的是用大数据和AI打造新型智慧城市，这个东西在前面的产业界论坛里面已经讲过一次了，这一次在一定程度上可以说是前面介绍的补充吧。他提到目前智慧城市项目是京东的一个重点方向，现在京东有三大研究院，分别是大数据研究院，人工智能研究院和城市研究院。他的报告中提到了一个例子，就是使用共享单车的行车路线数据来判断哪里有违章停车。由于上次去杭州的时候，深受违章停车之苦，这增加了骑车者的危险，所以对这个例子印象比较深刻。他的原理是如果发现有一些共享单车在经过某个地点的时候总是需要绕一下，更靠近里面的地方去通过，这样的话应该就是这个地方存在违章停车。这种方法当然是可行的，但是他只能判断那个地点存在违章停车，却无法得到违章停车的车主相关信息，这样也就不太好有效地去对违章停车者进行一定程度的惩罚。所以我觉着这个东西还需要一定程度的改进。

第二个报告讲者是来自四川大学的章毅教授，报告的题目是Capsule神经网络解析。章教授首先简单介绍了传统神经网络的一些概念，然后分别从网络结构，算法和生物学启示三个方面介绍了Capsule神经网络。这种神经网络相当于把传统的神经网络中的隐含层分成了两个子层，其结构如下图所示，

其中的每一个方框代表一组神经元，这样激活函数就变成了一个向量的函数。Capsule神经网络在学习的过程中使用了动态路由算法。对于它的生物学启示，来自于人的大脑新皮层，人的大脑新皮层有视觉中枢，听觉中枢等区域。各个不同的区域在物理上是无缝连接的，在功能上以层级结构排列，各功能区是有级别的。神经柱是基本的计算单元。总的来讲，这个报告就是介绍了一种新的神经网络算法。

第三个报告是讲自然语言处理的，用了一些神经网络的东西。

八号下午与九号上午是分组口头报告和墙展报告。分组口头报告就是一些学生花十分钟左右的时间来讲一些自己投到这个会议的论文，好多都是一些算法的应用类的。倒是墙展报告中有一个基于可视化的森林火灾监测节点优化部署策略，当然也是一种应用类的。

九号的下午是三个特邀报告和大会的闭幕式。三个特邀报告分别讲的是Hashing、非迭代深度学习和安全半监督学习。其中这个安全半监督学习提到现在深度学习之类的神经网络算法的理论还不完善，有必要做一些安全方面的研究，个人感觉这个想法很好。

至于最后的闭幕式，就是那种正常的闭幕式了。就是闭幕式上出现了一个12岁小朋友来分享自己的编程经验体会，感觉有些意外。后生可畏，我们也要自勉了。

总结

这次会议算是我参加过的规格最高的一次了，也增长了不少见识。这次会议不是一个专门针对可视化的，主题是数据挖掘。由于现在深度学习火的大红大紫，因而绝大部分都与深度学习等神经网络算法有关，就连自然语言处理中的分词都用上深度学习了。而会议讲的论文也绝大部分是深度学习的应用。在深度学习乃至上溯到整个神经网络算法的发展历史，这其中经历过几个“寒冬”时期。一方面我很佩服这些在“寒冬”时期仍然坚持钻研的学者；另一方面我觉得深度学习自2006年诞生，2013年左右开始大火，主要的外在环境原因有两个，一是现在计算机运算能力的不断提升，二是现在数据的爆炸性增长。深度学习现在还有好多理论不够完善，还需要不断地去探索。但是深度学习究其本质，只是数据挖掘的一类算法，没有必要去为了深度学习而深度学习，选择算法的时候还是要本着什么算法简洁有效就选用什么算法的原则。

另外，我觉着我们可视化组在以后的工作和宣传上可以向数据挖掘靠一靠，毕竟我们的可视化是为了让用户更好的理解数据，这算是数据挖掘的一种方法和帮助。

最后附上会议的主页网址，后期他们会将部分讲者的讲稿整理后上传到上面：http://ccdm2018.sdufe.edu.cn/