NTCIR-13 We Want Web 任务概述

NTCIR-13 We Want Web 任务概述

原文来源：http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-WWW-LuoC.pdf
摘要：
本文给出了NTCIR We Want Web（WWW）任务的概述，该任务包括中文和英语子任务。WWW任务是一个经典的ad-hoc 文本检索任务。这次的WWW收到了4个队伍提交的19个中文任务运行结果，三个队伍提交的13个英语任务运行结果。在这篇概述中，我们描述了任务细节、数据、评测方法以及官方结果报告。
关键词：
    ad hoc retrival;click data; evaluation;information retrieval;test collection; web search
     ad hoc 检索；点击数据；评测；信息检索；测试集；网页搜索

1 引言
    信息获取任务已经多样化了; 现在NTCIR、TREC、CLEF等评测中有各种新的赛道（track）或者任务（task）。这和早期的TREC形成了鲜明的对比，那时只有一些赛道（track），其中 ad hoc track(在一个静态的文档集上查询一个新话题集)处于中心位置。但是ad hoc任务是一个已经解决了的问题吗？看起来似乎是这样，研究者们已经转向新的任务不是因为他们已经完全解决这个问题，而是因为他们已经到了一个停滞期。Ad hoc Web搜索尤有其实践上的重要性。Web搜索引擎如Baidu、Bing、Google给我们做了很优秀的工作，但是他们是黑盒。我们相信IR研究者们应该继续研究并理解排序检索的核心问题并推进最新技术（the state of art）。如果我们能改进ad hoc IR的性能，其它任务也会受益于它。
直接的ad hoc web 搜索任务已经从NTCIR和TREC消失。我们相信研究者们仍然需要处理基本的web搜索问题并且走得比BM25F更远。而且，一个稳定的评测论坛，其涉及NTCIR或者TREC的好几轮，以期监控IR算法的进展，看起来是在安排中。还有，从评测方面来看，研究者们（搜索引擎公司也是这样）需要一个能体现用户体验的度量，而不是那些基于排好序的文档ID列表的产生的一些数字。
最近，深度神经网络在很多机器学习任务中取得了极大的改进，如语音识别、计算机视觉、自然语言处理等等。已经有人提出一些研究来解决IR中的一些挑战，特别是ad hoc search。我们相信是时候提供一个评测论坛并在时间维度上跟踪神经IR模型的发展。
基于这些考虑，我们决定在NTCIR-12中运行一个ad hoc 评测任务，起名为 We Want Web （WWW）。任务的名字启发于社会媒体的一次鼓噪，当时在TREC 2014上 Web Track被宣布结束了，媒体们说：“We want Web”、“Web ad hoc now！”等等。
WWW的主要任务是一个传统的ad hoc任务。参加者需要在一个给定的语料库上构建他们自己的排序系统。然后他们需要对一个给定的话题集提交几次运行结果。这一轮的WWW（NTCIR-13）有中文和英语两个子任务。两个子任务在不同的数据集上采用相似的任务配置（参见第三部分）。在两个查询集上略有重合，这可以用来支持潜在的跨语言IR研究。在我们的计划中，在将来的WWW中还会运行一个日语的子任务，更多的任务定义细节将在第二部分给出。查询系统的性能评估将采用经典的TREC方式。我们在4.1节提供相关性判断的细节，在第六部分提供官方结果。
NTCIR-13的WWW的安排参见表1。虽然有很多队伍在这个任务中注册了，但最后我们只收到了四支队伍的19个中文运行结果和三支队伍的13个英语运行结果。我们猜测造成可怜的参与度的潜在原因是基于机器学习的web搜索的方法缺少训练数据。我们在第7部分讨论WWW将来的计划。
2 任务定义
2.1 主任务定义
WWW的主任务是一个经典的ad hoc 搜索任务。组织者将提供一个语料库，其中包括大量的文档（web pages）和一个查询集（query set）。然后参加者需要基于语料库构建他们自己的排序系统。每一个查询的查询结果以排好序的列表形式提交。收到这些参加者的运行结果后，组织者将从所有结果中汇集top k 结果来构建一个结果池（result pool）。当比较不同提交者的性能时池的深度决定了多少结果将会被考虑。举例来说，如果我们选择20，我们只能计算哪些截止点小于20的度量。池的深度也会受限于相关性判断的开销，这意外者时间和金钱。相关性判断安排在结果池上进行。我们在WWW中采用典型的TREC相关性判断设置。一旦相关性判断完成了，组织者可以计算各种评测指标（如Precision、Recall、nDCG等等）来比较不同提交结果的性能。
考虑到在一个大型语料库上构建一个索引系统颇具挑战且很耗费时间，我们给参加者提供了一个简单得多的方案。我们提供一个基准排序系统，参加者可以使用他们自己的算法来对结果重新排序。更具体一点来说，对每一个查询，我们提供了top 1000 个检索结果及对应的相关性分数和原始的HTML。

2.2 子任务
    在NTCIR_13的WWW任务中，我们提供了中文和英语子任务。考虑到NTCIR INTENT/Imine中有相对少部分日本的子任务参加者，我们将保留日语子任务直到NTCIR-14.
中文子任务和英语子任务基本上采用了相同的任务配置。主要区别就是我们提供的数据
对中文子任务，我们提供了一个包括200个中文查询的训练集。这些查询从一个商业搜索引擎的查询日志抽样获得。训练集包括两部分数据。第一部分是从商业搜索引擎的点击日志收集的。搜集的点击日志的时间范围是2017年3月到2017年4月。数据的第二部分是训练集中查询的相关性判断。不幸的是，对英语子任务，我们没有训练数据。这也阻止了参加者建立更复杂的排序系统。
2.3   WWW的长期计划
我们计划在NTCIR运行WWW至少三个轮次，以期跟踪排序技术的相对长期的发展。我们也想在NTCIR-14引入日语子任务，如果有充分的需求的话。在NTCIR-15，我们会基于参加者的需求决定是否要在NTCIR-16继续进行。

3 数据
3.1 语料库(Corpus)
在中文子任务中，我们采用了SogouT-16作为文档集。SogouT-16 包括了1.17B 网页，这些是从Sogou索引中抽样出来的，搜狗是中国第二大商业搜索引擎。考虑到原始SogouT对一些研究小组来说也许是一个困难（解压后差不多80TB），我们准备了一个SougouT-16的类别B版本，标注为“SougouT-16 B”。这个子集包含大概15(B的数据)。
在英语子任务中，我们采用了ClueWEB12-B13作为文档集。这个语料库可以以研究为目的免费试用。你只需要支付磁盘费和运费。更多信息见于Clueweb-12的主页。Clueweb-12有一个在线的检索/页面渲染服务，只要签署协议就可以被使用。
3.2 查询集（Query set）
中文子任务的查询来自于一个商业搜索引擎2017年3月某一天查询日志的抽样。几乎所有查询是torso查询，这意思是它们某天的频度在10~1000。尽管高频和低频查询同样需要调研，我们认为这些torso查询对这样一个评测任务更合适。查询的内容、intent types(意图类型：导航/信息&事务)、查询是否与英语子任务共享见表2。
英语子任务的查询有两个来源。第一部分来自于一些中文查询的翻译。尽管WWW不是一个跨语言信息检索（CLIR）的任务，数据（相关性判断、运行结果等）也许在将来会使CLIR研究收益。第二部分从另外一个国际搜索引起的查询查询抽样获取而来（注意它不同于中文子任务中的搜索引擎）。这个索索引擎的用户主要位于讲英语的国家。我们使用的查询日志只是一天记录中的一小部分。这样我们从频度在1到100之间的查询里随机抽样一部分。查询内容、意图类型、是否与中文子任务共享参见表3.
对英语和中文查询集，我们都没有使用很多导航型查询。由于SogouT和Clueweb都是整个Web的一个小的子集，很可能导航型查询的最近答案并不在语料库中。
应该指出的是，在相关性评测过程中，我们发现英语查询集的0014查询被错误拼写为“equation edior”。正确的拼写为”equation editor”。我们保留了发布给参加者的原始拼写。
3.3 训练数据
对中文子任务我们提供了一个用于训练的用户行为数据集。行为数据集包括两部分。
对训练集我们有200个查询，这些和中文子任务的查询集没有重叠。对每个查询，我们提供用户点击、展示结果的URL以及每一个点击记录的停留时间。
更具体一点说，对训练集中的每一条记录，我们有如下数据：
anonymized User ID query a list of URLs presented to the users clicked urltimestamps of actions
对每一个查询我们也提供了一些相关性标注。这些相关性标注由来自于搜索引擎额质量评估部门的专业评测者完成。
对中文子任务查询集的查询来说，我们提供了相似的行为数据，除了没有相关性判断。所有这些行为数据来自于一个商业搜索引擎从2016年3月到4月的收集。考虑到隐私问题，用户ID匿名了。对每一个查询，最多提供了500条行为数据（500个session），我们认为500对特征抽取和模型训练已经足够了。
4. 运行结果、池化、相关性评测
4.1 收到的运行结果
表4汇总了我们的运行结果统计
4.2 相关性评测
中文相关性评测被安排在中国清华大学举行。相关性判断通过一个基于WEB的系统实施，该系统由清华大学的 Weixuan WU先生开发。所有文档被划分为25个标注任务。每个任务包括大约800个文档，这些文档最多属于两个查询。任务之间没有重叠。我们通过海报、邮件列表、社交媒体等在校园里招聘了51个评测者。51个评测者中37人只完成了一个任务，其余的完成了多个任务，最多的完成了5个任务。每个任务需要花费大约2小时时间，评测者每个任务的报酬是200RMB（大约30USD）。我们鼓励评测者尽可能参加更多的任务，因为我们认为他们判读的文档越多，他们内部的相关性模型越稳定。
评测安排在实验室环境进行。评测开始前，评测者首先接受关于相关性判断标准的大约15分钟的指导：
   NONREL Nonrelevant –就是使用者如果进入了这个搜索查询会认为这个页面相关的可能性是*unlikely* 。
   MARGREL Marginally relevant – 用户从这个页面会获得一些相关信息。但是，她依然需要浏览更多页面来满足信息需求。
   REL Relevant - 就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*possible*。
   HIGHREL Highly relevant -就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*likely*。
尽管我们招聘的评测者不像训练过的专业评测者稳定，我们发现在可接受的质量下这个更快。最后，NONREL标签映射到0；MARGREL标签映射到1；REL标签映射到2；HIGHREL标签映射到3.
英语相关性评测被安排在日本Waseda University举行。相关性判断通过一个基于WEB的系统实施，该系统由该大学的Sakai Laboratory开发,称为PLY。9个主要评测者是通过日本众包服务Lancer招聘来的；对50个奇数话题，我们为了研究众包工作者和学生之间的互评一致性另外招聘了5个学生。官方的qrels并不反映出学生们的判断。每个评测者在判断界面上只给展示查询：附加信息如描述和叙述性信息都没有给出。给每个评测者的相关性判断标准如下：
   ERROR 右边的面板没有展示如何内容，即使在等待内容加载几秒后。
   H.REL Highly relevant -就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*likely*。
   REL Relevant - 就是用户如果进入了这个搜索查询会认为这个页面相关的可能性是*possible*。
   NONREL Nonrelevant –就是使用者如果进入了这个搜索查询会认为这个页面相关的可能性是*unlikely* 。
最后，ERROR和NONREL映射到0，REL映射到1，H.REL映射到2，相关性等级的L0到L4通过把每一个话题的两个评测者的判断加起来获得（译者备注：0+0=0，0+1=1,1+1=2,1+2=3，2+2=4）。
5. 评测度量和工具
我们使用NTCIREVAL工具3来计算MSnDCG@10 (Microsoft version of nDCG at cutoff 10), Q@10 (Q-measure at cutoff 10), and nERR@10 (normalised expected reciprocal rank at cutoff 10) [3].我们使用了Linear gain values，例如9用于L9-relevant， 1用于L1=relevant。
Discpower工具用来实施随机化的Tukey HSD 测试，每个的B = 10,000 trials[3].
6. 官方结果
6.1 中文运行结果
表6给出了所有中文运行结果的平均有效性分数。表7汇总了统计显著性测试结果。随机化的Tukey HSD p-values和effect sizes (i.e., standardised mean differences)也给出了，基于两路ANOVA (没有复制) residual variances (0.0279 for MSnDCG@10, 0.0315 for Q@10, and 0.0466 for nERR@10) [4].例如从MSnDCG@10方面来看RUCIR-C-NU-Base-1和THUIR-C-CUBase- 1之间差异的effect size可以通过这个公式给出： ESHSD = (0.6323-0.4828)/√0.0279   = 0.895.
根据有三个测试度量的官方中文结果，可以观察到：
RUCIR和CMUIR是性能最好的队伍，因为他们统计显著性地超过了THUIR和SLWWW，但两者之间没有统计显著差异。
THUIR统计显著超过了SLWWW。
表8基于Kendall’s г角度的三个评测度量比较了系统排序以及它们的95%置信区间。可以观察到三个排序在统计上是相等的。
6.2 英语运行结果
表9给出了所有英语运行结果的平均有效分数（effectiveness scores）。表10汇总了统计显著性测试结果。随机化的Tukey HSD p-values和effect sizes (i.e., standardised mean differences)也给出了，基于两路ANOVA (没有复制) residual variances (0.0297 for MSnDCG@10, 0.0360 for Q@10, and 0.0520 for nERR@10) [4].
从官方的英语结果nDCG@10和Q@10来看，可以观察到RMIT是性能最好的队伍，统计显著性地超过了THUIR和RUCIR。另一方面，三个队伍在nERR@10上的统计表现相当。
表11比较了基于Kendall’s г角度的三个评测度量比较了系统排序以及它们的95%置信区间。可以观察到三个排序在统计上是相等的。
7 更深入的讨论
   发起WWW的原始动机包括两方面：（1）TREC的Web track已经停止了。但是，我们相信，需要一个测试平台来跟踪搜索技术的进展，尤其是在神经IR方法快速发展的情况下；（2）我们需要通过NTCIR的几轮会议来量化文本搜索算法的进展，尤其是在利用分数标准化（score standardidation）的情况下，分数标准化是基于系统的一个已知集合使得所有话题具有可比性。
不幸的是，尽管有不少队伍（20）WWW，但是只有5个队伍（其中四支来自组织方的机构）最终参加了。这阻止了我们实施有效的分数标准化实验，因为该技术依赖于系统的大数据集来确保一个标准化分数（例如：标准化的nDCG）的0.5意味着一个“average”的系统。pre-NTCIR-13失败分析研讨会也取消了。
导致可怜参加率的一个主要原因也许是缺少web 搜索用于机器学习方法的训练数据。近来研究者们主要集中于基于神经网络的方法，这些是数据饥渴的方法。在WWW的未来会议中，我们计划给参加者提供更多的训练数据。我们正寻求与业界的公司合作。

NTCIR-13 We Want Web 任务概述

猜你喜欢