维基百科,20岁生日快乐

本文作者:林檎

1971 年的某一天,奥地利城市因斯布鲁克郊外的田野上,躺着一名喝得酩酊大醉的中年男子。他就是著名的科幻作家 Douglas Adams。这一天,亚当斯带着一本名为《欧洲漫游指南》的书。而当他躺在田野上仰望星空的时候,灵感来了:他畅想存在一本《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy),它将是一本旅游指南和百科全书的混合体。真正的神奇之处在于,该书不聘请专家撰写的,而是任何人都可以贡献条目。

显然,生活在 21 世纪的我们,已经看到这一设想的 “实物”,即维基百科。

时至今日,这本任何人都可以编辑的自由百科全书,正好走过了 20 岁。

一本业余百科全书的诞生

维基百科最初并不是要成为一个独立的信息网站。它其实是另一个专家编写百科项目 ——Nupedia—— 的 “副产品”。

21 世纪初,互联网方兴未艾,随着 Web 的发展,许多人尝试开发互联网百科全书库项目,让百科全书式的信息从图书馆中 “走出来”。

图片

图片出处:Wiki

Nupedia 是这类尝试之一。它由前金融交易员、互联网创业者 Jimmy Wales,和哲学博士 Larry Sanger 在 2000 年共同创办。

但这一整年,依赖专家创造内容的 Nupedia 文章撰写非常缓慢。20001 年,两人开始重新探索新的方式,以更开放,互补的项目补充 Nupedia。此时,他们接触到了 “任何人都可以编辑的百科全书” 这个概念,基于 Wiki 技术的维基百科便由此而生。

图片

维基百科的创始人 Jimmy Wales 和 Larry Sanger。来源:commons.wikimedia.org

到了 2001 年年末,维基百科拥有了用 18 种语言撰写的 2 万多篇文章,而且增长速度正在加快,证明它的模式比 Nupedia 更符合两人的预期。

2003 年,威尔士成立了维基媒体基金会,专门来运作服务器和软件及筹集所需资金。对网站内容的控制仍由名为 “维基人” 的圈子所掌握,他们发展出了复杂的工作流程和指南来生成和维护内容。

现在,维基百科上已经有超过 5500 万篇文章,使用数百种语言,每篇文章都由志愿者撰写,是人类有史以来规模最大、阅读量最多的资料库。网络分析公司 Alexa Internet 将维基百科列为互联网上第 13 个最受欢迎的网站,排在 Reddit、Netflix 和 Instagram 之前。

图片

维基百科诞生基于这样一个朴素的初衷 —— 普通人可以利用计算机和互联网,作为解放、教育和启蒙的工具。

但在很长一段时间内,这种打造一本业余百科全书的想法,被部分权威人士当作小笑料。

“少数人由衷地赞同维基百科。这让我感到不解。” 美国图书馆协会的一位前主席曾在 2007 年写道," 一个鼓励使用维基百科的教授,相当于一个推荐稳定食用麦当劳式饮食的营养师。”

即使是有一些学术研究证实并强调了它可以用作为可靠信息来源,维基百科的认可度仍无法与 “大英百科全书” 这样的老牌百科全书相比。毕竟,后者由学术专家付费撰写。

2005 年,Nature 杂志甚至组建了一个专家小组,专门解决这个问题。这个小组从维基百科和大英百科全书的网站上共找了 42 篇科学文章进行检测。结果维基百科的错误率为平均每篇 4 个,大英百科全书为 3 个。

理论上,维基百科无法平息这种质疑;可实践中,它取得了毋庸置疑的胜利。

值多少钱?

除了普罗大众日常使用维基百科作为权威信息源之一,这几年,饱受假新闻、虚假信息和阴谋论之苦的社交平台(比如 Facebook 和 Youtube),也逐渐推崇维基百科视为中立的、高可信度的信息源。

维基百科还赢得了官方机构的青睐。在流言肆虐的新冠疫情期间,世界卫生组织选择与维基百科合作,通过该网站提供 covid-19 的信息。世卫组织认为,这种合作对其防止新冠病毒错误信息的传播至关重要。

当商业公司和官方机构开始使用这个工具,要计算维基百科的价值和影响力究竟几许,就更加困难了。

哈佛大学的经济学家 Shane Greenstein 曾经如此表示:“维基百科是我愿称之为 ’ 数字暗物质 ’ 的一个例子。” 他曾仔细研究过这个网站,并把它类比作育儿和家务:投入这类事务会产生巨大价值,不过这种价值难以用标准经济工具所衡量。

也有人尝试过量化维基百科所产生的的价值。2018 年的一项研究表示,美国网民每年在维基百科上投入的价值约为 150 美元,如果属实,仅在美国,该网站每年的价值就高达 420 亿美元左右。

随着数据智能、AI 技术的崛起,维基百科还产生出了一种更间接的经济效益 —— 作为大量机器学习数据集的原始文本,“喂” 给各种各样的自然语言处理模型。

根据我们的不完全统计,大概是从 2015 年开始至今,以维基百科为原始语料的代表性数据集开始大量涌现:先是 EMNLP 2015 年发布的 WikiQA,再到 2016 年 SQuAD 1.1 的大获成功,越来越多的数据集开发团队用维基百科开发数据集。特别值得一提的是 SQuAD 数据集。它的出现成为了机器理解领域的一个重要的转折点,直到今天,SQuAD(以及后续发布的 SQuAD 2.0)仍然是衡量机器阅读理解模型的重要标准。

图片

借助 Wiki 构建的数据集。图片出处:数据实战派

当然,这类数据集促进机器的阅读理解能力,也相应 “吸收” 了一些失误,包括失实信息以及偏见等等。

尤其被广为诟病已久的,是维基百科作者的多样性。有研究发现,在维基百科上撰写内容的人,大部分是居住在北半球发达国家、擅长科技产品的男性白领。他们所撰写的往往是自己感兴趣的信息。这变相造成了一种 “幸存者偏差”:在维基百科中,关于《指环王》中角色的条目就有超过 150 条,而关于越南战争的内容却少于 10 条。

因此,如何修正这类基于维基百科的数据集的偏差,正在成为 AI 伦理领域的一个重要方向。

走向何方?

亚马逊和苹果训练 Alexa 和 Siri 根据维基百科回答事实问题;谷歌用它来填充 “fact boxes(事实框)”,应用到有关事实问题的搜索场景;说不定,你每天用的最多的语音助手,也是用基于维基百科的数据集所训练出来的。

即便是这些商业公司以这种方式受益于它,维基百科也没有做什么特殊处理。它依然没有所谓的商业模式。这也是为何在一些人眼中,它是一个奇葩的、不可复制的存在。

当代科技媒体的版面,已处处充斥着科技巨头为了追求规模及流量、烧掉了大量投资者的钱的故事。但维基百科与这一切相悖。

维基百科拥有如此流量,并没有上演创始人的发家事迹而落入俗套之中。它没有股东,也不卖广告,所以,它的创始团队中也没有走出亿万富翁。有报道称,吉米・威尔士个人身家只有 100 万美元,与其他日进斗金的互联网巨头相距甚远。

它是 20 世纪末互联网的技术乐观主义、草根专业主义的遗珠,收入来自慈善拨款和用户的捐赠,称它为 “用爱发电” 的奇迹并不为过。

如今,维基百科由属于非营利组织的维基媒体基金会负责托管与资助,维基媒体基金会则主要依赖公众或者企业的捐赠和补助金。过去几年来,其中重要的捐助者包括有美国投资家华伦・巴菲特、前美国总统吉米・卡特、维珍集团首席执行官理查德・布兰逊、Amazon.com 创办人杰夫・贝佐斯、Craigslist 创办人 Craig Newmark 等。

最近几年,几乎每过一次 “生日”,都会有疑问的声音表示,这样下去,维基百科还能活多久?比如说,如今各种信息平台都表现出由人工转向算法驱动的趋势之时,维基百科仍在让人而非算法来运营管理。这究竟会是好事还是坏事?

这种压力不是没有。维基媒体基金会的执行董事兼首席执行官Katherine Maher 曾言,如果不是维基百科早已存在,恐怕在今天这个碎片化、商业化的互联网世界,它根本无法诞生。

但鉴于它已经存在,Katherine 看好它的生存前景。她认为,维基百科的存在迎合了这部分人性:“人们喜欢正确,并且热爱证明自己的能力。”

而且,即使是错误也并非一无收获。根据坎宁安定律 Cunningham’s Law,在互联网上获得正确答案的最好方法,就是发布错误的答案。

图片
图片出处:unsplash.com

References:
1、 https://rrchnm.org/essay/can-history-be-open-source-wikipedia-and-the-future-of-the-past/
2、https://www.cs.mcgill.ca/~rwest/wikispeedia/wpcd/wp/h/History_of_Wikipedia.htm
3、https://www.wired.com/story/wikipedia-online-encyclopedia-best-place-internet/
4、https://www.technologyreview.com/2013/10/22/175674/the-decline-of-wikipedia/

公众号:数据实战派
转载请后台联系小编~

猜你喜欢

转载自blog.csdn.net/shujushizhanpai/article/details/112682490