OpenAI网站突破10亿月活,收割「大模型代码生成排行榜」第一第二名!

OpenAI网站突破10亿月活,收割「大模型代码生成排行榜」第一第二名!

根据美国营销机构Veza Digital最新数据,ChatGPT开发公司 OpenAI 的网站月活用户在今年1月底已达到 1 亿,并在3月成功突破 10 亿大关,共有8.47亿用户访问了OpenAI的网站,比2月份增长了54%。

从在线访问者来看,OpenAI 刷新了消费级网站的用户增长速度记录,因此也跻身全球流量20强网站。

流量分析网站Similar Web还在4月份最受欢迎网站排名中,将OpenAI排为第17名,超过了谷歌、YouTube和Facebook等知名网站。

OpenAI 旗下热搜 #ChatGPT #GPT-4 #月活用户超8亿…飙升的热度背后是大家对 AIGC 技术的关注,乘着这股“东风”,OpenAI 成为了最受瞩目的科技公司。

最近,知名计算机科学家 Matthias Plappert 在 HumanEval 上发布了自己对AI圈主流的 LLM 进行的基准测试结果。他的测试偏向代码生成,在一众 LLM 排名榜中,GPT-4摘得第一,而 OpenAI 的 text-davinci-003 拿到第二,但耳熟能详的 LLaMA 却意外地拉胯了。

在这里插入图片描述

图注:Matthias Plappert 在 HumanEval 上发布的LLM基准测试结果

在GPT-4的技术报告《GPT-4 Technical Report》一文中,GPT-4 在 HumanEval 上的pass@1准确率(衡量了模型在第一次尝试中是否产生了正确的解决方案)是67%,而Plappert的测试则达到了73%。

在这里插入图片描述

图注:GPT-4 Technical Report中GPT-4的基准测试结果

另外,OpenAI的 text-davinci-003 可以称是宝藏模型,虽然不敌GPT-4,但一轮测试pass@1准确率有62%,稳稳拿下第二名的好成绩。

而在此前微软长达155页的优秀工作《Sparks of Artificial General Intelligence: Early experiments with GPT-4》中,研究者在 HumanEval[CTJ+21]上对 GPT-4 进行基准测试。这是一个由 164 个编程问题组成的docstring-to-code数据集,用于测试编程逻辑和熟练程度的各个方面。如下表所示,GPT-4 的表现优于其他 LLMs,包括 text-davincit-003 (ChatGPT的基础模型) 和其他专门在code、code-davinci-002 和 CODEGEN-16B [NPH+22]上训练的模型。

在这里插入图片描述

图注:GPT-4早期实验的代码测试结果

Matthias Plappert 同时也测试了与OpenAI“同宗”的 Anthropic AI 的 claude-instant 和 claude 模型的代码生成性能。虽然比不上 GPT-4,但两个模型都超过了GPT-3.5的pass@1准确率(46%)。claude-instant(54%)比 claude(51%)的性能较好一点。

最后,大家耳熟能详的 LLaMA 居然翻车了,它在代码生成方面的表现差强人意。这也可能与LLaMA的训练数据有关,从GitHub收集的数据使用了欠采样的方法。Plappert 给出的LLaMA 的pass@1准确率为10%,与Codex 2.5B(22%)相比,LLaMA 也不忍直视。

AI辅助编程领域涌现出的一家新晋独角兽企业——Replit,媲美Codex的编码大模型仅用10天。去年,Replit上线了自己的类Coplipot工具Ghostwriter。在首届开发者日活动,Replit宣布推出编码大模型replit-code-v1-3b。这一模型拥有27亿参数,在5250亿代码token上进行了训练,支持20种编程语言。据悉,replit-code-v1-3b在参数量垫底的情况下,微调后的版本性能优于同类模型,包括Codex、LLaMa、CodeGeeX等。如下图所示,官方放出的宣传数据显示Replit-3B的pass@1准确率为22%,然而与 Plappert 的测试结果 16% 还是差一些的。Plappert 直言这可能是因为他在测试这个模型时所用的量化方式让通过率掉了几个百分比。

在这里插入图片描述

图注:Replit-3B在HumanEval上的代码生成测试结果

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

参考:https://twitter.com/mplappert/status/1663892732652273664

猜你喜欢

转载自blog.csdn.net/u012744245/article/details/131570459