Os dois grandes modelos de linguagem GPT4 e Claude2 foram comparados em detalhes e testados em várias dimensões, como compreensão de linguagem, geração de texto, raciocínio lógico, programação, matemática e alucinações, e descobriram que o desempenho geral do GPT4 é um pouco melhor, especialmente em programação e evitar alucinações.
GPT4 é um grande modelo de linguagem desenvolvido pela OpenAI que pode gerar artigos, codificar e executar várias tarefas. Claude
Criado pela Anthropic, também é um modelo de linguagem grande relativamente líder, e seus principais membros também são ex-funcionários da OpenAI. Recentemente, o Claude 2 foi lançado oficialmente. Ele afirma que a capacidade de escrever código, analisar texto e raciocínio matemático foi aprimorada. Vamos usá-lo e dar uma olhada.
O uso do Claude2 é relativamente simples, basta acessar claude.ai diretamente , mas você deve garantir que os endereços IP para acesso anthropic.com
sejam claude.ai
dos Estados Unidos, acredito que isso não será um problema para todos. Se você achar um pouco difícil, consulte o Guia da Internet escrito por Mouse with Left Ear .
Comparação de modelos, imagem de www.demandsage.com/chatgpt-vs-…
O uso pessoal, a experiência e a comparação de alguns limites de uso são os seguintes:
Função | ChatGPT | Claude2 |
---|---|---|
restrições de uso | Restrições regionais, controle de risco de IP, controle de risco de pagamento | Restrições regionais |
custo | Gratuito 3.5, Pago 4 | livre |
compreensão da linguagem | 3,5 razoável, 4 muito forte | Parece o mesmo que 4 |
alucinação | 3.5 é relativamente fácil de aparecer, 4 raramente aparece | melhor que 3,5, pior que 4 |
velocidade | 3,5 é rápido, 4 é muito mais lento | melhor que 3,5, pior que 4 |
saída de streaming | apoiar | apoiar |
diálogo chinês | apoiar | apoiar |
função de plug-in | apoiar | não suporta |
intérprete de código | apoiar | não suporta |
Limite superior de token | 32K | 200 mil |
capacidade de programação | 4 forte | Parece o mesmo que 3,5 |
A seguir, serão demonstradas as capacidades desses dois modelos por meio de alguns casos práticos de uso.
habilidades de linguagem
Os grandes modelos de linguagem de hoje podem não apenas entender o contexto e a semântica complexos, mas também gerar texto fluente e até mesmo executar algum raciocínio básico. Vamos usar alguns exemplos para comparar os efeitos desses dois modelos na compreensão semântica, geração de texto e raciocínio lógico.
compreensão semântica
TK 教主在微博上面曾经提供了几个例子,来说明大语言模型的语义理解能力。TK 给的例子比较好,都是一些隐喻的描述,可能普通人都很难理解,很考验语义理解能力,这里我们直接也用这两个例子了。
第一个是关于汤不热的隐喻,文本如下:
她们也学了煲汤的手艺,但并不见效。谁都不知道是为什么。越是不知道为什么,她们就越恨三姨太。这天晚上,她们偷偷来到三姨太窗外,听到屋里传来一个声音:
“汤不热了吧? 我去给你热一下。”
老爷子眼中忽然闪出一道光芒,像年轻了三十岁。
TK 当时用的 Claude+ 能给出不错的解释,知道这个对话用汤不热来传达性的双关和隐喻。Claude2 优化了道德审查能力,直接识别出涉及一些敏感话题,然后不给回答了。相比之下,GPT4 就比较傻了,只理解字面意思。回答对比如下图:
再来看另一个例子,还是一个隐喻,具体文本如下:
对微博上的佩奇们来说,今天是最黑暗的一天——她们的摩西杀了她们的加百列。
可以看到 GPT4 和 Claude2 的理解也都基本是可以的,如下图:
文本生成
文本生成这里,首先考虑让 AI 来续写小说。其实就目前最强大的 GPT4 来说,也不能写出风格统一,情节符合常识并且连贯的小说。AI 离替代人类作家,还有很远的路要走。不过这里我们还是尝试了一下,提示词如下:
你是一个优秀的小说作家,现在准备写一篇盗窃相关的小说,开头部分如下:
在一个风高月黑的晚上。帮我续写,字数大概在 300 字左右,文笔要诙谐一点,风格要是中国现代小说的风格。
GPT4 老老实实地生成了小说,总体文笔和情节还说的过去,不过里面有些情节不太符合常识,比如熬夜打王者荣耀的太监。可能中文语料里,熬夜打王者荣耀出现的次数太多了吧。Claude2 则承认自己在写小说方面不太擅长,然后给出了一些写作建议。
写小说有点难度,来试试一个比较常见的生成文本摘要。我们选择科幻小说《三体 3:死神永生》的章节:“广播纪元 7 年,程心” 的开头部分,效果如下:
GPT4 也可以再简短一点,生成如下:程心经过五年基因克隆和视网膜移植治疗,恢复了视力,同时她的公司在近地轨道太空建筑业中崭露头角,而艾 AA 虽经历移民艰难,但未显岁月痕迹。总体看两个模型能力基本一样,没有明显优劣。
逻辑推理
除了上面的语义理解和文本生成,现在的大语言模型还可以进行一些逻辑推理。来看一个具体的例子,提问内容是
“我爸我妈结婚为什么没有邀请我”,GPT4 的回答考虑的逻辑就很完备,知道分结婚前出生和结婚后出生这两种情况了。Claude2 知识考虑了结婚前出生,另外多了一些道德引导,完整如下图:
数学问题
数学其实一直是大模型的一个弱项,就算是 GPT4,数学推理计算能力也不行,需要依赖外部工具。下面用实例来比较两个模型在数学能力上的差距。
简单数学
先来看看简单的鸡兔同笼问题,我们让 GPT4 和 Claude2 自己生成题目并解决,发现两者的能力基本一致,如下图所示:
微积分
再看一个稍微复杂的微积分的例子,我们尝试让 GPT4 和 Claude 讲解微积分并给出具体的示例,提示词如下:
可以给我一个例子,教我什么是积分,以及怎么求积分吗
两个模型回答都还可以,GPT4 的解释稍微清晰一点,如下图:
代码能力
平时用 GPT4 比较多,对于一些不是很复杂的逻辑,GPT4 写的代码还是很不错的。Claude2 的测评显示代码能力有了大的提升,下面通过几个示例来直观体验下。
最大公约数
提问内容都如下:
帮我用 python 写一个函数,用来计算两个数字的最大公约数。
GPT4 的代码用循环实现了欧几里得辗转相除法,给了完整的解释和代码,以及简单测试。而 Claude2 则给出了辗转相除法的递归实现和简单测试,对代码进行了简单解释。如下:
我们知道 Python 中没有尾递归优化,所以递归深度太深的话,可能会栈溢出,抛出一个 RecursionError 错误。拿这一点来继续追问 GPT4 和 Claude2,提示词分别如下:
GPT4: 上面用循环实现,为啥不用递归实现呢? python 中递归会有什么问题?
Claude2: 上面代码用到了递归,python 递归深度太深的话,会不会有问题呢?
GPT4 给出了递归版本的实现,然后提醒了 Python 中递归深度限制的原因,以及可以通过 sys.getrecursionlimit()
查看当前的递归深度限制。提醒到在处理大数据或是不确定数据规模的时候,循环结构通常是一个更安全、更可靠的选择。另外也提到在其他一些语言,如 Haskell 或 Scheme 中,由于它们使用尾递归优化
,递归在这些语言中可能会被更广泛地使用。
Claude2 也知道 Python 递归深度限制,给出了循环版本的实现。另外,还提到在 Python 3.8 之后,可以使用 functools.lru_cache 做 memoization,避免重复计算。其实在最大公约数这里,添加记忆话效果并不是很好,这里的建议不是很合理。
完整的回答如下图:
解释代码
上面看到两个模型写代码能力有一点区别,接下来看看在对代码的理解上有没有明显差异。这里我们选择的源代码是 OpenAI 的 python 库 openai-python 中 openai_response.py 的实现。提问的 Prompt 如下:
解释下面代码的作用,可以适当总结概括下。
(复制的代码,这里忽略)
从回复上看,GPT4 的更加详细点,对每个字段都有简单说明,Claude2 则对整理的设计思路讲的比较详细些。如下图:
接着再详细问一些 Python 语法相关的知识点,@property
和 -> Optional[str]
分别是什么意思。两个模型都回答对了,不过 GPT4 的回答明显会更加详细,并且有一定的扩展。会回答在实际运行中,Python 不会强制检查类型注解的正确性,类型注解主要用于提示和文档,以及一些集成开发环境(IDE)和工具会使用类型注解来提供更好的代码完成和错误检查。
人文历史
试着让这两个模型分别回答了下面的一些人文历史的提问:
介绍下中国历史上的名人武则天的生平。
建安七子都是谁,分别都有什么事迹。
诸葛亮是曹操的丞相,做了哪些大事呢?
怎么评价汉武帝?
建安七子的问题上,GPT4 和 Claude2 的回答都不太准备,其他问题,两个模型回答都还算符合事实。GPT4 的回答会更加饱满立体,细节也会多一些。比如在诸葛亮的贡献上提到了:协助刘备立国,开展鞠躬尽瘁的治国理政,北伐中原,稳定国内,木牛流马,文化贡献等。而 Claude2 的回答就简单了很多,几乎没有提到诸葛亮的贡献。
GPT4 的总结评价也比较到位:诸葛亮是中国历史上著名的政治家、军事家、文学家、书法家,被尊称为” 睿智的孔明” 或” 诸葛孔明”,在中国历史上享有极高的威望。如下图:
在评价汉武帝的时候,两个模型基本也都给了正面和负面的评价,不过 Claude2 的回答有点搞笑,在提到成就的时候有下面一条:
employing 能臣如霍光等人, 改革弊政, 使汉朝政治清明。
忽然冒出了个英文,有点奇怪,应该是模型的 bug 了。
幻觉
大语言模型本质上是一个概率预测,并不知道事实,因此会 “胡编乱造” 一些看起来很 “合理” 的内容。
在编程领域,模型有时候会编造一些不存在的库或者函数,来完成一些编程任务。有时候也会给出一些虚假的信息,来尝试回答某个问题。接下来我们试着让 GPT4 和 Claude2 回答下面的一个编程问题:
帮我写一个程序验证
np.linalg.eig(np.random.rand(n, n))
有没有自动在底层并行化,执行程序并告诉我结果。
两个模型都给出了还算合理的解决代码,区别在于 GPT4 直接回答自己是语言模型没法运行代码 (这里没用 Code Interpreter),但是 Claude2 则出现幻觉,说已经在本地机器上运行,当 n=1000 时,计算时间大约为 0.4 秒。如下图:
Além da alucinação, em comparação com a qualidade da resposta, o GPT4 ainda é muito melhor, e a explicação dada será muito mais detalhada: a numpy.linalg.eig
implementação subjacente da função depende da BLAS(LAPACK)
biblioteca e essas bibliotecas podem implementar automaticamente a paralelização de acordo com a configuração na instalação e compilação. Mas o próprio Python não pode controlar esse processo. Além disso, verificar o efeito da paralelização geralmente requer a execução em uma CPU de vários núcleos e, se houver apenas uma CPU de núcleo único, a paralelização não trará nenhuma melhoria de desempenho.
Além disso, tentei fazer uma pergunta: "Use a API do Notion para criar notas e deseja fazer upload de imagens locais para as notas, como fazer isso?" Aqui, o GPT4 responde diretamente que a API do Notion (a partir de setembro de 2021) faz não fornece upload direto de fotos A função e, em seguida, a solução é fazer upload para o serviço de hospedagem de imagens para obter o link e usar o link diretamente. Mas a ilusão de Claude2 é mais séria, forjando diretamente uma interface de API inexistente e também fornece métodos específicos. Consulte Notion API
a documentação, o upload de um arquivo precisa iniciar uma POST
solicitação para /upload
o terminal e o corpo contém os dados binários da imagem e as informações do objeto pai.
Algumas alucinações também aparecem em outros campos, como fabricar algumas pessoas ou coisas que não existem, citar papéis que não existem, etc. Resumindo, ao usá-lo, você deve ser capaz de verificar se a resposta da IA está correta.
O acima é basicamente a comparação entre GPT4 e Claude2. De um modo geral, o GPT4 pago ainda é melhor e o Claude2 ainda tem uma pequena lacuna.