ChatGPT最强对手,实测却输给了文心一言!

侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌!

就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好评。

据悉,Claude系列刚被推出时就被给予厚望,由于创始团队都在Open AI任职过,技术过硬,呈现出的效果相当完美,意图理解也非常优秀。而且还推出了Claude Chat网页版,完全免费!

在性能方面,Claude 2正式支持10万tokens的输入,并且可以一次性输出4000个tokens。

此外,由于使用了2023年的数据训练模型,Claude 2“了解时事”,输出内容更具时效性。这些性能的改进都大大提升了Claude 2在用户心目中的分量。

 Anthropic官网上描述说:“我们很高兴发布Claude 2新模型,不仅改进了性能,还延长了响应时间,可通过API及面向公众的测试版网站Claude.ai进行访问。”

1、性能提升:文理通吃、为安全保驾护航

相较ChatGPT,Claude 2有如下优势:

首先是token:GPT-4的下限默认为8k个token,上限32k个token,而Claude 2是100k个token,与GPT-4根本不是一个量级!

然后是费用,GPT-4每月支付20美元,而Claude 2是完全免费的!

由于Claude 2具有更长的token,长文本处理能力更强,在文科方面发挥出了优势。

在美国律师资格考试的多选题部分可以取得76.5%的正确率,前代Claude 1.3仅为70%。在GRE阅读和写作测试中,得分超过90%应届毕业生。而在美国医师执照考试中,Claude 2在3个科目中的分数都超过了60%,获得ALL PASS佳绩。

不仅如此,Claude 2还文理通吃,在编程、数学和推理方面准确率大大提升。

反復の過程で、Claude 2 のセキュリティはモデルによって制限されて強化され、攻撃的または危険な出力を生成することが困難になります。研究開発チーム内にアドホック評価チームが設置され、モデルにスコアを付け、多数の有害なプロンプトに対するテストを自動化します。また、チームは結果を定期的に個人的にチェックして、何も問題がないことを確認します。

結果は、評価セッション全体を通じて無害なフィードバックを提供する点で、クロード 2 はクロード 1.3 よりも 2 倍優れていることを示しました。

Anthropic は、安全性、機能性、パフォーマンスの向上を考慮して、Claude 2 が米国と英国で完全にテストされることを発表し、今後数か月以内にテスト対象を拡大する予定です。

2. 強力なエコロジー:多分野および学際的な協力

Anthropic の理念は多分野、学際的なコラボレーションであり、Claude の API を使用して数千の企業とパートナーシップを確立しています。

そのうちの 1 つは AIGC ユニコーン ジャスパーです。Claude 2 は、さまざまなユースケースで他の最先端のモデルと歩調を合わせることができるため、クライアント向けに独自のクリエイティブな広告コピー コンテンツを生成するための、長時間かつ低遅延の使用に特に有利です。

Jasper のエンジニアリング担当副社長、Greg Larson 氏は、「当社は、Claude 2 を顧客に提供する最初の企業の 1 社になれることに興奮しています。これにより、セマンティクスが強化され、最先端の知識トレーニングがもたらされ、複雑なプロンプトに対する推論の改善が可能になります」と述べています。

Sourcegraph は、顧客のコードの作成、修正、保守を支援する AI コード プラットフォームです。コーディング アシスタントの Cody は、Claude 2 の改善された推論機能を使用して、顧客により正確な回答を提供すると同時に、最大 100,000 トークンのコンテキスト ウィンドウを通じてより多くのコード ベースを渡します。さらに、Claude 2 のトレーニング データは、新しいフレームワークとライブラリの知識を得るために更新されます。

オンライン教育ソリューションの大手プロバイダである Juni Learning は、Anthropic を使用して Discord Juni Tutor Bot を強化し、学生の学習完了を支援しています。

3. オープン AI は内部および外部の問題に直面しており、挑戦者にとっては良い時期です

最近、海外メディアの報道によると、OpenAIの中核従業員がGoogleに負けているという。これらの従業員の中には、退職して Google と契約を結んだ人もいれば、近い将来 OpenAI を離れる人もいます。

中核社員の離職の波はOpenAIの爆発的な成長による一連の経営問題のように見えるが、本質的な理由はCEOの経営に対する社員の不満とChatGPTの停滞する技術に対する失望にあるのかもしれない。

Microsoft から 100 億ドルの資金を調達した OpenAI は、最大のドル箱である ChatGPT を追いかけることに満足しているようですが、ChatGPT にはこれ以上の開発計画はありません。この観点から見ると、3月にデビューしたClaudeは当初の意図に向かって発展しつつある一方、ChatGPTは中途半端に停滞している。

社内外のトラブルだけではありません。マスク氏が注目、また大きな動きがあります!旗を掲げた別の会社が出てきました!マスク氏は現地時間7月12日、人工知能企業xAIが正式に設立されたとツイッターで発表した。

写真

xAIの公式サイトがオープンしました。報道によると、同社はマスク氏自身が率いており、他のメンバーはDeepMind、OpenAI、Google Research Institute、Microsoft Research Institute、Tesla、トロント大学などから来ており、DeepMindのAlphaCodeやOpenAIのGPT-3.5およびGPT-4チャットボットなどのプロジェクトに参加している。

メンバーの構成から判断すると、マスク氏は xAI を、OpenAI、Google、Anthropic などの企業(そのほとんどが有名なチャットボットの推進者である)と競合する企業として位置付ける可能性がある。

xAIはその目的を「宇宙の本質を理解する」ことだと主張している。7月14日、同社チームはツイッター上で記者会見を開き、ネチズンからの質問にさらに答える予定だ。

4. バージョン評価

公式ウェブサイトによると、Claude は今年 3 月に正式にリリースされ、その時点で Claude1.3 と Claude Instant1.1 の 2 つのバージョンがリリースされ、それぞれの役割と機能を実行しました。

基本的な評価では、研究者らは 3 つのバージョンも比較しました。データは、新バージョンの機能が主に次の点で大幅に改善されていることを証明しています。

写真

上の表に示されているように、Claude 2 は、Python 関数合成 (Codex P)、GSM8k (小学校の算数の問題)、MMLU (多分野の質問応答)、QuALITY (長編小説の質問応答テスト)、ARC-Challenge (科学の問題)、TriviaQA (読解)、および RACE-H (高校の読解と推論) のほとんどで高いスコアを獲得しました。

写真

公式サイトでは「クロードは高性能で、クロードインスタントは安くて速い」とも明かされている。

5. 鶏とウサギを同じ檻に入れて、ウェン・シン・イーヤンに負けた

クロード 2 の能力をテストするために、ウェンシンイヤンとクロード 2 を「同じ檻の中のニワトリとウサギ」の問題でテストし、比較してみました。

写真

写真のように、クロード 2 は中国語と英語の両方で誤った答えを出力します...

写真

しかし、ウェン・シンの言葉を使ってテストしたところ、それが正しいことが判明しました。ウェン・シンの言葉はまだ信頼できるようです。

写真

写真

興味深いことに、ChatGPT の中国語版は正しいですが、英語版は間違っています。実測するとちょっとドタバタしてます!クロード2の数学力向上にはまだまだ遠いようです。

6. ユーザー: クロードは ChatGPT よりもおしゃべりです

ユーザーのフィードバックを見てみましょう。Claude によって生成された対話テキストは、ChatGPT よりも柔軟性があるようです。

あるユーザーは「クロードはChatGPTよりもおしゃべりで、ストーリーテリングにおいてよりインタラクティブでクリエイティブだ」とメッセージを残した。

「個人的には、クロードの回答の提示方法が深くてシンプルで気に入っています」と、クロードの言語スキルと専門知識に関する Q&A に感銘を受けたあるユーザーはコメントしました。

写真

主要パートナーの 1 つである Quora も、AI チャット ツール Poe を通じてユーザーにクロードを紹介しました。Quoraの人事・コミュニケーション部門ディレクターのオータム・ベッセルマン氏は、「一般にユーザーはクロードの回答が詳細で分かりやすいと感じており、会話が普通の会話のように感じられる」と述べた。

ユーザーは、現在のすべてのモデルと同様に、Claude が不合理なコンテンツを出力することに注意する必要があります。ただし、これによってクロードとの会話が妨げられるわけではありません。寛容な心でご利用ください 体験アドレスはこちら https://claude.ai/chats 楽しい時間をお過ごしください!

おすすめ

転載: blog.csdn.net/java_cjkl/article/details/131723204