(永久無料、参加するにはコードをスキャンしてください)
出典: ハート・オブ・ザ・マシン
今回はクロード2の能力強化が大波乱に加えて、それよりも重要なのは誰でも使えるということ。
今日、多くのネチズンが「ChatGPT の最強の競争相手」と呼ぶ人工知能システム Claude がメジャー バージョン アップデートを開始しました。
クロード2が正式リリースされました!
報告によると、クロード 2 のコードの作成、テキストの分析、数学的推論などの能力が強化され、より長い応答を生成できるようになりました。
さらに、ユーザーは新しいベータ サイト で無料で試すことができ、Claude 2 商用 API の価格はバージョン 1.3 と同じです。
以前の記事で何度もClaudeを紹介したこのマシンの心臓部は、OpenAIの脱退者が設立したAnthropic社によって作成されました。ChatGPT がリリースされてから 2 か月後、同社は概要の要約、検索、オーサリング支援、Q&A、コーディングなどのタスクを実行できる Claude を迅速に開発しました。
その後もアップグレードを続け、5 月には 100K コンテキスト ウィンドウを通じて、Claude のコンテキスト ウィンドウを 9,000 トークンから 100,000 トークンに拡張しました。
ついにメジャーバージョンアップが始まりました。Anthropic は、Claude 2 はユーザーからの以前のフィードバックに基づいて改良されたと述べました。
次に、能力のさまざまな側面の詳細を見てみましょう。
Claude 2 はどのような点で強化されましたか?
全体的に、Claude 2 は次の能力の向上に重点を置いています。
Anthropic はコーディング アシスタントとしての Claude の機能の向上に取り組み、Claude 2 ではコーディング ベンチマークとヒューマン フィードバック評価のパフォーマンスが大幅に向上しました。
ロングコンテキスト モデルは、長いドキュメント、少数のプロンプト、および複雑な命令と仕様を含む制御を処理する場合に特に役立ちます。クロードのコンテキスト ウィンドウは 9,000 トークンから 100,000 トークンに拡張されました (クロード 2 は 200,000 トークンに拡張されましたが、現在のリリースでは 100,000 トークンのみサポートされます)。
以前のモデルはかなり短い応答を書くようにトレーニングされていましたが、多くのユーザーがより長い出力を要求しました。クロード 2 は、最大 4000 トークン (約 3000 単語に相当) の一貫したドキュメントを生成するようにトレーニングされています。
Claude は通常、長く複雑な自然言語文書を構造化データ形式に変換するために使用されます。Claude 2 は、JSON、XML、YAML、Code、Markdown 形式で正しい出力を生成できるようにトレーニングを受けています。
クロードのトレーニング データは依然として主に英語ですが、クロード 2 のトレーニング データにおける非英語データの割合は大幅に増加しています。
クロード 2 のトレーニング データには、2022 年と 2023 年初頭の更新データが含まれています。これは、最近の出来事を認識していることを意味しますが、それでも混乱する可能性があります。
研究では、クロード2の性能レベルをテストするために、アライメント評価と能力評価の2つの部分を含む一連の評価実験を実施しました。
モデルの整合性の観点から、この研究では、大規模モデルの 3 つの主要な要件 (指示に従って有用なコンテンツを生成する (有用性)、無害なコンテンツを生成する (無害性)、および正確かつ本物のコンテンツを生成する (正直さ) を具体的に評価しました)。
人間によるフィードバック評価
大規模なモデルは、生成プロセス中に人間が提供する指示に従う必要があります。これにより、生成された結果が要件を満たし、実用的になります。この点を目指して、本研究では、Claude 2、Claude 1.3、Claude Instant 1.1 について実験的な評価を実施し、クラシック ゲーム レベルの評価指標である Elo スコアを使用しました。いくつかのモデルの評価結果を以下の図 1 に示します。
バイアス評価
QA のバイアス ベンチマーク (BBQ) は、群衆に対するモデルのバイアスを評価するために一般的に使用されるベンチマークです。この研究は BBQ ベンチマークで実験的に評価され、いくつかのモデルの実験結果が以下の図 2 に示されています。
以下の図 3 は、曖昧さ回避の観点から、BBQ ベンチマークの質問に答えるいくつかのモデルの精度を示しています。クロード モデルは一部の偏った質問への回答を拒否するため、クロード モデルの精度は役立つのみのモデルよりも低くなることに注意してください。
事実の評価
大規模なモデルは誤った混乱を招く情報を生成する場合があるため、モデルが生成する内容の事実性をテストすることが重要です。TruthfulQA は、敵対的環境における言語モデル出力の精度と信頼性を評価するためのベンチマークです。いくつかのモデルのテスト結果を以下の図 4 に示します。
一般に、HHH (有用性、無害性、誠実さ) 評価におけるクロード 2 の全体的なパフォーマンスは、以下の図 6 に示されています。
本研究では、能力評価として、クロード2を対象に、多言語翻訳タスク、コンテキストウィンドウ、標準ベンチマーク評価、資格レベル試験の評価実験を実施します。
多言語翻訳
この研究では、低リソース言語を含む Claude 2 の多言語翻訳能力を評価するために、200 以上の言語をカバーする翻訳ベンチマークである Flores 200 を選択しました。Claude 2、Claude 1.3、および Claude Instant 1.1 の評価結果を以下の図 7 に示します。
コンテキストウィンドウ
今年の初めに、研究チームはクロードのコンテキスト ウィンドウを 9,000 トークンから 100,000 トークンに拡張しましたが、今回のクロード 2 ではコンテキスト ウィンドウをさらに 200,000 トークン (約 150,000 単語に相当) に拡張しました。
クロード 2 が実際に完全なコンテキストを使用することを証明するために、調査では、以下の図 8 に示すように、1,000 を超える長いドキュメントを平均して各トークン位置の損失を測定しました。
ただし、研究チームは、現在リリースされているバージョンは 100,000 トークンのコンテキスト ウィンドウのみをサポートしており、完全なコンテキスト ウィンドウは製品に統合されると述べています。
標準ベンチマーク評価
この研究では、Claude 2、Claude Instant 1.1、および Claude 1.3 を、Python 関数合成の Codex HumanEval、小学校の数学の問題を解くための GSM8k、学際的な質問応答の MMLU、物語の質問と回答の QUALITY、ARC-Challenge などのいくつかの標準ベンチマークで評価しました。科学問題は「TriviaQA」、読解力は「TriviaQA」、中学生レベルの読解力と推理力は「RACE-H」で、具体的な評価結果は下表のとおりです。
Claude 2 のコード生成能力が大幅に向上し、Codex HumanEval のスコアが 56% から 71.2% に増加したことは注目に値します。
資格レベル試験
この研究では、いくつかの一般的な資格レベルの試験問題でクロード 2 の実践能力もテストされました。
まず、クロード 2 は司法試験の多肢選択テストで 76.5 パーセントの得点を獲得し、クロード 1.3 の 73.0 パーセントよりも高くなっています。
第二に、研究チームはクロード 2 の習熟度レベルも大学院記録試験 (GRE) でテストしました。クロード 2 は GRE の読み書きテストで 90% 以上の得点を獲得し、GRE を受験した受験者の定量的推論スコアと同じでした。レベル。
最後に、この研究では、米国医師免許試験 (USMLE) の問題についてクロード 2 もテストしました。
Anthropic によれば、AI ライティング プラットフォーム Jasper やコード ナビゲーション ツール Sourcegraph などの企業が、Claude 2 を自社の業務に組み込み始めているという。
公式事例とトライアル体験
まず、Anthropic が提供する公式の例をいくつか見てみましょう。
1.コーディング能力: 静的マップにインタラクティブなデータを追加します。
2.テキスト処理能力: 文書を要約し、表を出力します。ここで、Claude 2 は 100K トークンのテキスト処理機能を使用し、プロンプト ウィンドウに数百ページのドキュメントをアップロードできます。
上記に加えて、マシンの心臓部では、テキスト分析、数学的推論、コードの作成の例もいくつか試しました。
トライアルアドレス: http://claude.ai
まず、Claude 2 が「Claude 2 Technical Documentation」の要点をディレクトリ形式で要約してみます。この要約は非常に詳細であり、この記事を書くのに役立ちます。
さらに2 つの数学的推論の問題。クロード 2 は 1 回のパスで解決できます。
最後に、いくつかのコードの質問をテストし、コードを生成、確認して完成させます。
ただし、Claude 2 には画像を生成するマルチモーダル機能がまだありません。
最後に、私たちのメンバーグループをお勧めします。現在、ベンチャーキャピタルのエンジェル投資家、ヘッドハンターの人事担当者、Douyin big V、感情ブロガー、弁護士、心理カウンセラー、医療販売員、不動産、保険、ピアノ教師、オペレーター、ビジネスコンサルティング、越境電子商取引、建設、インターネット業界のデータアナリスト、バックエンド開発、Pythonテストなどの業界の学生が参加します。
WeChat コンサルテーション: coder_v5 (意図を必ずメモしてください)
コストパフォーマンスに優れたプラネット
現在、地球上には 430 人以上の人々がおり、コラムの内容には 41 件のチートが更新されており、毎日、惑星が自分の経験を公開しています。わずか 1 ドルで学ぶことができます。
Python: Python 入門コース 44 レッスン + Django コラム 9 レッスン + 興味深い実践事例
chatgpt: エントリー、上級、楽しいオフィス、上級コース
AI ペイント: Mj の基本、入門、上級、Xiaohongshu ゲームプレイ
Python、ChatGPT、AI ペイントを学びたい、そして少しお金をかけたいという方は、ぜひ Planet メンバー グループにご参加ください。たくさんの素晴らしい人々と出会うことができます。
ChatGPT 独立アカウントを送信するために参加します
ChatGPT の高度なビデオ コースも送信します
元の価格は 99 ですが、現在はプラネット メンバーを無料で送信できます
WeChatを長押ししてコンテンツを試してください
3日以内にご満足いただけない場合は、直接返金できます。!!
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|