データホエール乾物
最新: Google PaLM 2、出典: Qubits
世界中の注目が集まっており、Google の反撃が近づいています。
さて、Google検索についにAI対話機能が追加され、キューイングチャネルがオープンしました。
もちろん、これは最初のステップにすぎません。
大きなものはまだこれからです。
新しい大規模言語モデルPaLM 2 が正式に発表され、Google はいくつかのタスクにおいて GPT-4 を上回ると主張しています。
吟遊詩人の能力が大幅に更新され、列に並ぶ必要がなくなり、新しい言語がサポートされました。
Google 版の AI オフィス アシスタントも開始され、Gmail に初めて登場します。
Google Cloud はまた、業界にさらなる生成 AI サービスを提供するために、多数の基本的な大規模モデルを立ち上げました...
最新の I/O 開発者カンファレンスでの Google の大規模な展示は本当に衝撃的でした。
一部のネチズンはこう叫んだ。
AI戦争は本格化している。
次のように言う人もいます。
今ではChatGPTにお金を払ったことを後悔しています。
記者会見後、グーグルの株価は4%以上上昇した。
PaLM 2 の一部のタスクは GPT-4 を超えます
PaLM 2 が今年の I/O カンファレンスの最優先事項であることは疑いの余地がありません。これはピチャイ自身によって紹介されました。
現在の Bard と Google の 25 以上の AI 製品と機能は、基盤となるテクノロジーとして PaLM 2 によってサポートされています。
現在 Google の最も先進的な大規模モデルである PaLM 2 は、JAX を介して TPU v4 上に構築された PaLM のアップグレード バージョンである Pathways アーキテクチャに基づいています。
レポートによると、PaLM 2 は100 以上の言語でトレーニングを受けており、言語の理解、生成、翻訳の能力が向上し、常識的な推論と数理論理学の分析においても優れているとのことです。
Googleによると、PaLM 2のデータセットには多数の論文やウェブページが含まれており、それらには多くの数式が含まれているという。これらのデータでトレーニングした後、PaLM 2 は数学の問題を簡単に解決し、グラフを作成することもできます。
プログラミングの面では、PaLM 2 は、Python、JavaScript、その他の一般的に使用される言語、Prolog、Fortran、Verilog など、20 のプログラミング言語をサポートするようになりました。
今回GoogleはPaLM 2を4つの異なるサイズで発売した。
彼らはさまざまな動物を使ってスケールを表現します。一番小さいのが「ヤモリ」、一番大きいのが「ユニコーン」です。
このうち「Gecko」バージョンは非常に軽量で、オフライン状態も含めモバイルデバイス上で高速に動作し、1秒あたり20トークンを処理できます。
DeepMindの副社長はI/Oカンファレンス前の記者会見で次のように述べた。
大きいほど必ずしも良いわけではないことがわかり、さまざまなサイズのモデルを幅広く提供することにしました。
これは、より多くの製品やアプリケーションをサポートできるように PaLM 2 を微調整することが容易になることを意味します。
Google は I/O カンファレンスで、現在 25 以上の製品とアプリケーションが PaLM 2 の機能を使用していると発表しました。
その具体的な表現形式がDuet AIです。
さまざまなオフィス ソフトウェアに組み込むことができる AI アシスタントである Microsoft 365 Copilot のベンチマーク製品として理解できます。
Googleは記者会見で、Gmail、Google Docs、Google SheetsにおけるDuet AIの機能をデモした。
プロンプトに従ってメール内容を補足したり、PPT を作成したり、プロンプトに従って画像素材を生成したり、ワンクリックでフォームを生成したりすることができます。
同様に、この AI アシスタントはプログラミング支援も提供できます。Google Cloud に基づいて、コード ブロックをリアルタイムで推奨および修正し、会話形式でプログラミングの質問に答えることができ、現在 Go、JavaScript、Python、SQL をサポートしています。
さらに、Google は PaLM 2 をベースにして、プロフェッショナル分野向けのいくつかの大型モデルも発売しています。
Google の医療チームはMed-PaLM 2を構築しました。さまざまな医学的質問に答えることができ、米国医師免許試験で専門家レベルのパフォーマンスを達成した最初の大規模言語モデルと言われています。
Googleは現在、自分でX線検査をした上で診断を下すなど、マルチモーダル化を図っている。この夏の後半には、このモデルは一部の Google Cloud ユーザーに提供される予定です。
もう 1 つの特殊な大型モデルは Sec-PaLM 2 です。
これは、潜在的な悪意のあるスクリプトを分析および説明し、スクリプトの危険性を検出できる、ネットワーク セキュリティ維持のための大規模なモデルです。
次に、PaLM 2 の優れた機能を実証した後、PaLM 2 を開いて使用する方法について説明します。
Google によると、PaLM 2 は現在、PaLM API インターフェース、Firebase、Colab を通じて利用可能です。
Bard は完全にオープンで、写真や統合マップなどのアプリケーションをサポートしています
ChatGPT のベンチマークとなっている Bard は、ついにキューイングトライアルを中止し、世界 180 以上の国と地域で完全にオープンしました。
プログラマーから高く評価されたダーク モードを追加: (手動の犬の頭)
アクセス範囲の拡大に加えて、Bard は英語に加えて日本語と韓国語で直接話す機能も追加しました。中国語は次の波を待つ必要があるようです- Google は、間もなく 40 の言語バージョンを追加すると述べています。
本日より、Bard は PaLM 2 に完全に接続されるため、そのプログラミングおよび推論機能も大幅に向上し、コード生成、デバッグ、および解釈がよりプロフェッショナル (プログラマーに認められる種類) になりました。
Python を使用して、他のコードを参照するチェスの「4 ステップ キル」(学者の仲間)の動きを記述させると、便宜のために関連リンクが提供されます。
コード内の理解できない機能についてさらに質問したり、改善できるかどうか尋ねたり、すべてを 1 つのコード ブロックにまとめるように依頼したりできます。
しかし、最も驚くべきことは、大多数の開発者の要望によりワンクリックインポート機能が追加されたことです。
Bard によって生成されたコードを Colab に直接エクスポートできるようになりました。
コードに加えて、メールの下書きやフォームなど、Bard で生成したコンテンツも、Gmail、ドキュメント、スプレッドシートに直接ドラッグすることができます。
ちなみに、Bard は回答で写真もサポートするようになりました。旅行ガイドを頼むのが最も便利です。
写真で応答できることに加えて、2 匹の犬の写真をアップロードするなど、写真を直接送信することもでき、興味深いストーリーを作成するのに役立ちます。
この機能は、機械に「写真を見て話す」ことを学習させる AI アプリ、Google レンズを利用しています。
Google レンズに加えて、ドキュメント、ドライブ、Gmail、マップなどの Google 独自のアプリケーション機能も Bard に統合されています。
たとえば、Bard の回答では、Google マップを直接使用して、いくつかの大学の地理的位置を表示します。
今、Google のさまざまな製品を使いたいなら、Bard をエントリーとして使用するだけで十分な気がします。
独自のアプリケーションに加えて、Bard は今回 Adobe Firefly も持ち出しました。著作権で保護されたさまざまなクリエイティブな画像をダイアログで「便利」に使用できます。
検索リファクタリング、AI 対話に参加
何千回もの通話を経て、Google 検索はついに AI 対話機能を解放しました。
「3 歳未満の子供と犬がいる家族には、ブライス キャニオンとアーチーズ国立公園のどちらが良いですか?」
この質問については、脇に置く前に、最終的に答えを見つける前に、さまざまな小さな質問に分割し、検索エンジンにアクセスして多くの情報を分類する必要があるかもしれません。
Google では、ワンステップでそれを試せるようになりました。
図に示すように、Google 検索は単に検索された回答を掲載するのではなく、子供と犬という 2 つの要素を考慮して並べ替えられた回答を提供します。たとえば、次のように表示されます。
ブライス キャニオンには犬が入れるループが 2 つあり、ベビーカーに非常に優しいです。アーチーズ国立公園はほとんどの道路でペットの進入が禁止されています。どちらの場所もペットをリードでつなぐ必要があります。
各文には、表示するための特定の基礎リンクがあります。
さらに、さまざまな Web サイトからネチズンによって投稿された戦略へのリンクも表示されます。
何よりも、[フォローアップを求める] ボタンをクリックすると、その回答についてさらに会話的な質問をすることができます。
新しい Google 検索を使用すると、ショッピングも楽しくなります。これは、迅速かつ合理的な購入決定に役立つと主張されています。
たとえば、「5 マイルの山の通勤用の自転車」が必要な場合、まず、選択する前に考慮すべき重要な要素が次のように表示されます。
デザインを見てください。電動自転車、ロードバイク、クロスバイクは通勤に適しています。
2つ目はモーターとバッテリー、3つ目は衝撃吸収のためのサスペンションで、山道を通勤する際にはひび割れや段差の衝撃に対処する必要があります。
次に、あなたに適した車を推奨し、推奨する際に具体的な製品の説明、最新のレビュー、価格、写真などの包括的な情報を提供します。
たとえば、赤い電動自転車だけが必要な場合など、さらに質問することもでき、回答がさらに最適化されます。
この機能は、世界中から商品リストを収集し、常に更新する Google のショッピング比較製品であるショッピング グラフを利用しています。
Google が、更新された AI 検索インターフェースには引き続き広告が埋め込まれると率直に述べたことは言及しておく価値がありますが、ご安心ください。広告は専用の広告スロットにのみ表示され、検索結果に混入されることはありません。
最後に、この新機能は Google Search Labs での試用にのみ適用でき、米国でのユーザー エクスペリエンスに限定されます。
Google Cloud でリリースされた 3 つの基本モデル
今年のI/Oカンファレンスでは、Google Cloudの内容も目を引く。
AI 機能を大規模に更新した後、Google はクラウド機械学習プラットフォーム Vertex AI の 3 つの新しいモデルを発表しました。
Codey: テキストからコードへ、プログラマーのコード作成を支援
Imagen: テキストを画像に変換し、高品質の画像を生成します
Chirp: 音声からテキストへの変換、簡単なコミュニケーション
本日のプレスカンファレンスでは、コードの生成やGoogleフォトのスマート編集など、これら3モデルの機能が実際にデモされました。
さらに、テキストと画像の埋め込み API が Vertex AI で利用できるようになりました。テキストと画像データの多次元数値ベクトルへの変換と意味関係のマッピングをサポートしているため、開発者はより興味深いアプリケーションを作成できます。
もう 1 つの大きなアップデートは RLHF であり、Google はこの機能をマネージド サービスとしてエンドツーエンドの機械学習プラットフォームに初めて導入したと発表しました。利点は、企業が RLHF を組み合わせて、基本モデルを微調整するための報酬モデルを迅速にトレーニングできることです。これは、産業アプリケーションにおける大規模モデルの精度を向上させるために重要です。
このモデルに加えて、Google Cloud はトレーニング用の次世代 A3 GPU スーパーコンピューティングも開始しました。A3 仮想マシンと Nvidia H100 を組み合わせることで、Google Cloud はより優れたコンピューティング スループットと帯域幅を提供し、企業が機械学習モデルをより迅速に開発できるようになります。
これらに加えて、Googleは今回、1,799米ドル(約12,000元)の初の折りたたみスクリーン携帯電話や、AI機能(情報返信提案の提供など)にアクセスできるAndroid 14システムなどの新しいハードウェア製品も導入した。または何か)、ここでは1つずつ示しません。
総じて、第 15 回 I/O カンファレンスとして、今回 Google は本当に多くの製品を提供してくれました。
なお、ジェフ・ディーンは今回ステージで紹介されたゲストスピーカーではなく、数日前に順位が変わったばかりです。
過去の Google AI の最も代表的な経営者として、彼は AI 2.0 の波の中でどこに位置するのでしょうか?
大型モデルやAI検索の分野でGoogleが追いつけるかどうかも楽しみだ。
今回のGoogleの反撃に満足していますか?
乾物学習、3回分↓