主催 | 鄭麗源
出品 | CSDN(ID:CSDNnews)
今朝早く、OpenAI が突然大きな動きを見せました。「ChatGPT は見たり、聞いたり、話したりできるようになりました!」
OpenAI 公式 Web サイトの発表によると、ChatGPT は新しい音声および画像機能をリリースする予定であり、今後 2 週間以内に Plus および Enterprise ユーザー向けにリリースされる予定です。音声機能は iOS と Android (設定でオプトイン) でも利用でき、画像機能はすべてのプラットフォームで利用できます。
新しい音声および画像機能はどのように使用すればよいですか?
「音声と画像の機能により、生活の中で ChatGPT を使用する方法がさらに広がります。」 新しい機能の有用性を証明するために、OpenAI はいくつかの例を挙げました。
旅行中にランドマークの写真を撮り、その興味深い特徴について ChatGPT とチャットします。
家にいるときに冷蔵庫と食料庫の写真を撮り、ChatGPT に夕食のレシピを考えてもらいましょう。
夕食後は、お子様の数学の問題を手伝って、写真を撮って質問に丸を付けます。ChatGPT がヒントを与えて、お子様が問題を解くのを手伝ってください。
(1) ChatGPTに音声で話しかける
レポートによると、ChatGPT の新しい音声機能は、テキストと数秒の音声サンプルのみから「人間のような音声」を生成できる新しいテキスト読み上げモデルによってサポートされているとのことです。サウンドは5種類。同時に、OpenAI はオープンソース音声認識システム Whisper を使用して音声をテキストに書き起こしました。
したがって、全体として、ChatGPT の音声機能は携帯電話の音声アシスタントに似ており、ユーザーがボタンをクリックして話すと、ChatGPT が自動的にテキストに変換し、対応する回答を生成して音声に変換します。 。
音声機能を使用したい場合は、携帯電話のChatGPTアプリの「設定」にある「新機能」で「音声会話」を選択した後、画面右上のヘッドセットボタンをクリックして選択してください。 5つの声から好きな声を選んで会話を交わす。
さらに、ChatGPT は既存のテキストを対応する音声に変換することもサポートしており、ユーザーはこの音声をダウンロードしたり、速度を調整したりすることができます。
(2) チャット内で画像を使ってChatGPTの質問をする
ChatGPT の画像機能を使用したい場合は、写真ボタンをクリックして写真を撮るか、ローカル写真を選択します (iOS または Android システムを使用している場合は、プラス ボタンをクリックして選択できます)。
OpenAIによると、新しい画像機能はマルチモーダルGPT-3.5およびGPT-4モデルでサポートされており、写真、スクリーンショット、テキストや画像を含む文書など、さまざまな画像に言語推論機能を適用できるという。この機能が起動されると、ユーザーは質問中に 1 つまたは複数の写真を ChatGPT に見せることができます。ChatGPT に画像の特定の部分に注目してもらいたい場合は、アプリの描画ツールを使用して注釈を付けることもできます。
OpenAI の目標: 「安全で有益な AGI を構築する」
しかし、OpenAIがその目標は「安全で有益なAGIを構築する」ことであると述べているように、ChatGPTはまた、音声と視覚の高度なモデルに関して「これらの機能は新たなリスクももたらす」と懸念を表明した。
音声機能に関しては、この技術は数秒間の実際の音声からリアルな合成音声を生成でき、多くのクリエイティブでアクセスしやすいアプリケーションへの扉を開く一方で、悪意のある攻撃者が公人になりすましたり詐欺を行うために使用する可能性もあります。
これを念頭に置いて、OpenAI はこのテクノロジーを音声チャットにのみ使用し、音声サンプルは声優と直接協力して作成されます。しかし、OpenAIは、Spotifyがこの技術を音声翻訳機能に使用していることを明らかにした。これは、ポッドキャストのコンテンツを他の言語に翻訳した後、ポッドキャスト自身の音声を合成してナレーションを行い、それによってポッドキャストの影響力を拡大することを意味する。
同様に、ビジョン機能は日常生活で頻繁に使用されるため、OpenAI は、広範囲に展開する前に、過激主義や科学的能力などの分野でリスク研究者やテスターとモデルをテストし、「責任ある使用」を可能にするいくつかの重要な詳細で一貫性を保てるかどうかを確認しました。
OpenAI は、視覚障害者向けの無料モバイル アプリである Be My Eyes と協力して、その用途と制限を理解し、アプリから直接メソッドを借用しました。
OpenAIはまた、ChatGPTの分析と人々に関する直接的な発言を大幅に制限する技術的措置を講じている - 「ChatGPTは必ずしも正確であるとは限らないため、これらのシステムは個人のプライバシーを尊重する必要がある。」
これに加えて、OpenAI は ChatGPT の背後にあるモデルの制限について非常にオープンかつ透明性を保ってきたため、ユーザーが専門的な研究分野、特に適切な検証が行われていないリスクの高いユースケースで ChatGPT に依存することを思いとどまらせています。さらに、ChatGPT の新しい音声機能の背後では、そのモデルは英語テキストの転写においてより熟練しているため、OpenAI は次のように注意しています。「しかし、他のいくつかの言語、特にローマ字以外の言語では、(ChatGPT) のパフォーマンスは低く、英語以外のユーザーは、この目的で ChatGPT を使用しないことをお勧めします。」
ネットユーザーらは「今回のデモの効果はあまり良くないのでは?」と不満を漏らした。
ChatGPT のこの大幅なアップグレードは多くのネチズンの注目を集めましたが、OpenAI の自信とは異なり、多くのネチズンは、発表のデモンストレーション効果は「あまり良くない」ように見えると指摘しました。
「音声機能は問題ないようですが、デモは私にはあまり良く見えませんでした。質問してから応答するまでに数秒の遅延があり、ChatGPT が他のすべてのくだらない音声アシスタントのように感じられたからです。」
「はい、私が話し終えたらすぐに応答するのは当然ですし、途中で中断することもできます。明示的な呼び出し/応答チェーンに基づいて対話を構築する方法について考えたくありません。また、常に話すことに細心の注意を払いたくもありません。」
「今必要とされているのは、音声対話の交代データセットとモデルだと思いますが、これも現在の音声認識システムには欠けています。真に自然な音声対話システムは、これらのモデルにまったく新しいユーザーとモデルのセットを解放する必要があります。」ユースケース。OpenAI のような企業がそのようなモデルを構築するのはそれほど難しいことではありません。」
同時に、一部のユーザーは、ChatGPT のこの新しく開始された機能により、ChatGPT に基づいて同様の機能を開発する多くのスタートアップが「潰される」可能性があると考えています。
「この発表は、ChatGPT 上でマルチモダリティを実行しようとしている多くのスタートアップを潰したようです。私はすでに、「Alexa/Siri/Google Home」の代替案、「Google 画像検索」の代替案、さらには写真を撮るスタートアップ経由で見ることができます。 AI の問題を解決することも失敗する運命にあります。」
OpenAI が示したデモンストレーション結果を踏まえて、ChatGPT の新しい音声と画像機能についてどう思いますか?
参考リンク:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
https://news.ycombinator.com/item?id=37642335