OpenAIは東部時間9月25日、ChatGPTをメジャーバージョンアップし、写真を見る、音を聞く、音声コンテンツの出力という3大機能を実現したと公式サイトで発表した。
OpenAIは今年3月にGPT-4モデルをリリースした際に画像閲覧機能を実証していたが、セキュリティや機能の不完全さなどの理由から公開されていない。現在では、画像の表示だけでなく音声の認識も可能であり、これは OpenAI の AGI (汎用人工知能) 実現戦略における重要な技術的リンクです。
OpenAIは、今後2週間以内にPlusとEnterpriseのユーザーに視聴、会話機能を提供する予定だと述べた。音声機能はiOSとAndroidで利用可能となり、画像認識はすべてのプラットフォームで利用できる。
音声を使用して ChatGPT と通信する
ChatGPT の新しい音声機能は、テキストと数秒のサンプル音声だけから人間のような音声を生成できるテキスト読み上げモデルを利用しています。
OpenAI はプロの声優と協力して 5 つの合成音声を作成し、また、自社開発のオープンソース音声認識システムである Whisper を使用してユーザーの音声をテキストに書き起こしました。
簡単に言うと、将来ユーザーがテキストから音声を直接生成したい場合は、ChatGPT でそれを行うことができます。
テキストを直接音声に生成できます。これは ChatGPT で実行できます。
たとえば、ChatGPT に子猫についてのテキスト ストーリーを聞いてもらい、人間の声を選択してワンクリックで文字起こしを完了させます。完了すると、ユーザーはオーディオ クリップをダウンロードできます。
ChatGPT に写真について質問することができます。
ユーザーは 1 つまたは複数の写真を ChatGPT に見せて、関連する質問をすることができます。たとえば、壊れたバーベキューグリルの写真を送って、なぜ起動できないのか尋ねたり、冷蔵庫の中の食材の写真を撮って、さまざまな調理オプションを尋ねたりします。
モバイル端末のお絵描き機能を使ってフレームに入れて質問することができます。
写真の内容の一部だけを聞きたい場合は、モバイル端末の描画機能を利用してフレームに入れて質問することができます。
ChatGPT の画像理解機能は GPT-3.5 および GPT-4 で技術的にサポートされており、理解できる画像の種類は写真、スクリーンショット、テキストを含む画像などです。
安全な AI サービスを提供
OpenAI は、安全かつ有益な AGI (Artificial General Intelligence) を構築することが目標だと述べています。そのため、ChatGPT の機能は段階的に展開されています。この利点は、OpenAI が改善を行い、セキュリティの脆弱性とリスクを徐々に改善する時間を確保できることです。
特に、新しい音声技術はリアルな合成音声を数秒で生成できるため、詐欺師にとっては便利になる可能性があるため、この安全な研究開発戦略は、音声と視覚を含む高度なモデルにとって非常に重要です。
現在、SpotifyはChatGPTの音声機能を利用して、ブロガーの音声を他の言語に自動翻訳できる音声翻訳アシスタントを開発し、ユーザーベースを拡大している。Be My Eyes は、ChatGPT の画像表示機能をアプリケーションに統合して、視覚障害者および弱視のグループにサービスを提供します。
この記事の素材は OpenAI の公式 Web サイトからのものです。侵害がある場合は、削除するために連絡してください。