GPT-4o がリリースされ、すぐにユーザーがレビューしました。OpenAI には誇張はありますか?

5 月 14 日の早朝、OpenAI は待望の「春の新製品発表会」で新世代のフラッグシップ世代モデル GPT-4o とデスクトップ アプリを発表し、一連の新機能をデモンストレーションしました。生放送中に、GPT-4o がユーザーに無料で提供されることが言及されましたが、編集者は朝すぐに自分のアカウントにログインしましたが、表示されませんでした。このモデルはまだグレースケールであると推測し、Krypton Gold は AI 評価ブロガーに転身し、OpenAI によって公式に推進されている GPT-4o モデルを実装しました。チャンスです!テスト!チェック!

まず、OpenAIの公式ブログでは、GPT-4oは既存のモデルに比べて視覚と音声の理解に特に優れていると述べられていました。

編集者は OpenAI のデモビデオを見て、OpenAI スタッフがビデオ会話を通じて GPT-4o と友達のように対話しており、とても感動しました。ぜひ試してみてください!

ただし、申し訳ありませんが、現在一般ユーザーはビデオ インタラクション機能を利用できません。ChatGPT では、写真とファイルをアップロードすることによってのみインタラクションできます。

さらに、公式のリアルタイム音声翻訳機能もメロンを食べる人々の注目を集め、OpenAI は携帯電話を翻訳機として使用して、一般的に使用される約 20 の言語を翻訳できると回答しました。

編集者が試してみたところ、リアルタイム音声翻訳はまだ利用できないことがわかりました... ChatGPT による音声対話の後、まだ数秒の待ち時間が発生します。

OpenAIは公式ブログでも「GPT-4oの新しいオーディオとビデオ機能を、今後数週間のうちにAPIを通じて少数の信頼できるパートナーに提供する予定だ」と述べているが、誰もがそれを楽しみにしている。この機能を体験する方法はありません。公式ブログ投稿では、Vincent の一連の写真と画像、音声、およびビデオの認識機能も投稿しました。次に、エディターがこれらの機能を紹介します。開ける!測定!コメント!公式ブログの入力を生成プロンプトとしてコピーし、参考のために独自に生成した結果と公式に生成された図を比較しました~

漫画の絵コンテ: ロボットの執筆のボトルネック

このエフェクト表示は、一方で、画像上でのコピーライティング生成の改善や、複数の画像を生成する際の文字の一貫性を維持する機能など、GPT-4o の強力な画像生成機能を反映することができます。でもその効果は…

最初の図では、セルフテストによって生成されたテキストにまだタイプミスがあり、手書きがぼやけていることがわかります。

2 番目の写真では、ロボットの手が大幅に変更されて一貫性がなく、紙も変更されています。

3枚目の写真は基本的に合格ですが、紙の文字が最初の2枚と全然違います…。

漫画の絵コンテ: 郵便配達員サリーの物語

とても良い! GPT-4o は、公式に投稿された写真よりもさらに美しい、日本の漫画スタイルの郵便配達員の美しさを生成しました。

待てよ、なぜ画風が変わったのか、日本の漫画はどうして人形化してしまったのか、遠近法が間違っているのか。

3番目の写真はスタイルが異なりますが、個々の写真とテキストはうまく対応していますが、一貫したストーリーを伝えるのは困難です...

コミックアバター

次の機能は私のお気に入りであり、GPT-4o の最高のパフォーマンスでもあります。写真をアップロードすると、コミック アバターがデザインされ、背景もカスタマイズできます。

これが元の写真です。OpenAI の技術担当者、Alex Nichol 氏です。

これは GPT-4o によって生成されたコミック アバターです。セルフテストは公式のものほど現実的ではありませんが、基本的な特性も復元します。

芸術的なフォント

公式写真よりも効果がすごい!

しかし、なぜ文字がどんどん少なくなっているのでしょうか?

3D レンダリング

見た目の美しさは十分ですが、このようなロゴでも使用できますか?

クリエイティブなタイポグラフィー

字はとても綺麗ですが、文字の正確さはまだ少し悪いです…。

キャラクターの感情認識

編集者が感情豊かな人物の写真をアップロードすると、GPT-4oはそれを非常に正確に認識し、ストーリーも作り上げました。

会議録音の認識

編集者が複数人での会議の録音をアップロードし、この録音に何人が参加しているかを尋ねたところ、GPT-4o は音声トラックの分析を通じて答えましたが、これは少々とんでもないことでした。

全体的な実際の使用感から判断すると、現在一般ユーザーが利用できる GPT-4o は、宣伝されているほど使いやすいものではありません。むしろ、あまり誠意のない性急な PR 行為にすぎません。編集者はOpenAIが公開した動画が明日の主役Googleのように編集された疑いがあることに疑いを持たないが、明らかに動画内でOpenAI社員の携帯電話に使用されているGPT-4oは私が現在使用しているGPT-4oとは異なる。それがいつ内部的にも外部的にも同じになるのか、私たちはそれを楽しみにすることしかできません。

ようこそ注目してください

「信頼できるAIの進歩」公式アカウントは、大規模なグラフ学習、因果推論、ナレッジグラフ、大規模モデル、その他の技術分野をカバーする、最新の信頼できる人工知能技術の普及とオープンソース技術の育成に専念しています。 QRコードをスキャンしてフォローし、より多くのAI情報をロック解除してください~

未知のオープンソースプロジェクトはどれくらいの収益をもたらすのでしょうか? Microsoftの中国AIチームは数百人を巻き込んでまとめて米国に向かいましたが、 Yu Chengdong氏の転職は 15年間の「恥の柱」に釘付けになったと正式に発表されました。前に、しかし今日、彼は私たちに感謝しなければなりません— Tencent QQ Video は過去の屈辱を晴らしますか? 華中科技大学のオープンソース ミラー サイトが外部アクセス向けに正式にオープン レポート: 開発者の 74% にとって Django が依然として第一候補であるZed エディターは、 有名なオープンソース企業の元従業員 によって開発されました。 ニュースを伝えた: 部下から異議を申し立てられた後、技術リーダーは激怒し無礼になり、女性従業員は解雇され、妊娠した。 Alibaba Cloud が Tongyi Qianwen 2.5 を正式リリース Microsoft が Rust Foundation に 100 万米ドルを寄付
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/7032067/blog/11121442