[AI New Trends Journal #2] AI がコンピューター アルゴリズム、大規模モデルのランク付け方法、写真を数秒で QR コードに変換、ワンクリック アニメ スタイルのビデオを発明

序文

毎日たくさんのAI関連のニュースを見なければなりませんが、情報量が爆発的に増えていて、有効な情報が少ないと感じていませんか?

非常に多くの新製品や新しいツールがある中で、どれが本当に価値があり、どれが単なる衝動的なホットスポットでしょうか?

AI 製品やツールの開発に参加したい場合、どこから多くのインスピレーションやアイデアを得ることができますか?

ここでは、情報ノイズを除去し、AI のフロンティア開発をより効率的に理解できるように、AI 関連の新しいトレンド、新しいアイデア、新しいアイデア、成熟した AI 製品、ツール、モデルなどを整理します。

主に以下のようなところです。

  • AI 業界のトレンド、アイデア、アイデア
  • AI製品
  • AI開発者ツール
  • AIモデル

このジャーナルの第 2 号として、主に 2023 年 5 月から 6 月にリリースされた関連情報に焦点を当てます。視聴者および友人の皆様は、適時性にご注意ください。

アイディア

大型モデルのトレーニング用の材料が枯渇してしまうことはありますか?

以下の抜粋は、Ruan Yifeng の Science and Technology Weekly に掲載された阮氏の個人的な考えからのもので、非常に興味深いと思います。

最近のニュースでは毎日AIのニュースが流れ、その中で多くの機種が取り上げられることになります。

モデルの強さを区別するための重要な指標があります。これは、モデルに含まれるパラメーターの数を確認することです。一般に、パラメータの数が多いほど、モデルは強力になります。

GPT-2には15億のパラメータがあり、GPT-3とChatGPTには1750億のパラメータがあり、GPT-4は前世代の5倍以上と言われているこの指標を発表していません。

では、パラメーターとは何でしょうか? 私のざっくりとした理解では、パラメータはモデル予測に基づくニューラルネットワークのノード数に相当します。パラメータが多いほど、モデルが考慮する可能性が高くなり、計算量が増加し、効果が向上します。

パラメータは多ければ多いほど良いので、パラメータは無限に増えるのでしょうか?

答えは「ノー」です。パラメータはトレーニング教材によって制限されるからです。これらのパラメータを計算するには、十分なトレーニング マテリアルが必要であり、パラメータが無限に増加する場合、トレーニング マテリアルも無限に増加する必要があります。

私が見た議論の 1 つは、トレーニング教材はパラメーターの少なくとも 10 倍であるべきだというものです。たとえば、猫の写真と犬の写真を区別するモデルは、パラメータが 1,000 あると仮定して、少なくとも 10,000 枚の画像でトレーニングする必要があります。

ChatGPT には 1,750 億のパラメータがあるため、トレーニング資料は 17 億 5,000 万トークン以上であることが望ましいです。「語彙要素」とはさまざまな単語や記号のことで、小説『紅楼夢』を例にとると、文字数は788,451文字、語彙要素数は100万個となります。すると、ChatGPTの教材は『紅楼夢』の175万部に相当します。

レポートによると、ChatGPT は実際に、Wikipedia、インターネット ライブラリ、Reddit フォーラム、Twitter などからの 570 GB のトレーニング資料を使用しました。

皆さん、考えてみてください。より強力なモデルには、より多くのトレーニング マテリアルが必要です。問題は、これほど多くのマテリアルを見つけることができるかということです。そして、いつか十分なマテリアルがなくなってしまうのでしょうか?

言っておきますが、この問題について論文を書いて研究した学者が確かにいます。

過去 10 年間で、AI トレーニング データセットは世界のデータ ストックよりもはるかに速いスピードで増加しました。この傾向が続けば、データストックが枯渇することは避けられません。

この論文では 3 つの時点が示されています。

  • 2026年: 一般言語データの枯渇
  • 2030 ~ 2050: すべての言語データを使い切る
  • 2030 ~ 2060 年: すべてのビジュアル データを使い切る

言い換えれば、彼らの予測によれば、約 3 ~ 4 年後には新しいトレーニング教材を見つけるのが困難になるでしょう。遅くても 30 年後、世界中のあらゆる教材が AI のトレーニングに十分ではなくなります。

上の図は著者が提示した傾向グラフで、点線はトレーニング素材の成長率、赤線と青線はモデルの成長率の異なる予測です。2035 年以降、これら 3 つの線は合流し、曲線はますます平坦になります。その時点で、トレーニング資料が不十分なために AI モデルの開発が大幅に遅れる可能性があると著者は主張しています。もし彼の予測が正しければ、一般の考えに反して、AIの急速な発展は長くは続かないことを意味する。おそらく今が最も急速に発展している段階だが、その後は減速し始め、今世紀半ばまでに大幅に減速し、量子物理学の現状と同様の停滞期に近づくだろう。

この問題は以下のニュースでも議論されており、ここに抜粋します。

https://m.thepaper.cn/newsDetail_forward_23467960

モデル崩壊とは何ですか?

基本的に、「モデルの崩壊」は、AI の大規模モデルによって生成されたデータが後続のモデルのトレーニング セットを汚染することになるときに発生します。

「モデルの崩壊とは、モデルが自らの現実の投影に毒され、時間の経過とともに不可能な出来事を忘れ始める退行的な学習プロセスを指す」と論文には書かれている。

問題を理解するには、仮説的なシナリオの方が役立ちます。機械学習 (ML) モデルは、100 匹の猫 (青い毛皮の猫 10 匹と黄色い毛皮の猫 90 匹) の写真を含むデータセットでトレーニングされました。このモデルは、黄色い猫がより一般的であることを理解していますが、青い猫は実際よりも少し黄色が強いことも示しており、新しいデータの生成を求められると、「緑色の猫」を表すいくつかの結果が返されます。時間の経過とともに、最初の青い毛色の特徴はトレーニング期間が続くにつれて薄れ、徐々に緑から黄色に変化します。この徐々に歪みが生じ、最終的にはほとんどのデータ特徴が失われることは、「モデルの崩壊」です。

著者は、トレーニング教材が枯渇するのはまだ遠いとはいえ、トレーニングに必要な教材が指数関数的に増加し、既存の教材が追いついていない場合、実際に事前にこのボトルネックに遭遇する可能性があると考えています。

OpenAIが関数呼び出し機能をサポート

OpenAI の関数呼び出し機能については、比喩として、OpenAI に数学の質問に答えてもらう前に、催眠術に頼るしかありません (あなたは数学の専門家です)。そして答えてください。多くの場合間違っていますが、今度は OpenAI に数学の質問に答えてもらい、同時に彼に電卓を渡します(彼は電卓をいつ使うべきか知っていますが、自分では使えません)。彼がそれが数学の問題であると認識すると、彼はあなたに数字を吐き出します。そして、あなたはその電卓を使って次のことを行うことができます。自分で結果を計算し、結果と質問を投げて彼に答えます。これは、モデル プラグインと同様に、他の多くの新しいモデルにも搭載される機能です。

長所: 正確かつスマート。結果は独自の関数によって計算され、間違っていてはなりません。

ポッドキャストのメモをすばやく整理する

Ali の Tongyi Hewu は、音声コンテンツをすばやく分類してテキストに変換できます。

まずポッドキャスト オーディオをダウンロードし、そのオーディオを Tongyi Tingwu プラットフォームにインポートする必要があります。1 時間のオーディオのインポートと処理にかかる時間はわずか 5 分です。

一般的な意味のリスニングと理解処理の後、章と音声転写テキスト (異なる話者を区別できる) を自動的に生成し、テキストの中国語への翻訳をサポートします。

その後、自動的に生成されたチャプターやキーワードに従って、興味のあるコンテンツをすぐに聞いたり、興味のないコンテンツをすべてスキップしたり、いつでも右側にメモを取ることができます。

AI がコンピューター アルゴリズムを発明

https://www.ithome.com/0/698/425.htm

Googleの人工知能部門DeepMindは、AIを活用した新アルゴリズムAlphaDevを発見し、ソート速度を70%向上させたと発表した(詳細は原文を参照)。

モデル

大型モデルをランク付けするにはどうすればよいですか?

大規模モデル研究の人気により、多くのモデルが市場で戦っており、モデルランキングも多数あります。モデルを科学的にランク付けするにはどうすればよいでしょうか?

モデルのハード指標に関しては、次の側面を比較する必要があります。

  • モデルサイズ
  • トレーニングデータセット
  • トレーニングと推論の効率
  • 応用分野(シングルモーダル/マルチモーダルなど)

ハードな指標に加えて、私はインターネットで LLM について知りましたが、現時点では LLM に関する権威あるランキング機関や論文は比較的少なく、有名なものは LMSYS です。

https://chat.lmsys.org/

Large Model Systems Organization (LMSYS ORG) は、カリフォルニア大学バークレー校の学生と教員が UCSD および CMU と協力して設立したオープンな研究組織です。私たちの目標は、オープンなデータセット、モデル、システム、評価ツールを共同開発することで、誰もが大規模なモデルにアクセスできるようにすることです。私たちの仕事には、機械学習とシステムの研究が含まれます。私たちは大規模な言語モデルをトレーニングして広く利用できるようにするとともに、そのトレーニングと推論を高速化する分散システムも開発します。

中国にはCLUEのランキング表があるのですが、調べてみるとGLUEやSuperGLUEの海外モデルの評価を少し真似しているような気がするので参考にはできますが、具体的な認知度はまだわかりません。

https://github.com/CLUEbenchmark/SuperCLUELYB

テキストをオーディオバークに変換

https://github.com/suno-ai/bark

Bark は、Suno によって作成されたトランスフォーマーベースのテキストからオーディオへのモデルです。Bark は、非常にリアルな多言語音声だけでなく、音楽、背景ノイズ、単純な効果音などの他の音声も生成できます。このモデルは、笑う、ため息、泣くなどの非言語コミュニケーションも生成できます。6 月 20 日の時点で、Github には 20,000 個のスターがあります。

簡単に言えば、テキストを書き、トーンを選択し、それを機械に読み取らせることができます。しかし同時に、以下をサポートします。

  • 英語に加えて他の言語もサポートされています
  • 咳払い、笑い声、ハミングなど、テキスト以外の音声をサポートします。
  • 音楽記号「♪」を付け加えて、歌で読んでもらいます。
  • 彼に音声を与えると、模倣音を出力します。
  • ... (そして多くの能力)

サポートされている言語:

言語 スターテス
英語 (en)
ドイツ語 (デ)
スペイン語 (エス)
フランス語 (フランス)
いいえ (こんにちは)
イタリア語 (それ)
日本人(そして)
韓国語
ポーランド語 (pl)
ポルトガル語 (pt)
ロシア語 (ru)
トルコ語 (tr)
中国語、簡体字 (zh)

私自身、HuggingFaceで試してみてとても良かったのですが、最初何気なく試してみると変な合成音が入ってかなり怖かったです。安定拡散使用中に人間以外の頭を描くとか…。

生物医学分野のビッグモデル

LLaVA-Med: 生物医学領域向けの大規模な言語および視覚モデル

Microsoft は、医療分野における GPT-4 となる LLaVA-Med をリリースし、マルチモダリティをサポートしました。X線フィルムからの情報を識別することができます。

Github: https://github.com/microsoft/LLaVA-Med

北京知源研究所 LLM Aquila-7B

Aquila-7B: 北京知源研究所が開設した国産および商用LLM

中国語と英語のバイリンガル知識をサポートし、商用ライセンス契約をサポートし、国内のデータ コンプライアンス要件を満たします。33Bモデルは後日発売予定です。

Github:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Zhiyuan Research InstituteとZhipu AIは起源が同じで、現在は後者がGLMシリーズをマスターしています。現在のところ、前者は主に学術研究、後者は主に商業化を目的としてフォローアップされています。

Aquila の大規模言語モデルは GPT-3 と LLaMA のアーキテクチャ設計の利点を技術的に継承しており、高品質の中国語と英語のコーパスに基づいて 0 からトレーニングされ、データ品質管理と各種トレーニングの最適化を通じてこの方法は、より小さなデータセットとより短いトレーニング時間で他のオープンソース モデルよりも優れたパフォーマンスを実現します。また、中国語と英語のバイリンガル知識をサポートし、商用ライセンス契約をサポートし、国内のデータ コンプライアンス要件を満たす初の大規模なオープンソース言語モデルでもあります。

Aquila-7B および Aquila-33B オープン ソース モデルは、Zhiyuan の Aquila シリーズ モデル ライセンス契約を使用しており、元のコードは Apache License 2.0 に基づいています。

王小川白川LLM

Wang Xiaochuan 氏が設立した「Baichuan Intelligence」は、70 億のパラメータを備えた初の中国語と英語の LLM、baichuan-7B を正式に開始しました。国内、オープンソース、無料、商用利用可能。

Github:https://github.com/baichuan-inc/baichuan-7B

製品

財務 GPT: FinGPT

https://github.com/AI4Finance-Foundation/FinGPT

著者は中国の金融市場データと米国の金融市場データを使用し、それぞれChatGLMモデルとLLaMAモデルを使用し、Loraトレーニングと協力してFinGPTを作成しています

次のようなアプリケーションを実現できます。

  1. ロボアドバイザー
  • ChatGPT はプロのような投資アドバイスを提供できます。
  • この例では、Apple の株価はニュースを分析した ChatGPT の予測と一致して上昇しました。
  1. 定量的取引
  • ニュース、ソーシャル メディアのツイート、または会社の発表を使用して、感情的要素を構築することもできます。右側の部分は、Twitter のツイートと ChatGPT シグナルによって生成されたトランザクション結果です。データは、stocknet-datasetと呼ばれるデータセットから取得されます。
  • 写真からわかるように、ChatGPT によって生成された取引シグナルは優れており、 Twitter センチメント要因で取引するだけでも良い結果を得ることができます
  • したがって、価格要因を組み合わせることで、より良い結果を達成できます。
  1. ローコード開発
  • LLM の助けを借りてコードを書くことができます。
  • 右側は、因子やその他のコードをどのように迅速かつ効率的に開発したかを示しています。

Microsoft HuggingGPT

https://huggingface.co/spaces/microsoft/HuggingGPT

さまざまなドメインやモダリティで AI タスクを解決することは、人工知能への重要なステップです。さまざまなドメインやモダリティの問題を解決するために使用できる AI モデルは多数ありますが、複雑な AI 問題を解決することはできません。ラージ モデル (LLM) は言語の理解、生成、対話、および推論において強力な能力を示しているため、著者は、LLM が既存の AI モデルを管理して複雑な AI タスクを解決するコントローラーとして機能し、その言語が共通のインターフェイスになる可能性があると考えています。 AI がこれらのタスクを処理できるようにするためです。この考えに基づいて、著者らは、異なる AI モデルを接続して AI タスクを解決するためのフレームワークである HuggingGPT を提案します。

具体的な手順は次のとおりです。

  1. タスクの計画: ChatGPT を使用してユーザーのリクエストを取得する
  2. モデルの選択:「Hugging Face」の機能の説明に従ってモデルを選択し、選択したモデルを使用して AI タスクを実行します。
  3. タスクの実行: ステップ 2 で選択したモデルを使用して実行されたタスク。回答として要約され、ChatGPT に返されます。
  4. 回答の生成: ChatGPT を使用してすべてのモデルの推論を融合し、回答を生成してユーザーに返します。

ChatGPT の強力な言語能力と Hugging Face の豊富なモデル ライブラリを通じて、HuggingGPT は最も複雑な AI タスクを解決し、真の人工知能の基礎を築くことができます。

AI ナレッジベース

https://アルバス.org/

自分で試してみて、良いアイデアが得られました。記事を書いたり動画を作ったりするインスピレーションが湧かないときは、今すぐ頭の中でテーマを考え、AIbus に思考を発散させて、簡単なブレインストーミングを行うことができます。

彼のテキストトーンを設定できます。

1686829074982-b84b59e8-f1c2-4a0f-b767-986903e12490.png

コピーライティングの読者層を設定し、理解度に応じた文章を生成できます。

1686829064551-09775d1d-5885-4007-9bff-4503af9aa905.png

Java String の導入に関するブログを書きたいとして、キーワードとして Java String を使用すると、下の図は彼が段階的に生成したコピーであり、この図も生成されます。

今、技術的なブログを書くことはますます間違った命題であると感じるようになり、特に基礎知識に関するブログは、たとえ書いたとしても、AI モデルに餌を与えることになります。

AIビデオチェンジスタイル

オリジナルのビデオを与え、希望のスタイルを選択すると、AI が新しいスタイルのビデオを自動的に生成します。

また、公式のデモビデオでも試してみました。これは、パラメータの微調整、プロンプトワードの変更、生成されたビデオに基づいた反復をサポートできます。私が生成したエフェクトは特に理想的ではないため、まだ調整する必要があります。

道具

Vercel が AI SDK を発表

Vercel は著名なクラウド開発サービスプロバイダーであり、今回は OpenAI、LangChain、Hugging Face Inference とのコラボレーション モジュールが組み込まれており、開発者がインフラストラクチャの構築ではなく製品開発に集中できるようにすることを目的としています。予測は当たらないかもしれません。将来、Web AI 製品を作成するには Vercel と OpenAI だけで十分になるでしょう。

https://vercel.com/blog/introducing-the-vercel-ai-sdk

QRコードをSD経由で画像化

このサイトでは、安定拡散を使用して QR コードを画像に変換する方法を説明します。

これはとても意味のあることだと思います。多くの場所で、あらゆる種類の QR コードを掲載するのは非常に見苦しいです。食べ物、商品、肖像画など、加盟店のプロモーション写真を埋め込むことができれば、非常に便利で、商品化されました。

https://stable-diffusion-art.com/qr-code/

参考

Meta360 イノベーション アカデミー - AGI Eve

https://docs.meta360.vip

Github トレンド

https://github.com/trending

おすすめ

転載: blog.csdn.net/qqxx6661/article/details/131542541