Alibaba Cloud Tongyi Qianwen オープンソースの第 2 波! 大規模なビジュアル言語モデル Qwen-VL が Moda Community で開始されました

Tongyi Qianwen オープンソースの第 2 波! 8 月 25 日のニュースによると、Alibaba Cloud は、ワンストップで直接オープンソースである大規模なビジュアル言語モデルである Qwen-VL を開始しました。Qwen-VL は、Tongyi Qianwen 70 億パラメータ モデル Qwen-7B をベース言語モデルとして開発されており、画像とテキストの入力をサポートし、マルチモーダル情報理解機能を備えています。Qwen-VLは、主流のマルチモーダルタスク評価やマルチモーダルチャット機能評価において、同規模の一般モデルを大きく上回る性能を実現しています。

Qwen-VL は、中国語や英語などの多言語をサポートする Vision Language (VL) モデルであり、以前の VL モデルと比較して、基本的な画像とテキストの認識、説明、質疑応答、対話機能を備えています。視覚的な位置決めや画像内のテキストの理解なども追加されました。

マルチモダリティは、一般的な人工知能の重要な技術進化の方向性の 1 つです。業界は一般に、テキスト入力のみをサポートする単一感覚言語モデルから、テキスト、画像、音声、その他の情報入力をサポートする「フル機能の」マルチモーダル モデルへ、大規模言語の知能に大きな飛躍があると考えています。モデルも可能です。マルチモダリティにより、大規模モデルによる世界の理解が向上し、大規模モデルの使用シナリオが完全に拡張されます。

視覚は人間の最初の感覚能力であり、研究者が大型模型に与えたい最初のマルチモーダル能力でもあります。前回の M6 および OFA シリーズのマルチモーダル モデルのリリースに続き、Alibaba Cloud Tongyi Qianwen チームは、Qwen-VL をオープンソース化しました。これは、Qwen-VL に基づく大規模視覚言語モデル (Large Vision Language Model、LVLM) です。 7B. Qwen-VL とそのビジュアル AI アシスタント Qwen-VL-Chat は ModelScope コミュニティで開始されており、オープンソースで無料で商用利用可能です。

ユーザーは、Moda コミュニティからモデルを直接ダウンロードするか、Alibaba Cloud Lingji プラットフォームを介して Qwen-VL および Qwen-VL-Chat にアクセスして呼び出すことができます。Alibaba Cloud は、モデルのトレーニング、推論、展開、ファインなどのあらゆるサービスをユーザーに提供します。 -チューニングなどのディレクショナルサービス。

Qwen-VL は、知識の質問と回答、画像タイトルの生成、画像の質問と回答、ドキュメントの質問と回答、および詳細な視覚的位置決めなどのシナリオで使用できます。

例えば、中国語が分からない外国人観光客が病院に診察に行っても、該当する科への行き方が分からず、フロアマップの写真を撮り、Qwen-VLに「整形外科は何階ですか?」と尋ねます。 「耳鼻科は何階に行けばいいですか?」 Qwen-VL 外灘の写真を入力すると画像情報を元にテキストで返答する画像問答機能です。上海にいて、Qwen-VL に東方明珠塔を見つけさせます。Qwen-VL は、検出フレームを使用して、対応する建物を正確に周回できます。これがビジョン測位機能です。

Qwen-VL は、中国のオープン ドメイン測位をサポートする業界初のユニバーサル モデルです。オープン ドメインの視覚測位機能は、大型モデルの「ビジョン」の精度、つまり、画像内で探しているものを正確に見つけられるかどうかを決定します。これは、ロボット制御などの実際のアプリケーション シナリオで VL モデルを実装するために非常に重要です。

Qwen-VL は、Qwen-7B をベース言語モデルとして使用し、モデル アーキテクチャにビジュアル エンコーダーを導入します。これにより、モデルは視覚信号入力をサポートし、設計トレーニング プロセスを通じて、モデルは視覚信号をきめ細かく認識して理解できるようになります。 。Qwen-VL でサポートされる画像入力解像度は 448 です。以前は、オープンソース LVLM モデルは通常、224 解像度のみをサポートしていました。Qwen-VL に基づいて、Tongyi Qianwen チームは調整メカニズムを使用して、LLM ベースのビジュアル AI アシスタント Qwen-VL-Chat を作成しました。これにより、開発者はマルチモーダル機能を備えた会話型アプリケーションを迅速に構築できます。

マルチモーダル タスクの 4 つの主要カテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) の標準英語評価において、Qwen-VL は、同じサイズのオープンソース LVLM の中で最高の結果を達成しました。モデルのマルチモーダル対話機能をテストするために、Tongyi Qianwen チームは GPT-4 スコアリング メカニズムに基づいてテスト セット「試金石」を構築し、Qwen-VL-Chat と他のモデルで比較テストを実施しました。 -雑談 中国語と英語の両方のアライメント評価において、オープンソース LVLM の最高の結果を達成しました。

8月上旬、Alibaba CloudはTongyi Qianwenの70億パラメータの一般モデルQwen-7Bと会話モデルQwen-7B-Chatを公開し、大規模モデルのオープンソースの仲間入りを果たした中国初の大手テクノロジー企業となった。Tongyi Qianwen のオープンソース モデルは、公開されるとすぐに広く注目を集めました。その週には HuggingFace のトレンド リストに掲載され、1 か月も経たないうちに GitHub で 3,400 個以上のスターを獲得しました。モデルの累計ダウンロード数は 400,000 を超えました。

オープンソースのアドレス:

ModelScope マジック コミュニティ:

Qwen-VL     Tongyi Qianwen-VL-事前トレーニング

Qwen-VL-Chat     Tongyi Qianwen-VL-Chat

モデル体験: Tongyi Qianwen-マルチモーダルダイアログ-デモ

ハグフェイス

Qwen-VL    Qwen/Qwen-VL · ハグフェイス

Qwen-VL-Chat    Qwen/Qwen-VL-Chat · ハグフェイス

GitHub

GitHub - QwenLM/Qwen-VL: Alibaba Cloud によって提案された Qwen-VL (通义千问-VL) チャットと事前トレーニングされた大規模ビジョン言語モデルの公式リポジトリ。

技術文書のアドレス:

https://arxiv.org/abs/2308.12966

おすすめ

転載: blog.csdn.net/GZZN2019/article/details/132491824