「人工知能大型モデル体験レポート2.0」を公開しました

ChatGPTの台頭は新たな生成AIブームを引き起こし、国内テクノロジー企業が相次いで導入している。不完全な統計によると、現時点で国内の大型モデルの数は数百に達しています。これらの大型モデルの中で、最高のパフォーマンス、最高のインテリジェンス、そして最強のユーザー エクスペリエンスを備えているのは誰でしょうか? 8月12日、新華社中国企業発展研究センターが発表した「人工知能大型モデル体験レポート2.0」(以下、レポート)がその答えを示した。

この報告書は、2023年6月と比較して、中国の現在の大型モデル製品が大幅に進歩していることを示しています。

具体的には、Xunfei Xinghuo は作業効率の向上に明らかな利点を持ち、Baidu Wenxin Yiyan は優れた基礎能力を持ち、Shangtang Shanshang は心の知能指数に優れたパフォーマンスを持っています。

基本能力、IQ能力、EQ能力、ツール効率向上の4大能力の総合スコアに基づくと、現在の国内主流モデルのうち、トップ5はHKUST Xunfei Xinghuo、Baidu Wenxinyiyan、SenseTime、Wisdom Spectrum ChatGLM、360 Zhinaoです。 。

その中で、HKUST Xunfei は人間の回答とわずか 1 ポイント差の 1013 点を獲得し、Baidu Wenxin Yiyan は 1010 点、Shang Tang は 983 点、Zhipu ChatGLM と 360 Zhinao はそれぞれ 983 点と 951 点を獲得しました。

結果の客観的な公平性を確保するために、トピックデザイン、ベンチマークベンチマーク(人間)、スコアリングウェイト、および専門家評価チームの観点から、「人工知能大規模モデル体験レポート」と比較したことが理解されます。 6月」がフルバージョンアップしました。

その中で、トピックの設計では、評価質問数が 300 から 500 に拡張され、トピック分類がさらに改善されました。

ベンチマークベンチマークの観点から、この評価では高等教育を受けた人間を比較対象として使用し、大規模モデルの実際の能力を評価します。

採点基準については、基礎能力、IQ能力、EQ能力、ツール効率の4つの評価軸を重視し、業界や生活の実際の価値観に基づいて評価しています。

評価チームに関しては、この評価では北京大学文化コミュニケーション研究所やその他の業界および学術の専門家がプロセス全体に参加するよう特別に招待されています。

また、今回の評価ではユーザーエクスペリエンスプロジェクトを立ち上げ、7月31日から8月4日までデータを取得し、テクノロジー企業向けに調整することを目的として、国内主流の大型モデルを対象に、人間とコンピューターのインタラクションや質問によるユーザーエクスペリエンス評価を実施した。取り組みの方向性の参考にしてください。

この報告書は、IQ評価に関しては、依然として人間がIQにおいて明らかな優位性を持っていることを示している。

研究グループは、大規模テクノロジー企業モデルを常識知識(20%)、論理的能力(50%)、専門知識(30%)の側面から考察している。

結果は、Xunfei Xinghuo と Zhipu AI-ChatGLM が優れたパフォーマンスを示し、Baidu Wenxinyiyan と Kunlun Wanwei Tiangong が良好なパフォーマンスを示しました。

研究グループは、作業効率の向上という点で、ツールの効率向上(50%)とイノベーションの創出(50%)に重点を置いた。

結果は、Xunfei Xinghuo が最も目を引くパフォーマンスを示し、Baidu Wenxinyiyan、Shangtang Shanshang、Zhipu AI-ChatGLM が好成績を収めたことを示しています。

AIと人間の間のギャップは、心の知能指数に関して最も顕著です。人間は一般に、感情を理解し処理することに関して、より強力なエッジとより柔軟な処理能力を備えています。

日常的な事柄 (35%)、駄洒落 (30%)、対人関係 (35%) の分析を通じて、テクノロジー企業の大規模モデルの中で、SenseTime、Baidu Wenxinyiyan、Lanzhou Technology Mchat、 Zhipu AI-ChatGLM と 360 Zhinao はいずれも好調でした。

おすすめ

転載: blog.csdn.net/English0523/article/details/132297540