Wenxin Yiyan と Xunfei Xinghuo の総合比較テスト: (1) 言語理解能力

目次

01 序文

02 テスト内容の設計

03 複雑な意味テスト

04 記事の感情認識

05 記事の概要

06 記事要素抽出

07 まとめ


01 序文

        Wenxin Yiyan と Xunfei Xinghuo は、現在中国で公式パブリック ベータ テストが行​​われている 2 つの主要な言語モデルです。多くの企業が自社製品をリリースしたと主張していますが、大規模な公開テストは行われていません。これら 2 つの製品は現在比較的入手しやすくなっています。Wenxin さんは発表後に申請し、確認メッセージが届くまで約 1 週間待ちましたが、Xunfei Xinghuo さんは翌日に確認メッセージを受け取りました。

        より多くの比較結果を提供するために、国産シェルの ChatGPT3.5-turbo バージョンの結果を示します。これは、その信頼性がわからないため、比較のみを目的としています。リソースを持っている友人は、chatGPT3.5 および GPT4 の結果のテストに協力してくれることを歓迎します。

        なぜ事件になるのかというと、 [ネットワーク セキュリティ] インターネットを「オーバーパス」するのは違法です。

(1)心からの一言

        Wenxin Yiyan (英語名: ERNIE Bot) は、Baidu の新世代の知識強化型大規模言語モデルであり、Wenxin 大規模モデル ファミリーの新しいメンバーであり、人々と対話し、質問に答え、作成を支援し、支援することができます。人々は効率的かつ便利に情報、知識、インスピレーションを得ることができます。Wenxin Yiyan は知識強化のための大規模言語モデルであり、フライング パドル深層学習プラットフォームと Wenxin 知識強化大規模モデルに基づいて、大量のデータと大規模な知識を継続的に統合して学習し、次のような技術的特徴を備えています。知識の強化、検索の強化、対話の強化。

2023年3月20日、Baiduの公式WeChatニュースWenxin Yiyanクラウドサービスが3月27日に開始されます。

Wenxin Yiyan 記者会見 (ネットワーク侵入と削除の写真)

(2)シュンフェイ・スパーク

        Xunfei Xinghuo は、iFLYTEK が発表した新世代の認知知能モデルで、クロスドメインの知識と言語理解能力を備え、自然な対話に基づいてタスクを理解して実行できます。膨大なデータと大規模なナレッジをもとに進化を続け、提案・企画から問題解決までの全プロセスのクローズドループを実現します。

        2023 年 5 月 6 日、iFLYTEK は Spark Cognitive Big Model を正式にリリースしました。これには、テキスト生成、言語理解、知識の質問と回答、論理的推論、数学的能力、コーディング能力、マルチモーダル能力という 7 つのコア機能があります。

Xunfei Sparkの機能紹介(ネットワーク侵入と削除の様子)

(3)試験内容

        大規模な言語モデルの比較テストは比較的複雑ですが、このテストでは、記事「AI チャット ロボット戦闘 ChatGPT / GPT-4 / Wenxin Yiyan のパフォーマンス比較テスト」の方法を参考にしました。

        1. 言語理解

        2. タスクが完了しました

        3. 常識的な質問

        4. 論理数学

        5. コード能力

        6.専門分野

        これら 6 つの側面の内容は、2 つの製品のリリース時に導入された機能と基本的に同じであり、AI チャットボットの一般的なアプリケーション シナリオをカバーしています。AnTuTu にはスコアリングのメカニズムもあります。ここではスコアリングせず、結果を紹介します。 、自分の判断を信じてください。

        テストの最初の側面は本日から開始され、テストの進行状況に応じて段階的に公開されます。クリックしてフォローし、お見逃しなく。

02 テスト内容の設計

        言語理解は、大規模な言語モデルの基礎となる可能性があります。ユーザーの入力が正しく理解できるかどうかで、フォローアップ作業が完了できるかどうかが決まります。AnTuTuのテスト内容によると、次の主な方向に分けることができます。

        1. 文章の生成: 短いリクエストを与えられ、一定量のテキストを生成します。

        2. 読解:与えられた文章に基づいて質問に答えます。

        3. 複雑な意味論の理解:ダジャレ、レトリック、中国語の単語の分割、感情、なぞなぞなど。

        4. 概要の生成: 特定の長さを指定すると、エンジンによって概要が生成されます。

        5. 情報抽出: 複合テキスト内の重要な情報の抽出。

        6.多段理解力:3~10回程度の対話で、対話内容の話題が飛び、あまり複雑な推論や常識を問う問題は出題されません。

        ここで私は少し調整を加え、テストのためにライティングの制作を後続のタスクの完了に組み込み、主に次のようないくつかのプロジェクトを統合します。

        1. AI が理解できるかどうかを確認するための、複雑な意味テスト、つまり非常に複雑な文。

        2. 記事の感情認識。

        3. 記事の概要。

        4. 記事要素の抽出。主に記事内のデータを抽出します。

03 複雑な意味テスト

        このテストは前菜と言えます。これは大規模な言語モデルの主要な適用シナリオではないと常々感じているからですが、非常に興味深いものでもあります。

使用例 1:

        次の文の説明によると、

        明明は明らかに彼を無駄に好きですが、明明は何も言いません。

        聞いてもいいですか:誰が誰を好きですか?

一言で言えば:

根据句子的描述,无法确定是谁喜欢谁。可能有多个人喜欢同一个人,
但是由于某种原因,他们没有表达出来,或者他们表达的方式不同。
需要进一步的了解和调查才能确定。

シュンフェイ・スパーク:

根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指
的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一
个人。所以,是"明明"喜欢"他"。

チャットGPT:

根据句子描述,似乎是 "明明明明明白白白" 喜欢 "他",但明明就是不说出口。
由于没有进一步的背景或上下文,因此无法确定具体是哪些人或生物。
根据上述回答,三个基本全错。

使用例 2:

        以下の説明によると、

        一番上の叔父は二番目の叔父の家に三番目の叔父を探しに行き、四番目の叔父が六番目の叔父の家の五番目の叔父のキャビネットから100元を盗んだと言いました。

        お聞きしたいのですが: 1. 泥棒は誰ですか? 2. そのお金はもともと誰のものでしたか?

一言で言えば:

根据这个描述,可能无法确定小偷是谁。尽管四舅被指控偷了钱,但是我们并不知道
他是否真的偷了钱,或者他只是被误导了。同样,我们也不知道五舅或者七舅是否真
的有钱被偷。因此,我们需要更多的信息才能确定小偷的身份。
关于钱本来是谁的,根据句子中的描述,四舅是在别人的家中偷走了钱,因此这些钱
本来应该是属于这个家庭的。但是,我们不知道这个家庭是谁,也不知道这些钱被放
在了哪个柜子里。因此,我们无法确定这些钱本来是谁的。

シュンフェイ・スパーク:

这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:
1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。
所以,四舅是小偷。
2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属
于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并
没有归还给七舅。

チャットGPT

大舅到二舅家找三舅说四舅偷了钱。
钱是被放在七舅的柜子里。根据以上信息,无法确定具体是哪一个人偷了钱。
至于钱最初是属于谁的,也不清楚。需要更多的上下文信息和背景来做出进一步的判断。
根据上述回答,三个都大对了第一问,第二问没有答出来。降低一点难度。

使用例 3:

        次の説明によると、一番上の叔父が三番目の叔父を探しに二番目の叔父の家に行き、四番目の叔父が六番目の叔父の家の五番目の叔父のキャビネットから100元を盗んだと言いました。お聞きしたいのですが: 1. 泥棒は誰ですか? 2. そのお金はもともと誰のものでしたか?

一言で言えば:

根据描述,大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
由此可知,1、四舅是小偷;2、钱本来就是六舅的。

シュンフェイ・スパーク:

1、四舅是小偷。
2、钱本来是五舅的。

チャットGPT:

根据描述,可以知道以下几点:
大舅到二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
钱最初是属于五舅的。基于以上信息,可以得出以下推论:
四舅是小偷。
钱最初是属于五舅的。
显然,文心一言错了,讯飞星火和chatGPT对了。

コメント:

今回のテストを見る限り、Wenxinyiyan の方が少し弱い気がしますが、Xunfei Xinghuo と ChatGPT は基本的に同じですが、その後のテストでも Wenxinyiyan はコマンドの理解に誤りが多いように感じます。

04 記事の感情認識

朝、揺れる葦の茎の上に見知らぬ鳥たちが立ち、頭を高く上げ、羽ばたき、競い合うような感動的な声を披露していた清々しい湿り気の中に漂う余韻は、絶え間なく吹く風のように丸まっていきました。 。揺れるピンクの蓮、花びらを落としたばかりの柔らかい黄色の蓮の莢。香りが溢れ、赤羽や青頭のトンボがたくさん飛んでは止まり、いつも離れようとしません。

聞いてもいいですか、著者はこの文章を書いたときに何を感じたと思いますか?

ウェンシンイーヤン

テキストの説明によると、この一節は生命力とエネルギーに満ちた、美しく平和な朝を描いています。著者は、未知の鳥、緑の葦の波、蓮のさや、香り、トンボなどの要素を描くことによって、調和のとれた自然で平和な雰囲気を伝えています。したがって、作者がこの文章を書いたとき、彼は自然の美しさに対する喜び、感謝、楽しみの気分を表現したのかもしれません。

シュンフェイ・スパーク:

著者の描写の詳細から判断すると、著者の気分が楽しくて楽しいことがわかります。彼は興奮して早朝の自然の風景、特に未知の鳥や蓮のパフォーマンスを賞賛し、さらに嬉しく満足しました。

チャットGPT

この記述によれば、作者がとても新鮮で楽しい気分であることが伝わってきます。著者は詳細な描写を通じて、活気と活力に満ちた朝の自然の風景を生き生きと提示します。未知の鳥のさえずり、蓮の莢の香り、そして赤い羽の青い頭のトンボの舞い上がる音はすべて、著者に喜びと感嘆をもたらしました。

コメント:

質問が比較的簡単なせいもあるかもしれませんが、個人的にはこの3つは同等だと思います。

05 記事の概要

使用例 1:

北京時間5月9日、NBAプレーオフ第2ラウンドでヒートがニックスを109対101で破り、ヒートが3勝1敗とリードした。ヒート(3勝1敗):バトラー27得点6リバウンド10アシスト、アデバヨール23得点13リバウンド、ストルース16得点6リバウンド、ラウリー15得点5リバウンド4アシスト、マーティン10得点5リバウンド。ニックス (1-3): ブランソンは 32 得点、4 リバウンド、11 アシスト、バレットは 24 得点、4 リバウンド、3 アシスト、ランダルは第 1 クォーターで 20 得点、9 リバウンド、3 アシストを記録し、スコアは同点でした。第1クォーター終了時点でヒートはニックスを1点リードしていた。第2Qに入ると、ニックスの調子が上がらず、ヒートが点差を広げるクライマックスのプレーを見せた。ハーフタイム時点で、ヒートはニックスを8点リードしていた。第3Qに入ると両者の対決が始まり、ニックスが一時2点差まで追い上げると、ヒートが再びスコアを先制する小盛り上がりを見せた。最終クォーターに入ってもニックスは点を追う展開が続いたが、ファウルが多すぎてリズムが乱れ、ランダルが6ファウルで退場したことでニックスは完全に点を追う望みを失った。結局、ヒートはニックスを109対101で破った。1. この試合で誰が最も多くの得点を獲得し、最も多くのリバウンドをとったのか聞いてもいいですか?

一言で言えば:

この試合ではヒートのバトラーが最多得点、ラウリーが最多リバウンドを記録した。

シュンフェイ・スパーク:

この試合の最高得点者はニックスのブランソンで32得点、最高リバウンド者はヒートのアデバヨールで23得点13リバウンドだった。

チャットGPT:

提供していただいた試合結果によると、ヒートのバトラーが 27 得点で試合最多得点選手となり、ヒートのアデバヨールが 13 リバウンドで試合最多リバウンド選手となりました。

        上記の回答によると、Xunfei Xinghuo はすべて正解、Wen Xin はすべて不正解、chatGPT は半分正解でした。

使用例 2

        1994年に「コンピュータ情報システムセキュリティ保護条例」により、国家がコンピュータ情報システムセキュリティ製品の販売についてライセンス制を実施することが規定され、公安部は1997年から製品販売ライセンスの行政認可を実施している。2008年、旧品質監督検査検疫総局と国家認証認定局は「一部情報セキュリティ製品の強制認証実施に関する公告」を発表し、13種類の情報セキュリティ製品が認証対象に含まれた。強制認証管理; 情報セキュリティ製品の強制認証の実施要件の調整に関する発表、政府調達法の範囲内で実施される情報セキュリティ製品の強制認証の要件を調整します。2010年、財政部、工業情報化部、旧品質監督検査検疫総局、国家認証認定局は共同で「情報セキュリティ製品の政府調達の実施に関する通知」を発表した。 」では、金融資金を利用して情報セキュリティ製品を購入する人は、国家認定製品を購入する必要があることを改めて明確にしました。これら2つの制度は、ネットワークセキュリティ製品の管理を規定する上で重要な役割を果たしてきましたが、管理内容が重複しており、ある程度認定や試験を繰り返すケースもあります。

        2017年6月に施行された「ネットワークセキュリティ法」では、「主要なネットワーク機器および特殊なネットワークセキュリティ製品は、資格のある機関のセキュリティ認証に合格するか、必須要件に基づくセキュリティテストで要件を満たした後にのみ販売しなければならない」と明記されました。国家ネットワーク情報部門は、国務院の関連部門と協力して、主要なネットワーク機器と特殊なネットワーク セキュリティ製品のカタログを作成および発行し、セキュリティ認証とセキュリティ テストの相互承認を促進します。結果を確認して、認証とテストの繰り返しを避けることができます。「ネットワークセキュリティ法」の関連規定を施行するため、中国サイバースペース局は工業情報化部、公安部、国家認証認定局と協力して、ネットワークセキュリティ法に関するカタログを順次発行している。主要なネットワーク機器とネットワークセキュリティの特殊製品を対象とし、各機関がセキュリティ認証とセキュリティテストの業務を行うことを決定し、認証とテストの結果の統一的な公開プロセスを明確にし、強制的な国家標準「情報セキュリティ技術およびネットワークセキュリティ特別な技術要件」を策定する製品の安全性」。

        今回、5つの部門は共同で、ネットワークセキュリティ製品の認証および試験制度を統一し、「コンピュータ情報システムセキュリティ製品の販売ライセンス」の発行を中止し、情報セキュリティ製品に対する認証必須要件の導入を中止する「発表」を発表した。この法律は、セキュリティ認証とセキュリティテスト結果の相互承認を促進するための重要な措置であり、ネットワークセキュリティ製品のセキュリティ要件を統一し、製品の全体的なセキュリティ保護機能を向上させ、ネットワークセキュリティ企業の負担を軽減します。 、良好な産業発展環境を創造し、強力なネットワークセキュリティ産業を発展させ、国家のネットワークセキュリティ能力を強化することは非常に重要です。

        質問: 上記の一節の主な内容は何ですか?

一言で言えば:

上の段落では主に、「ネットワークセキュリティ法」の施行後、国家がネットワークセキュリティ管理を強化し、「ネットワークセキュリティ法」の関連規定を施行し、主要なネットワーク機器とネットワークセキュリティのための特殊製品の政府調達を実施し、ネットワークセキュリティ製品のセキュリティ要件を統一し、製品の全体的なセキュリティ保護機能を向上させ、ネットワークセキュリティ企業の負担を軽減し、産業発展のための良好な環境を構築し、ネットワークセキュリティ製品のセキュリティ要件を統一するための相互承認およびその他の措置。強力なネットワーク セキュリティ産業を強化し、国家ネットワーク セキュリティ機能を強化します。

シュンフェイ・スパーク:

上記文章では主に、ライセンス制度、強制認証、政府調達要件など、ネットワークセキュリティ製品管理における中国の発展の歴史を紹介しています。続いて、2017年に施行された「ネットワークセキュリティ法」におけるネットワークセキュリティ製品の管理に関する規定と、5部門の共同発表によるネットワークセキュリティ特殊製品の認証・試験制度の重要施策に焦点を当てます。 。この発表は、ネットワーク セキュリティ製品のセキュリティ要件を統一し、企業の負担を軽減し、産業の発展を促進し、国家のネットワーク セキュリティ能力を向上させることを目的としています。

チャットGPT:

ここでは主に、ネットワークセキュリティ製品の認証・試験制度の一元化と独自制度の停止対策について紹介します。また、関連する規制や基準の導入、サイバーセキュリティ業界や国家のサイバーセキュリティ能力に対するこれらの措置の重要性についても言及した。

聞き返します:

記事の内容を詳しく紹介してください

答え:

この経過は、歴史的な観点から、現在のネットワーク セキュリティ製品の認証およびテスト システムの統合に徐々につながります。1994年から現在まで、当初のコンピュータ情報システム安全保護規定における販売ライセンス制度の導入と、2008年の認証管理義務の範囲の拡大を指します。しかし、これらのシステムはある程度重複しており、多くの問題を引き起こしています。そのため、2017年に「ネットワークセキュリティ法」により、主要なネットワーク機器および特別なネットワークセキュリティ製品は、関連する国家標準の必須規定に準拠しなければならず、安全認証または安全試験に合格した場合にのみ販売または使用できることが明確に規定されました。資格のある機関の。本日、5つの部門は共同で、ネットワークセキュリティ特別製品の認証およびテストシステムを統一し、以前のポリシー要件を停止するための「発表」を発表しました。これらの部門はまた、サイバーセキュリティ製品が満たすべき技術要件と、どの機関が製品の認証とテストを行う権限と責任を持っているかを説明する、強制的な国家基準を策定しました。これらの措置は、ネットワークセキュリティ製品のセキュリティ基準を統一し、製品全体のセキュリティ保護能力を向上させ、ネットワークセキュリティ企業の負担を軽減し、産業発展に有利な環境を創出することを目的としており、強力なネットワークセキュリティ産業の発展と産業発展を目指します。国家ネットワークのセキュリティ機能を強化します。

コメント:

        上記の回答によると、個人的には Xunfei Xinghuo さんの回答がベストだと思いますが、Wenxin さんの回答は最初の段落の内容を要約していませんでした。chatGPT の最初の回答は単純すぎて、2 番目の回答の方が正確でした。

06 記事要素抽出

        テキストが与えられると、そこから対応する情報を抽出する必要があります。

使用例: (国家統計局のデータ)

        あなたがデータ アナリストであることを前提として、以下の内容に従ってください。

        業種別にみると、ニュース情報サービスの営業利益は3,674億元で前年同期比12.5%増、コンテンツ制作・制作は6,456億元で5.8%増、クリエイティブは6,456億元で前年同期比12.5%増となった。デザインサービスは4,499億元(3.9%増)、文化コミュニケーションチャネルは3,746億元(14.0%増)、文化投資・運営は126億元(12.1%増)、文化娯楽・レジャーサービスは342億元であった。元、48.5%増、文化補助生産・仲介サービス3,519億元、4.6%減、文化設備生産1,346億元、7.9%減、文化消費端末生産5,108億元、2.4%減。

        上記の内容を踏まえて、より直感的にわかるように表形式に整理してください。

一言で言えば

シュンフェイ・スパーク:

チャットGPT

コメント:

        この段落は実際には難しくありませんが、Wen Xinyiyan のパフォーマンスには本当にがっかりしました。Xunfei Xinghuoのパフォーマンスは相変わらず良いです。

07 まとめ

        このテストの記事は過去数日間の新しい記事のみですが、テストでは、Wenxinyiyan の最大インテリジェント入力が 1024 文字であるのに対し、Xunfei Xinghuo は 6300 以上の文字を入力できるという大きな問題も見つかりました。したがって、Wenxin の記事はテストできません。スコアとしてカウントされる場合、Wenxin の発言は減点されます。

        上記のテストから、いくつかの質問に答えることを拒否したことを除けば、Xunfei Xinghuo のパフォーマンスは Wenxin Yiyan より明らかに優れており、ChatGPT3.5 のレベルに非常に近いと言えるので、追いつくのは空想ではないかもしれません。 10.24 の ChatGPT を使用。

おすすめ

転載: blog.csdn.net/m0_37771865/article/details/130717654