中国初の大規模モデル侵害訴訟は6年ぶりに達成、クロール回数は200万回以上、請求額はわずか1元?

0302179f29952b50d9c94a0dd6fb3da0.gif

整理 | 鄭立源

出品 | CSDN(ID:CSDNnews)

先月、Xueersiは現在、世界の数学愛好家や科学研究機関を対象とした独自の大規模数学モデルMathGPTを開発中であることを明らかにしており、数学分野の問題解決アルゴリズムと講義アルゴリズムを中核として構築されている。

当時、ChatGPT の「理系学生」バージョンがついに登場すると多くの人が感じました。

予想外なことに、MathGPT に関する「スキャンダル」は実際に開始される前に勃発しました。今週火曜日、Bishen 作文アプリは Xueersi が MathGPT を開発するために「クローラー」技術を通じてサーバー上の 258 万ものデータに違法にアクセスし、キャッシュしたとして告発しました。新製品「作曲AIアシスタント」。

a6272d8e0a51490f24ac05a55ad31b21.jpeg

6a05f98788baf4cf1dbab1148081cbed.png

6 年間の実績、週末に 200 万回以上クロールされた

この事件の主役の一人であるBishen Recipeは、2017年12月に設立されたK12(幼稚園から12年生までの教育)の作文教育プラットフォームで、Beijing Yiyilianghua Technology Co., Ltd.の傘下にあります。

当時、AI市場は現在よりもはるかに人気がありませんでしたが、「人工知能技術を使用して作家の執筆スキルの向上を支援する」という特徴により、2018年1月にBishen Compositionはシードラウンドで数百万元を獲得しましたZhenFundからの資金調達を受け、2019年7月に数百万規模のエンジェルラウンドによる資金調達を完了した。

公式情報によると、ペン神作文は6年間オンラインで運営されており、毎月30万件以上のエッセイの投稿と40万件以上の「いいね!」とコメントを受け取り、数百万の作文素材を蓄積し、毎月3万件以上のエッセイを添削してきたという。

昨年末に ChatGPT が発表されたとき、Penshen の投資家の 1 人である Shiji Tianhong 氏は、「Penshen」と ChatGPT は同じテクノロジーを備えており、両方とも Transformer に基づく最新のアルゴリズムを最下層として使用していると述べました。 AIモデル。Bishen Combo の創設者である Song Jiawe 氏も次のように紹介しました。「現在、一筆二筆はチームの 60% 以上が技術研究開発要員です。会社設立前、チームは NLP 会社を設立していました。長年。"

したがって、全体として、Penshen Combopositionのアルゴリズムモデルは自社で開発およびトレーニングされており、プラットフォームのビッグデータは自社の蓄積から得られます。

技術的な蓄積と執筆における顕著な成果により、Bishen作曲とXueersiは3年前に協力関係に達し、主に作曲素材クエリサービスの提供を担当するXueersiの学習ツールアプリ「Tipai Pai」と契約を締結した。

パートナーとして、今週の Bishen 構成は次のように述べています: 4 月 13 日に、私たちが予期していなかったことが起こりました。会社設立以来、私たちのチームの 6 年間の成果は、わずか 1 年間で長年協力してきた「Xueersi」によって達成されました。短期間で、週末に 200 万回以上のクロールが行われました。

29cc5c9791b72061e7d9092df0597b6c.png

要求:1元の賠償、公的謝罪、データ削除

Penshen Composition の Weibo の公式声明から判断すると、同社は完全なデータ セキュリティ メカニズムを備えておらず、「パートナー」である Xueersi に対してすべての予防措置を講じていないため、Santi Yunlian (Xueersi) の子会社がこの信頼を利用することになりました。つまり、ペン神作文APPの許可なく、2023年4月13日から4月17日までの間、「クローラー」技術を通じてペン神作文APPサーバーに不正にアクセスし、キャッシュしたデータは最大258万回に及びます。

これに関して、Bishen Composition は、この行為は両当事者間の契約条項に違反し、さらには「データ保護法」第 32 条にも違反すると主張しています。データを盗んだり、他の方法を使用してデータを収集しないでください。「データを違法に取得する」ことは、Bishenzuowen APP のデータの権利と利益を重大に侵害しています。

その後、ペンシェン・コンポジションはXueersiに検証を求め、相手方は自社のアルゴリズムグループがデータをクロールし、自らの目的で使用していたことを直接認めた。そのため、Penshen Combopositionは弁護士の手紙を送ったが、相手方から実質的な返答は得られず、現在、XueersiのAIモデルMathGPTが新製品「Composition AI Assistant」を発売しようとしている。

「『Xueersi』よりもはるかに小規模な企業として、法的手段を通じて権利を守る以外に選択肢はありません。」AI大規模モデルデータ盗難]判決の先例があるため、「この最初の一歩を勇敢に踏み出す」ことしかできません。

Penshen Composition の訴えについては、実際に多額の賠償を求めているわけではありません。Xueersi に 1 元の賠償金を支払い、公的に謝罪し、クロールされたデータを削除してほしいだけです。

これに関して、Bishen Composition は次のように説明しました。「データは貴重ですが、私たちの努力はさらに貴重です。1 元の要求は、公平性と正義はお金では測れないからです。私たちは、この行動が間違っていることを社会に伝えたいと考えています」人工知能産業の発展は、他人の成果をむさぼり読んだり盗用したりするのではなく、共創に依存しています。」

dbea536ce1d2110f1168ec64c7dfd1d3.png

確かに、ペン神の作文の通り、その量は多くないため、この発言はあまり注目を集めなかったが、学習や思考という行為を非難するコメントは数件しかなかった。

b8c1f5265c99ef1264e6f7edd7df3588.png

Xueersi の回答: すべてが契約の要件を満たしています

多くのメディアが報じた後、この事件は徐々に発酵していったため、Xueersiの公式Weiboもこれに対して次のような反応を投稿しました。

まず第一に、MathGPT は数学の分野に焦点を当てた自社開発の大型モデルであり、作文関連のデータを持っていないこと、第二に、「作文 AI アシスタント」は現在開発中であり、まだリリースされていないサービスです。 Penshen Combo からのデータは一切使用しないでください。

a9c5c52ed50fa21cf38e996c0e1f4fc6.png

しかし、Bishen Commission は、200 万回以上のデータがクロールされたと主張しており、Xueersi 氏は、契約書には「月額保証料金に含まれる通話回数は数百万回のオーダーである」と明記されており、そのインターフェースが呼び出されていると指摘しました。 「両当事者間の契約合意に属する。協力の通常の範囲」。

Xueersiは回答の最後に、「常に知的財産権を尊重し、知的財産保護を非常に重視している」と強調し、すべての行動は契約に従って厳格に実行されており、当社はその名誉侵害を追求する権利を留保します。責任。"

453fa972b6388eb879f1771e41bb62aa.png

AI教師データの著作権問題

現時点での両当事者の発言から判断すると、この論争はまだ最終的な結論を導き出すことはできないが、最近ますます過熱するAI大規模モデル競争において見落とされがちだが非常に重要な盲点、つまりAI学習データも明らかになった。問題。

実際、最近ネット上を騒がせている「米国版Tieba」であるRedditは、この理由からAPI料金の強制徴収を決定した。

近年、Reddit で公開されたチャット コンテンツは、Google、OpenAI、Microsoft などの企業が AI 大型モデルをトレーニングして ChatGPT などの生成 AI 製品を開発するための素材となっています。このようなAIツールの人気を受けて、レディットの創設者兼最高経営責任者(CEO)は「レディットのデータコーパスは非常に価値があるが、このコンテンツを一部の巨大企業に無料で提供したくない」と述べた。

Redditが率先してテクノロジー大手にデータ使用料の支払いを求めた後、有名なIT質疑応答WebサイトであるStack Overflowも、今年半ばから大規模なAI開発者にデータアクセス料を請求する計画を発表した(LLM) )開発に貢献した場合には、その貢献も補償されなければなりません。」

Reddit や Stack Overflow などの大規模サイトに加えて、開発者界でも一部のプログラマーが、Copilot によるコード著作権侵害の申し立てを理由に GitHub を放棄すると発表しました。

1df46f2e8f4490202aa7394de9c63bd0.png

fd5a4ac6e1ef789006f1fb2fa3550e9b.png

AIの大型モデルをより賢くする過程で、膨大な学習データが不可欠であることは間違いありませんが、現在の観点から見ると、今日のAI分野で「人気のフライドチキン」であるOpenAIには、著作権の問題はそれほど多くありませんトレーニングデータ用の良いソリューションです。

しかし、AIブームがさらに進展すれば、この問題は必ず解決されるでしょう。北京大学コンピューターサイエンス学部の教授、Chen Zhong氏は次のように述べています。そして法制度はあなたの研究開発を制限するでしょう。行動。」

それで、この問題についてどう思いますか?

参考リンク:

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

推奨読書:

75歳のAIゴッドファーザー・ヒントン:私はもう年をとった、人間より賢い「超知能」をどう制御するかはあなた次第

▶チューリング賞受賞者のヤン・リークン氏:GPTモデルは5年後には誰も使わなくなるだろう、世界モデルはAGIの未来だ

▶クラウドコンピューティングの革新的応用のサブトラック「モバイルクラウドカップ」業界トラックを公開

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131237998