El primer caso de infracción de modelo a gran escala en China, logrado en 6 años, se rastreó más de 2 millones de veces y solo reclamó 1 yuan.

Organizar | Zheng Liyuan

Listado | CSDN (ID: CSDNnews)

El mes pasado, Xueersi reveló que actualmente está desarrollando su propio gran modelo matemático MathGPT, que está dirigido a entusiastas de las matemáticas globales e instituciones de investigación científica, y está construido con algoritmos de lectura y resolución de problemas en el campo de las matemáticas como núcleo.

En ese momento, muchas personas sintieron que finalmente llegaría la versión de ChatGPT para "estudiantes de ciencias".

Inesperadamente, el "escándalo" sobre MathGPT estalló antes de su lanzamiento: este martes, la aplicación de composición Bishen acusó a Xueersi de acceder ilegalmente y almacenar en caché hasta 2,58 millones de datos en su servidor a través de la tecnología "rastreador" veces, para desarrollar MathGPT. nuevo producto "asistente de IA de composición".

6 años de logros, rastreados más de 2 millones de veces en un fin de semana

Uno de los protagonistas de este incidente, Bishen Composición, es una plataforma de educación de composición K12 (educación desde el jardín de infantes hasta el grado 12) establecida en diciembre de 2017, que está afiliada a Beijing Yiyilianghua Technology Co., Ltd.

En ese momento, el mercado de IA era mucho menos popular de lo que es ahora, pero con su característica de "usar tecnología de inteligencia artificial para ayudar a los escritores a mejorar sus habilidades de escritura", en enero de 2018, Bishen Composición recibió varios millones de yuanes en ronda semilla financiación de ZhenFund. En julio de 2019, completó una ronda de financiación ángel multimillonaria.

Según información oficial, Pen God Composition ha estado en línea durante seis años y ha recibido más de 300,000 envíos de ensayos y más de 400,000 me gusta y comentarios cada mes. Acumuló millones de materiales de composición y corrigió más de 30,000 ensayos por mes. .

Con el nacimiento de ChatGPT a fines del año pasado, Shiji Tianhong, uno de los inversionistas de Penshen, dijo una vez que "Penshen" y ChatGPT tienen la misma tecnología, y ambos adoptan el último algoritmo basado en Transformer como la capa inferior del modelo de IA. Song Jiawei, el fundador de Bishen Composition, también presentó: "Actualmente, más del 60 % del equipo es personal técnico de I+D de One stroke y two strokes. Antes de la creación de la empresa, el equipo había fundado empresas de PNL. Se ha cultivado durante muchos años."

Por lo tanto, en general, el modelo de algoritmo de Penshen Composición es autodesarrollado y entrenado por la empresa, y el big data de su plataforma proviene de su propia acumulación.

Debido a su acumulación técnica y logros notables en escritura, Bishen Composición y Xueersi llegaron a una cooperación hace tres años: firmaron un contrato con la aplicación de herramienta de aprendizaje de Xueersi "Tipai Pai", que es principalmente responsable de proporcionar servicios de consulta de material de composición.

Como socio, la composición de Bishen de esta semana declaró: "El 13 de abril, sucedió algo que no esperábamos. Los logros de seis años de nuestro equipo desde el establecimiento de la empresa fueron logrados por "Xueersi", que ha cooperado durante muchos años en solo un corto período de tiempo. ¡Más de dos millones de rastreos en un fin de semana!

Demanda: compensación de 1 yuan, disculpa pública y eliminación de datos

A juzgar por la declaración oficial de Weibo de Penshen Composición, no tiene un mecanismo de seguridad de datos completo y no ha establecido todas las precauciones para sus "socios" Xueersi, lo que llevó a las subsidiarias de Santi Yunlian (Xueersi) a aprovechar esta confianza. , es decir: sin la autorización de Pen God Composition APP, del 13 al 17 de abril de 2023, acceda ilegalmente y almacene en caché el servidor de Pen God Composition APP a través de la tecnología "rastreador" Los datos son hasta 2,58 millones de veces.

Al respecto, Bishen Composición afirma que este comportamiento viola los términos del contrato entre las dos partes, e incluso viola el artículo 32 de la "Ley de Protección de Datos" "Toda organización o individuo deberá recopilar datos de manera legal y adecuada, y deberá no robar ni utilizar otros métodos para recopilar datos. "Obtener datos ilegalmente" ha violado gravemente los derechos e intereses de datos de la aplicación Bishenzuowen.

Posteriormente, Penshen Composition le pidió verificación a Xueersi, y la otra parte admitió directamente que su grupo de algoritmos estaba rastreando los datos y usándolos para su propio uso. Por lo tanto, Penshen Composition envió una carta de abogado, pero no obtuvo una respuesta sustancial de la otra parte. En este momento, el modelo de IA MathGPT de Xueersi está a punto de lanzar un nuevo producto, "Composition AI Assistant".

"Como una empresa mucho más pequeña que 'Xueersi', no tenemos más remedio que proteger nuestros derechos a través de canales legales". Precedente de juicio de modelo grande de robo de datos de AI, por lo que solo puede "dar este primer paso con valentía".

En cuanto al atractivo de Penshen Composition, en realidad no pide una gran cantidad de compensación: solo quiero que Xueersi pague 1 yuan en compensación, se disculpe públicamente y elimine los datos rastreados.

Al respecto, Bishen Composition explicó: "Los datos son valiosos, pero nuestro arduo trabajo es aún más invaluable. El reclamo de 1 yuan se debe a que la equidad y la justicia no se pueden medir con dinero. Esperamos decirle a la sociedad que este comportamiento es incorrecto a través de litigios. El desarrollo de la industria de la inteligencia artificial se basa en la creación conjunta en lugar de codiciar y plagiar los logros de otros".

Es cierto que como decía la composición del dios de la pluma, su volumen no es grande, por lo que esta declaración no llamó mucho la atención, pero los pocos comentarios condenaron el comportamiento de aprender y pensar.

Respuesta de Xueersi: Todos cumplen con los requisitos del contrato.

Después de ser informado por muchos medios, este incidente fue fermentando gradualmente, por lo que el Weibo oficial de Xueersi también publicó una respuesta a esto:

En primer lugar, MathGPT es un gran modelo de desarrollo propio que se centra en el campo de las matemáticas y no tiene datos relacionados con la composición; en segundo lugar, el "Asistente de IA de composición" se encuentra actualmente en desarrollo y aún no se ha lanzado. no utilice ningún dato de Penshen Composición.

Sin embargo, Bishen Composition afirmó que se habían rastreado más de 2 millones de veces. Xueersi señaló que el contrato establecía claramente que "la cantidad de llamadas incluidas en la tarifa mensual garantizada es del orden de millones", y la interfaz a la que llama "pertenece al acuerdo de contrato entre las dos partes. el ámbito normal de cooperación".

Al final de la respuesta, Xueersi enfatizó que "siempre respeta los derechos de propiedad intelectual y otorga gran importancia a la protección de la propiedad intelectual", y todas las acciones se realizan en estricta conformidad con el contrato, pero: "La declaración pública de Penshen Composición ya ha causó daños a la reputación de la marca Xueersi, nos reservamos el derecho de perseguir su responsabilidad de infracción de reputación".

Problemas de derechos de autor de los datos de entrenamiento de IA

A juzgar por las declaraciones actuales hechas por ambas partes, esta disputa aún no puede sacar una conclusión final, pero también revela un punto ciego que se pasa por alto fácilmente pero que es muy importante en la reciente competencia de modelos a gran escala de IA cada vez más candente: los datos de entrenamiento de IA. asunto.

De hecho, Reddit, la "versión estadounidense de Tieba" que ha estado haciendo mucho ruido en Internet recientemente, decidió forzar las tarifas de API por este motivo.

En los últimos años, el contenido de chat publicado en Reddit se ha convertido en el material para que empresas como Google, OpenAI y Microsoft capaciten a grandes modelos de IA para desarrollar productos de IA generativa como ChatGPT. Con la popularidad de tales herramientas de inteligencia artificial, el fundador y director ejecutivo de Reddit dijo: "El corpus de datos de Reddit es muy valioso, pero no queremos proporcionar este contenido a algunas empresas gigantes de forma gratuita".

Después de que Reddit tomó la iniciativa de pedir a los gigantes tecnológicos que pagaran por el uso de datos, Stack Overflow, un conocido sitio web de preguntas y respuestas de TI, también anunció planes para cobrar a los grandes desarrolladores de IA por el acceso a los datos a partir de mediados de este año (LLM). ) desarrollo, la contribución realizada también debe ser compensada.”

Además de sitios grandes como Reddit y Stack Overflow, incluso en el círculo de desarrolladores, algunos programadores también anunciaron que abandonarían GitHub debido a la supuesta infracción de derechos de autor del código de Copilot:

Sin duda, en el proceso de hacer que los modelos grandes de IA sean más inteligentes, los datos de entrenamiento masivos son esenciales, pero desde el punto de vista actual, OpenAI, el "pollo frito popular" en el campo de la IA actual, no tiene muchos problemas de derechos de autor. para datos de entrenamiento buena solución.

Sin embargo, con el mayor avance del auge de la IA, este problema seguramente se resolverá. Como dijo Chen Zhong, profesor de la Escuela de Ciencias de la Computación de la Universidad de Pekín: "Tal vez en las primeras etapas de investigación y desarrollo, a las personas no les importa la fuente de los datos, pero cuando generas enormes beneficios económicos, el modelo económico tradicional y el sistema legal limitará su investigación y desarrollo. Comportamiento".

Entonces, ¿qué piensas sobre este tema?

Link de referencia:

https://weibo.com/combmobile

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

Lectura recomendada:

▶ Hinton, padrino de IA de 75 años: Ya estoy viejo, cómo controlar la "superinteligencia" que es más inteligente que los humanos depende de ti

▶Yang Likun, ganador del Premio Turing: Nadie utilizará el modelo GPT en cinco años, y el modelo mundial es el futuro de AGI

▶Presentación de la pista de la industria "Mobile Cloud Cup": la pista secundaria de la aplicación innovadora de la computación en la nube

El primer caso de infracción de modelo a gran escala en China, logrado en 6 años, se rastreó más de 2 millones de veces y solo reclamó 1 yuan.

Supongo que te gusta