A OpenAI anunciou a ferramenta de rastreamento do GPT4, o GPTBot, que está em conformidade com o protocolo do rastreador e pode ser usado para treinamento de modelo

 Fonte de compartilhamento de tecnologia de Xi Xiaoyao
 | Coração da máquina

Como todos sabemos, o OpenAI manteve os detalhes técnicos completamente secretos desde o GPT-4. Inicialmente, ele usou apenas um relatório técnico para mostrar os resultados do teste de benchmark, mas manteve o silêncio sobre os dados de treinamento e os parâmetros do modelo. Embora os internautas tenham dado a notícia mais tarde, a OpenAI nunca respondeu.

Não é difícil imaginar que o treinamento do GPT-4 requer grandes quantidades de dados, o que não é um problema que possa ser resolvido pagando por isso. Com uma alta probabilidade, o OpenAI usa um rastreador da web. Muitos usuários acusaram o OpenAI de que esse método violaria os direitos autorais e de privacidade dos usuários.

Agora há pouco, OpenAI teve um confronto: anunciou diretamente o rastreador da web que rastreia dados de toda a Internet - GPTBot.

Esses dados serão usados ​​para treinar modelos de IA, como GPT-4 e GPT-5. No entanto, o GPTBot garante que o conteúdo rastreado absolutamente não inclui conteúdo que viole fontes de privacidade e exija pagamento.

“O GPTBot é usado para rastrear dados da web para melhorar a precisão, funcionalidade e segurança dos modelos de IA”, disse OpenAI.

Os proprietários de sites podem permitir e restringir o GPTBot para rastrear os dados do site de acordo com suas necessidades. Em seguida, vamos dar uma olhada em como o GPTBot funciona e, a propósito, aprender sobre o método de bloqueio.

 Portal de teste de pesquisa de modelo grande

Portal GPT-4 (livre de parede, pode ser testado diretamente, se você encontrar o ponto de aviso avançado do navegador/continuar a visitar):
Olá, GPT4!

Primeiro, o User-Agent String do GPTBot é o seguinte:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Use o seguinte método para adicionar o GPTBot ao robots.txt do site para proibir o GPTBot de acessar o site:

User-agent: GPTBot

Disallow: /

Também é possível permitir que o GPTBot acesse o conteúdo de partes específicas do site:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

A OpenAI recentemente enfrentou uma reação negativa por treinar grandes modelos de linguagem, como GPT-4, em dados de sites sem aprovação explícita. Os críticos dizem que empresas como a OpenAI devem seguir os protocolos de treinamento mesmo quando o conteúdo é acessível ao público. Também há preocupações de que o conteúdo seja retirado do contexto quando inserido em sistemas de IA.

Mas mesmo que o acordo de robôs seja seguido, uma vez que não é uma especificação, mas apenas uma convenção, não pode garantir a privacidade do site.

Desde o lançamento do GPTBot, o desenvolvimento gerou um debate no Hacker News sobre a ética e a legalidade do uso de dados da web raspados para treinar sistemas de inteligência artificial.

Alguns acreditam que o lançamento do GPTBot demonstra a "área cinzenta" do uso de dados públicos para desenvolver modelos de IA:

"Seria bom coletar os dados depois de treinar o modelo. Presumivelmente, esses cabeçalhos não afetarão as páginas que já rastrearam para treinar o GPT."

“Agora, eles podem fazer lobby para a regulamentação anti-agarramento e bloquear qualquer outra recuperação”.

foto

Como o GPTBot se identifica, os webmasters podem bloqueá-lo via robots.txt, mas alguns não veem nenhum benefício em permitir isso, ao contrário dos rastreadores de mecanismos de pesquisa que direcionam o tráfego.

Uma preocupação é o uso de conteúdo protegido por direitos autorais sem atribuição. Atualmente, o ChatGPT não tem atribuição.

foto

Também foram levantadas questões sobre como o GPTBot lida com imagens, vídeos, músicas e outras mídias licenciadas no site. Se essas mídias forem usadas no treinamento de modelos, isso pode constituir violação de direitos autorais.

Outros especialistas acreditam que os dados gerados pelos rastreadores podem degradar o desempenho do modelo se o conteúdo escrito pela IA for realimentado no treinamento.

Em vez disso, alguns argumentam que a OpenAI tem o direito de usar livremente os dados públicos da web e os comparam a uma pessoa aprendendo com o conteúdo online. Mas outros argumentam que, se a OpenAI monetiza os dados da rede para ganhos comerciais, os lucros devem ser compartilhados.

Em suma, o GPTBot gerou debates complexos sobre propriedade, uso justo e incentivos para criadores de conteúdo da web. Embora seguir o robots.txt seja um bom passo, ainda há falta de transparência.

Este pode ser o próximo foco da opinião pública no mundo da tecnologia: com o rápido desenvolvimento de produtos de IA, como os "dados" devem ser usados?

 

Referências

 [1]https://twitter.com/GPTDAOCN/status/1688704103554359296
 [2]https://searchengineland.com/gptbot-openais-new-web-crawler-430360
 [3]https://platform.openai.com /docs/gptbot
 [4]https://news.ycombinator.com/item?id=37030568
 [5]https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394 /#fechar 

Acho que você gosta

Origin blog.csdn.net/xixiaoyaoww/article/details/132178136
Recomendado
Clasificación