A Essência da Inteligência - Compressão de Informações Sem Perdas

A Essência da Inteligência - Compressão de Informações Sem Perdas

A Essência da Inteligência - A Compressão Sem Perdas da Informação 

Originalmente  publicado em Pequim por Dai Zhishi Cambrian Artificial Intelligence  2023-04-03 10:50 

    Com o surgimento do ChatGPT, as pessoas ficam surpresas e preocupadas com o nível de inteligência dos computadores aos trancos e barrancos. De onde vem a inteligência do computador? Até que ponto ele se desenvolverá no futuro? Esses tópicos estão sendo discutidos com grande interesse. Este artigo tenta discuti-lo com você de uma forma popular, sem fórmulas matemáticas complicadas. Não persegue o rigor lógico, mas apenas expressa uma espécie de sentimento, como o capítulo de abertura do relato oficial da "Inteligência Artificial Cambriana".

modelo básico de cognição    

    Pode-se dizer que o modelo básico de aprendizado de máquina usa as leis aprendidas com os dados de amostra para inferir as leis gerais. Isso é resumir as leis dos dados de amostra e depois aplicar as leis ao todo, que também é o processo da cognição humana.

    

    O desenvolvimento da ciência e tecnologia modernas, incluindo o modo básico de nossa pesquisa científica hoje, também é um processo: um lote de dados é obtido por meio de experimentos ou observações e, em seguida, os dados são resumidos para obter leis, e então as leis são usado para prever e orientar tarefas futuras.

    O mesmo se aplica ao nosso processo de aprendizagem pessoal. O famoso matemático Hua Luogeng disse: "A leitura deve começar do fino para o grosso e depois do grosso para o fino". "De fino a grosso" é o processo de coleta de dados de amostra suficientes. "Do grosso ao fino" significa abstração, generalização e indução.

    Em todo o processo cognitivo, o mais crítico é a generalização.

A indução é a compressão da informação    

    A razão pela qual a "Arte da Guerra de Sun Tzu" é imortal há milhares de anos e se tornou uma grande sabedoria com pensamentos profundos é que ela usa apenas mais de 5.000 palavras para resumir as complexas atividades militares dos seres humanos. informações altamente comprimidas, por conta disso, sua capacidade de generalização é muito forte, podendo ser utilizada não só para orientar militares, mas também para orientar esportes, atividades empresariais, relacionamento interpessoal, etc.

    A razão pela qual a ciência e a tecnologia modernas melhoraram muito a inteligência humana é que ela comprimiu altamente as informações observadas do sol, da lua, das estrelas e do universo: a física descreve o movimento da matéria por meio de leis e séries de equações, e o domínio dessas leis e equações, você domina todas as informações sobre o movimento da matéria; a química descreve as mudanças da matéria por meio da tabela periódica de elementos e fórmulas químicas e domina a tabela periódica de elementos e fórmulas químicas, você domina as mudanças em constante mudança em matéria. . .

   O mesmo vale para o aprendizado de máquina. Os computadores expressam as leis de dados em constante mudança por meio do mapeamento de funções. O arquivo de modelo que expressa o relacionamento de mapeamento de função é muito menor que o arquivo de dados original. O resumo da lei da máquina também é um processo de compactação de informações (a taxa de compactação geralmente é de 5 a 10 vezes).

    Recompreendendo o underfitting e o overfitting

    Nos livros clássicos de aprendizado de máquina, dois conceitos foram propostos no início: underfitting e overfitting.

foto

    Overfitting significa que o modelo tem um bom desempenho para treinamento, mas um desempenho ruim no conjunto de teste e nos novos dados . Underfitting refere-se à situação em que o modelo não funciona bem durante o treinamento e a previsão. Underfitting e overfitting, a análise e explicação tradicionais é que o underfitting é que o modelo é muito simples e a lei dos dados da amostra não é totalmente aprendida, e o overfitting é que o modelo é muito complicado e os dados de ruído na amostra são considerado como uma regra.estudo.   

    Se mudarmos o ângulo e analisarmos o underfitting e o overfitting da perspectiva da compressão sem perda de informações , pode ser mais completo: o underfitting é a supercompressão dos dados de amostra e ocorre a perda de informações. Overfitting significa que a taxa de compressão da informação não é suficiente .

    Se a lei for mais complicada, usamos um modelo simples (ou mapeamento de função simples ) para descrevê-la, e muitas informações inevitavelmente serão perdidas. Para os dados mostrados na figura abaixo, se usarmos uma linha reta para descrever a lei de mudança dos dados, ela é subajustada porque os dados estão supercomprimidos:

foto

    Precisamos apenas analisar a diferença (erro residual) entre os dados reais e os dados previstos . Essas diferenças não são ruídos completamente aleatórios, mas possuem uma óbvia lei côncava ascendente, conforme mostrado na figura a seguir:

foto

    A compressão excessiva faz com que essas informações côncavas para cima sejam descartadas . Se mudarmos para um modelo mais complexo, como uma curva quadrática, os resíduos correspondentes tornam-se completamente ruído aleatório e nenhuma regularidade pode ser vista.

foto

foto

    Pelo contrário, se a lei for relativamente simples e usarmos um modelo muito complexo para descrevê-la, o arquivo do modelo será inevitavelmente muito grande. Se dois modelos treinados nos mesmos dados de treinamento tiverem a mesma pontuação de treinamento, o modelo com o arquivo de modelo menor terá melhor capacidade de generalização do que o modelo com o arquivo de modelo maior. Porque a simples experiência da vida nos diz: "Uma pessoa que pode resumir um assunto claramente em uma frase deve ter um QI mais alto do que uma pessoa que resume em um longo parágrafo." Quanto maior a taxa de compressão sem perdas, mais próximo das coisas originais.

    ChatGPT é a melhor compactação sem perdas de qualquer modelo de idioma

    Segundo relatos, o tamanho do conjunto de dados de treinamento original do ChartGPT é de 900 TB e, após o treinamento, o arquivo de parâmetro do modelo é de cerca de 64 TB. Portanto, a taxa de compactação geral é de cerca de 14 vezes (900 TB/64 TB ~= 14x). Para modelos de linguagem tradicionais, como Bert e RNN , a taxa de compactação é de cerca de 8 a 10 vezes. Portanto, pode-se dizer que o ChartGPT é um compressor sem perdas melhor do que os algoritmos de modelo tradicionais e, portanto, mais inteligente. Obviamente, o compressor sem perdas aqui, para ser mais preciso, deve ser um compressor sem perdas aproximado .

    Resumir

    A chave para o sucesso do ChatGPT não são seus enormes dados de treinamento, mas seu algoritmo de modelo, que ainda atinge a maior compactação sem perdas para uma quantidade tão grande de dados .

    Do ponto de vista da cognição humana, o processo de observação e coleta de abstração indutiva de dados - generalização é um processo de compactação sem perdas de informações. Portanto, encontrar um melhor algoritmo de compactação sem perdas para informações pode ser um passo à frente para a inteligência artificial. melhor solução para o palco.

Acho que você gosta

Origin blog.csdn.net/sinat_37574187/article/details/132296975
Recomendado
Clasificación