Introdução do ChatPDF
Quando li o livro "k8s em ação" antes do final do ano passado, pensei que se o ChatGPT pudesse me dar um esboço, eu aprenderia esse livro na forma de perguntas e respostas, e a eficiência seria muito maior, mas fiquei muito surpreso.ChatGPT é um disparate sério sobre o conteúdo de todos os livros. Pode ser por motivos de direitos autorais ou outros motivos.
O recentemente popular ChatPDF é para resolver essa demanda. O ChatPDF é uma ferramenta de IA que pode extrair rapidamente informações úteis de arquivos PDF e interpretar as informações por meio do ChatGPT.
A IA não irá substituir você, as pessoas que usam IA irão. Bem-vindo a prestar atenção à minha conta oficial: mais IA. Aprenda notícias de ponta do setor pela primeira vez, compartilhe produtos secos técnicos em profundidade e obtenha recursos de aprendizado de alta qualidade
princípio
O ChatPDF primeiro lê o arquivo PDF e o converte em um formato de texto que pode ser processado, como o formato txt.
Em seguida, o ChatPDF irá limpar e padronizar o texto extraído, como remover caracteres especiais, segmentação, segmentação de frases, etc., para processamento posterior. Esta etapa pode usar técnicas de processamento de linguagem natural, como expressões regulares, etc.
O ChatPDF usa a API de incorporação do OpenAI para converter cada segmento em um vetor que codifica a semântica no texto para facilitar a comparação com o vetor da pergunta.
Quando um usuário faz uma pergunta, o ChatPDF usa a API de incorporação do OpenAI para converter a pergunta em um vetor e a compara com o vetor de cada segmento para encontrar o segmento mais semelhante. Este cálculo de similaridade pode ser realizado usando métodos comuns, como similaridade de cosseno.
O ChatPDF encontrará o segmento e a pergunta mais semelhantes como um prompt, chamará a API de conclusão do OpenAI, permitirá que o ChatGPT aprenda o conteúdo do segmento e responda à pergunta correspondente.
Por fim, o ChatPDF retornará a resposta gerada pelo ChatGPT ao usuário para concluir uma consulta.
Caso de implementação
Embora o princípio seja muito simples, deve ser um grande projeto escrever código para conseguir isso. A maneira mais fácil é encontrar um já pronto no github. Aqui estão alguns dos melhores que encontrei no github.
akshata29 / chatpdf
O autor não apenas fornece o código, mas também fornece um site de demonstração online: https://dataaipdfchat.azurewebsites.net/
Nas configurações, você também pode escolher o livro de seu interesse:
Usei, é muito bom.
Após a leitura, uma conta do Azure é necessária para inicialização e uma conta do Azure requer uma empresa para se inscrever. Abandonou este caminho.
bidder/ chatpdf -minimal-demo
Como o nome diz, é apenas uma demonstração, não dá para lidar com muito conteúdo, felizmente a quantidade de código é pequena e ainda é muito útil para entender as ideias de implementação. Embora eu não conheça Python, ainda acho que é muito bom depois de lê-lo. Mas muito pela metade. Não para otimizá-lo.
Ulov888 / chatpdflike
Embora pareça bruto, tem tudo o que deveria ter. Depois de rodar localmente, experimentei. Também é bom. Carreguei as primeiras 50 páginas do documento springboot e ele rapidamente concluiu a análise, fez algumas perguntas e basicamente as respondeu.
Depois de examinar o código com cuidado novamente, ele ainda está usando text-embedding-ada-002
um modelo tão estúpido, não é de admirar que a resposta seja estúpida. Eu atualizei, mas o upload do texto do novo modelo ficou mais lento, e sempre atinge o tempo limite, e é um pouco tarde, então farei isso amanhã.
Resumir
A ideia do ChatPDF não é difícil de implementar, mas existem muitos cenários de aplicação e é um projeto muito valioso.
Se você quiser testar, ou simplesmente fazer um site online para atrair tráfego, basta otimizar o terceiro projeto. Vá viver rápido.
Se você quiser seguir o modelo de assinatura, pode bifurcar o primeiro projeto para desenvolvimento secundário. O primeiro projeto está atualmente muito ativo, apoiado nos ombros de gigantes, a carga de trabalho não será muito grande.
Referências
http://www.chatspdf.cn/ Esta é a réplica da versão em inglês do chatpdf, modo de pacote. vale a pena aprender.
A IA não irá substituir você, as pessoas que usam IA irão. Bem-vindo a prestar atenção à minha conta oficial: mais IA. Aprenda notícias de ponta do setor pela primeira vez, compartilhe produtos secos técnicos em profundidade e obtenha recursos de aprendizado de alta qualidade