O que é ChatPDF? Introdução do ChatPDF

Introdução do ChatPDF

Quando li o livro "k8s em ação" antes do final do ano passado, pensei que se o ChatGPT pudesse me dar um esboço, eu aprenderia esse livro na forma de perguntas e respostas, e a eficiência seria muito maior, mas fiquei muito surpreso.ChatGPT é um disparate sério sobre o conteúdo de todos os livros. Pode ser por motivos de direitos autorais ou outros motivos.

O recentemente popular ChatPDF é para resolver essa demanda. O ChatPDF é uma ferramenta de IA que pode extrair rapidamente informações úteis de arquivos PDF e interpretar as informações por meio do ChatGPT.

A IA não irá substituir você, as pessoas que usam IA irão. Bem-vindo a prestar atenção à minha conta oficial: mais IA. Aprenda notícias de ponta do setor pela primeira vez, compartilhe produtos secos técnicos em profundidade e obtenha recursos de aprendizado de alta qualidade

princípio

O ChatPDF primeiro lê o arquivo PDF e o converte em um formato de texto que pode ser processado, como o formato txt.

Em seguida, o ChatPDF irá limpar e padronizar o texto extraído, como remover caracteres especiais, segmentação, segmentação de frases, etc., para processamento posterior. Esta etapa pode usar técnicas de processamento de linguagem natural, como expressões regulares, etc.

O ChatPDF usa a API de incorporação do OpenAI para converter cada segmento em um vetor que codifica a semântica no texto para facilitar a comparação com o vetor da pergunta.

Quando um usuário faz uma pergunta, o ChatPDF usa a API de incorporação do OpenAI para converter a pergunta em um vetor e a compara com o vetor de cada segmento para encontrar o segmento mais semelhante. Este cálculo de similaridade pode ser realizado usando métodos comuns, como similaridade de cosseno.

O ChatPDF encontrará o segmento e a pergunta mais semelhantes como um prompt, chamará a API de conclusão do OpenAI, permitirá que o ChatGPT aprenda o conteúdo do segmento e responda à pergunta correspondente.

Por fim, o ChatPDF retornará a resposta gerada pelo ChatGPT ao usuário para concluir uma consulta.

Caso de implementação

Embora o princípio seja muito simples, deve ser um grande projeto escrever código para conseguir isso. A maneira mais fácil é encontrar um já pronto no github. Aqui estão alguns dos melhores que encontrei no github.

akshata29 / chatpdf

O autor não apenas fornece o código, mas também fornece um site de demonstração online: https://dataaipdfchat.azurewebsites.net/

Nas configurações, você também pode escolher o livro de seu interesse:

imagem-20230424213955893

Usei, é muito bom.

Após a leitura, uma conta do Azure é necessária para inicialização e uma conta do Azure requer uma empresa para se inscrever. Abandonou este caminho.

bidder/ chatpdf -minimal-demo

Como o nome diz, é apenas uma demonstração, não dá para lidar com muito conteúdo, felizmente a quantidade de código é pequena e ainda é muito útil para entender as ideias de implementação. Embora eu não conheça Python, ainda acho que é muito bom depois de lê-lo. Mas muito pela metade. Não para otimizá-lo.

Ulov888 / chatpdflike

Embora pareça bruto, tem tudo o que deveria ter. Depois de rodar localmente, experimentei. Também é bom. Carreguei as primeiras 50 páginas do documento springboot e ele rapidamente concluiu a análise, fez algumas perguntas e basicamente as respondeu.

imagem-20230424215201374

Depois de examinar o código com cuidado novamente, ele ainda está usando text-embedding-ada-002um modelo tão estúpido, não é de admirar que a resposta seja estúpida. Eu atualizei, mas o upload do texto do novo modelo ficou mais lento, e sempre atinge o tempo limite, e é um pouco tarde, então farei isso amanhã.

imagem-20230424214649778

Resumir

A ideia do ChatPDF não é difícil de implementar, mas existem muitos cenários de aplicação e é um projeto muito valioso.

Se você quiser testar, ou simplesmente fazer um site online para atrair tráfego, basta otimizar o terceiro projeto. Vá viver rápido.

Se você quiser seguir o modelo de assinatura, pode bifurcar o primeiro projeto para desenvolvimento secundário. O primeiro projeto está atualmente muito ativo, apoiado nos ombros de gigantes, a carga de trabalho não será muito grande.

Referências

http://www.chatspdf.cn/ Esta é a réplica da versão em inglês do chatpdf, modo de pacote. vale a pena aprender.imagem-20230424220058101

A IA não irá substituir você, as pessoas que usam IA irão. Bem-vindo a prestar atenção à minha conta oficial: mais IA. Aprenda notícias de ponta do setor pela primeira vez, compartilhe produtos secos técnicos em profundidade e obtenha recursos de aprendizado de alta qualidade

Acho que você gosta

Origin blog.csdn.net/smarter_AI/article/details/131056999
Recomendado
Clasificación