ChatPDFとは何ですか? ChatPDFの紹介

ChatPDFの紹介

昨年末に「k8s in action」という本を読んだとき、ChatGPT で概要を知ることができれば、この本を一問一答形式で学習でき、もっと効率が上がるだろうと考えていましたが、 ChatGPT はすべての書籍の内容について非常にナンセンスです。著作権上の理由またはその他の理由によるものである可能性があります。

この需要を解決するのが、最近人気の ChatPDF です。ChatPDF は、PDF ファイルから有用な情報を迅速に抽出し、ChatGPT を通じてその情報を解釈できる AI ツールです。

AI があなたに取って代わるのではなく、AI を使用している人が代わりになるのです。私の公式アカウントに注目してください: more AI。最先端の業界ニュースを初めて学び、詳細な技術乾物を共有し、高品質の学習リソースを入手します

原理

ChatPDF はまず PDF ファイルを読み取り、それを txt 形式などの処理可能なテキスト形式に変換します。

次に、ChatPDF は、後続の処理のために特殊文字、分割、文の分割などを削除するなど、抽出されたテキストをクリーンアップして標準化します。このステップでは、正規表現などの自然言語処理技術を使用できます。

ChatPDF は、OpenAI の Embedding API を使用して、各セグメントをテキスト内のセマンティクスをエンコードするベクトルに変換し、質問のベクトルと簡単に比較できるようにします。

ユーザーが質問すると、ChatPDF は OpenAI の Embedding API を使用して質問をベクトルに変換し、それを各セグメントのベクトルと比較して最も類似したセグメントを見つけます。この類似度の計算は、コサイン類似度などの一般的な手法を使用して実行できます。

ChatPDF は最も類似したセグメントと質問をプロンプトとして見つけ、OpenAI の Completion API を呼び出し、ChatGPT にセグメントの内容を学習させ、対応する質問に回答します。

最後に、ChatPDF は、ChatGPT によって生成された回答をユーザーに返し、クエリを完了します。

導入事​​例

原理は非常にシンプルですが、これを実現するコードを書くのは大がかりなプロジェクトになるはずですが、github で既製のものを見つけるのが最も簡単な方法です。ここでは、github で見つけたより良いものをいくつか紹介します。

akshata29 /チャットPDF

作者はコードを提供するだけでなく、オンライン デモ Web サイト (https://dataaipdfchat.azurewebsites.net/) も提供します。

設定では、興味のある本を選択することもできます。

画像-20230424213955893

使ってみたら、本当に良いです。

お読みいただいた後、起動には Azure アカウントが必要で、Azureアカウントは企業が申請する必要があります。この道を放棄した。

入札者/ chatpdf -minimal-demo

名前のとおり、これは単なるデモであり、多くのコンテンツを扱うことはできませんが、幸いなことにコードの量は少なく、実装のアイデアを理解するのに非常に役立ちます。私は Python を知りませんが、読んだ後でもかなり良いと思います。しかし中途半端すぎる。彼を最適化するためではありません。

Ulov888 /チャットPDFのような

見た目は粗雑ですが、必要なものはすべて揃っています。ローカルで実行した後、試してみました。それも良いですね。Springboot ドキュメントの最初の 50 ページをアップロードすると、すぐに分析が完了し、いくつかの質問があり、基本的にそれらに答えてくれました。

画像-20230424215201374

もう一度コードを注意深く見てみると、まだtext-embedding-ada-002このような愚かなモデルが使用されており、答えが愚かであるのも不思議ではありません。アップデートしたんですが、新機種のテキストのアップロードが遅くなっていつもタイムアウトになってしまい、ちょっと遅いので明日にします。

画像-20230424214649778

要約する

ChatPDF のアイデアは実装するのが難しくありませんが、多くの応用シナリオがあり、非常に価値のあるプロジェクトです。

トラフィックを集めるためにオンライン Web サイトをテストしたり、単純に作成したりする場合は、3 番目のプロジェクトを最適化するだけです。早くライブに行ってください。

サブスクリプション モデルに従いたい場合は、最初のプロジェクトを二次開発用にフォークできます。最初のプロジェクトは現在非常に活発で、巨人の肩の上に立っており、作業負荷はそれほど大きくありません。

参考文献

http://www.chatspdf.cn/ これは、英語版の chatpdf (パッケージ モード) のレプリカです。学ぶ価値があります。画像-20230424220058101

AI があなたに取って代わるのではなく、AI を使用している人が代わりになるのです。私の公式アカウントに注目してください: more AI。最先端の業界ニュースを初めて学び、詳細な技術乾物を共有し、高品質の学習リソースを入手します

おすすめ

転載: blog.csdn.net/smarter_AI/article/details/131056999