NLP ライブラリを使用して Python でテキストを解析する方法

Python は、人工知能の分野で広く使用されている強力なオブジェクト指向プログラミング (OOP) 言語です。その実用性を考慮して、Google 率いる大手テクノロジー企業は Tensorflow などのコード ライブラリを開発し、人々が強力な機械学習アルゴリズムとモデルを使用して、さまざまな「手話」パーサー、オートバイのヘルメット検出器、さまざまなアイテムなどのさまざまな用途の目的を達成できるようにしました。認識者。

NLP (自然言語処理) は、自然言語の理解と操作に関連するすべての人工知能の活動の総称です。Python には、テキストを取得し、それをさまざまなコンポーネントに分解して、テキストの重要な部分を識別するために使用できる、Transformers と呼ばれる機械学習モデルがあります。次に、深層学習モデルとしての Transformer がテキストをどのように解析するかについて説明します。

1. Transformer ライブラリを使用して Python でテキストを解析するにはどうすればよいですか?

始める前に、Google アカウントが必要です。Python とその依存関係、IDE (統合開発環境、統合開発環境) を自分のコンピューターにインストールする手間を省くために、無料のクラウド サービス環境 - Google Colab ノートブックを使用して、Python を使用してさまざまな人々と共同作業します。同時に、AI コードベース自体のサイズが大きく、多くの依存関係があるため、クラウド環境を使用することで、ハードディスクの占有スペースを効果的に節約できます。

1. 必要なライブラリをインストールする

まず、次の 4 つのコード ライブラリをインストールする必要があります。Colab ノートブックを開き、最初のコード セルに次の内容を入力します。

!pip トランスフォーマーをインストールする

!pip インストールトーチ

!pip インストール文

!pip インストール新聞3k

先に進む前に、これらのコマンドを少し理解してみましょう。あなたが知っているように:

  • 「トランスフォーマー」は、テキストの解析に使用できる深層学習モデルです。
  • 「Torch」はディープラーニングのアルゴリズムを提供します。
  • 「Sentencepeice」はテキストを「トークン化」(分解)するために使用できます。
  • 「Newspaper3k」は、インターネットから記事(テキストコンテンツ)をインポートするために使用できるWebスクレイピングライブラリです。

この時点で、画面には以下が表示されます。

写真

2. 記事をインポートする

記事をインポートするには、対応する URL を指定する必要があります。次に、後でさらにタグ付けできるように、次のコマンドを入力して記事をダウンロードして解析する必要があります。

写真

それが完了したら、ステップ 3 に進みます。

3. 記事にタグを付ける

変換ライブラリから自動トークナイザーをインポートし、テキストからテキストへの変換に使用できる T5 モデル (T5 は機械学習モデル) を使用する必要があります (ここでは解析に使用できます)。解析されたテキストを生成します。下の画像は、この効果のために入力する必要があるコードを示しています。

写真

4. 記事を解析する

この記事を解析するには、特定の関数を作成する必要があります。この関数はタグ付き記事を受け入れ、各文を個別に解析します。次に、出力する前に文を再接続します。

写真

以下の画像は、解析されたテキストの出力を示しています。

写真

読みやすくするために、手動でテキスト ファイルにコピーできます。

これは、NLP ライブラリを使用して Python でテキストを解析する 1 つの方法です。ただし、特に AI や Python を初めて使用する人にとっては、かなり複雑で面倒な方法です。この時点で、この目的を達成するためのオンライン分析ツールはあるだろうか、と考える必要があります。

2. オンライン分析に利用できる無料ツール

1.プレポストセオ

Prepostseo は、さまざまな目的に使用できる非常に便利な解析ツールを提供します。無料で利用できるので、アカウント登録などの必要がなく、スムーズに使い始めることができます。

ツールを使用すると、以下の 3 つのモードを無料で使用できます。

  • シンプルモード
  • アドバンストモード
  • スムーズモード

このうち、シンプル モードでは、ツールはいくつかの単純な同義語のみを実行します。つまり、複数の単語がいくつかの同義語に置き換えられます。

また、アドバンスト モードでは、単語や解析結果以外にも変更が加えられます。デフォルトで得られる結果が気に入らない場合は、変更可能な箇所を確認して、別の同義語に置き換えることができます。

流暢さのパターンは単語だけでなく、フレーズ、文の構造、口調も変化します。ただし、出力を編集するオプションは提供されません。

スムーズ モードとアドバンスト モードがより効果的なモードであることがわかります。カスタム コンテンツをインポートするには、解析するドキュメントをアップロードするか、単にテキストをコピーして入力フィールドに貼り付け、解析プロセスの完了後にその出力をダウンロードします。

このツールの唯一の欠点は、ページに広告が表示されることです。

2.リングイクス

Linguix も登録なしで使用できる無料のパーサーです。ページ内に広告がないのでとても使いやすいです。

Linguix は複数のモードを提供しませんが、文を解析するときに、1 つだけではなく複数の候補が表示されます。すべての提案には特定のテキストにさまざまな変更が生じる可能性があるため、最も適切なものを選択できます。

このツールの操作方法は比較的簡単で、入力ボックスに解析したいテキストを書き込み、強調表示して選択するだけで、文ごとに対応するポップアップ候補が表示されます。

このツールの唯一の欠点は、一度に 5 つの文しか解析できないことです。

3. 言い換える

Paraphraser.io は、多くのコンテンツ最適化ツールを備えたオンライン ツールキットでもあります。名前が示すように、主に分析分野を対象としています。

このツールは登録なしでも無料で使用できます。ただし、前述の Prepostseo と同様に、使用中に広告に悩まされる可能性があります。現在、標準モードとスムーズ モードの 2 つの無料モードが提供されています。このうち、標準モードは一部の単語を類義語に置き換えるだけで、文全体の構造は変わりません。流暢性モードでは、単語やフレーズを置き換えるだけでなく、文章の構造も変更するため、テキストが読みやすくなります。

広告はさておき、このツールのもう 1 つの欠点は、一度に最大 500 単語までしか解析できないことです。

3. まとめ

要約すると、NLP ライブラリを使用して Python でテキストを解析する場合、人工知能と深層学習のさまざまなモデルを使用して変換を実現できます。Google Colab の強力なクラウド サービス機能を使用し、Transformer ライブラリを使用してこのような重いタスクを完了することができます。また、さまざまなオンライン分析ツールのさまざまなモードを選択して、さまざまな方法でテキストを書き換えることもできます。また、これらのツールのほとんどは無料で、登録も必要ありません。

優れたツールをもっと見る

宇宙エレベーター、MOSS、ChatGPTなどはすべて、2023年が平凡な年になる運命にないことを示しています。新しいテクノロジーはすべて精査する価値があり、私たちはこの感性を持つべきです。

ここ数年、漠然とローコードに出会ったのですが、現在では比較的人気があり、大手メーカーも続々と参入しています。

ローコード プラットフォームのコンセプト: 自動コード生成とビジュアル プログラミングにより、少量のコードだけでさまざまなアプリケーションを迅速に構築できます。

私の考えでは、ローコードとは、フロントエンド、バックエンド、データベースをすべて一度に実行できるシステムを、ドラッグしたり、動かしたり、ワンパス操作で作成したりすることです。もちろんこれが最終目標かもしれません。

リンク: www.jnpfsoft.com/?csdn、興味のある方はぜひ体験してみてください。

JNPF の利点は、フロントエンド コードとバックエンド コードを生成できることです。これにより、優れた柔軟性が得られ、より複雑でカスタマイズされたアプリケーションを作成できます。また、そのアーキテクチャ設計により、開発者は基礎となる技術的な詳細を気にすることなく、アプリケーション ロジックとユーザー エクスペリエンスの開発に集中できます。

おすすめ

転載: blog.csdn.net/wangonik_l/article/details/132452770