Python に基づく詩データのマイニングと分析

迷子にならないように収集してフォローしてください


序文

  中華民族の伝統文化への理解と中国人の文化的自信を向上させるためには、詩や歌のデータ分析を実施し、詩や歌、詩に含まれる深い人生哲学を理解して分析することが非常に必要です。 。デザインは Python に基づいており、インターネット上の詩をクロールしてローカルにダウンロードし、Python のサードパーティ モジュールを使用して詩の関連情報を処理し、プログラミングとして pycharm ソフトウェアを使用して情報をより直感的にするために画像を作成します。このプロジェクトのツールは、Python 言語で開発され、さまざまなサードパーティ ライブラリを使用して実装されています。詩のあらゆる側面に関する情報を紹介することで、読者は多くの詩の特徴と詩の間のつながりを確認し、詩に込められた人生哲学を理解することができ、これは、日本の伝統文化の普及と促進に役立つだけでなく、中華民族だけでなく、中華民族の偉大な復興の夢も成功裏に実現しました。

キーワード: Python、Jieba 単語セグメンテーション、自然言語処理、感情分析、データ分析、データ マイニング、詩分析。

1. 機能紹介

   (1)データ取得:百度を通じて詩のURLを取得します。
(2) データ マイニング: Python コードを記述して、インターネット上の詩をローカル ハード ドライブにクロールします。
(3) データ分析:ローカルハードディスク内の詩をPythonコードを記述してデータ処理・分析し、様々な角度から詩を分析します。
(4) データの視覚化: Python コードを記述して、処理および分析された詩を視覚化します。

プロジェクト機能モジュールの設計

データ取得フェーズ、データ クローリング フェーズ、データ分析フェーズ、データ視覚化フェーズは、プロジェクト システムの 4 つの主要なモジュールです。データ準備フェーズには、情報のクエリと情報の収集が含まれます。データ クローリング フェーズには、詩のクローリングが含まれます。データ分析モジュールには、詩の前処理段階と詩の分析段階が含まれます。データ視覚化モジュールとは、データを視覚化することを指します。
(1) データ取得: Baidu を通じて詩の URL を取得します。
(2) データ マイニング: Python コードを記述して、インターネット上の詩をローカル ハード ドライブにクロールします。
(3) データ分析:ローカルハードディスク内の詩をPythonコードを記述してデータ処理・分析し、様々な角度から詩を分析します。
(4) データの視覚化: Python コードを記述して、処理および分析された詩を視覚化します。図 3.1-1 に示すように。
ここに画像の説明を挿入します

プロジェクトのロジックモデル設計

プロジェクトに含まれるモデルは詩モデルです。詩モデルには URL、カテゴリ、本文、単語分割コンテンツが含まれます。本文は、作者、詩のタイトル、王朝、詩の内容を含む詩の主要なコンテンツです。図 3.2-1 に示すように。

ここに画像の説明を挿入します

2. 開発環境

  このプロジェクトでは、開発言語として Python、request、jieba、BeautifulSoup、matplotlib などのサードパーティ ライブラリ、および PyCharm を使用してプロジェクトを開発します。プロジェクトの実施プロセスでは、ソフトウェア エンジニアリングの開発方法が厳密に遵守されます。まずプロジェクトに関するナレッジを収集・検討し、次にニーズを調査・分析してニーズ分析を行います。次に、プロジェクトを詳細に分析し、機能モジュールをリスト化し、最終的に各機能モジュールを段階的に実装します。
  プロジェクトの実装にはプログラミング機能が必要なため、プロジェクトの機能の分析が完了したら、コードを記述する必要があります。プロジェクト全体の設計が完了したら、プロジェクトの各モジュール ブロックを個別にテストするだけでなく、プロジェクトのすべてのモジュールを統合して統合テストを行う必要があります。すべてのモジュールがテストされ、デザインが正常に実行できるようになると、デザイン全体が完全に実現されたことになります

———————————————

3. プログラミング

3.1 データ収集モジュールのテスト

3.1.1 詩の形式とリンクの分析

  詩の全体の URL は https://so.gushiwen.org なので、それを the_main_page_url として定義します。たとえば、ページが https://so.gushiwen.org/gushi/shijing.aspx の場合、Write the_main_page_url/gushi/shijing.aspx と定義します。
  ホームページ the_main_page_url から 300 の唐の詩を見つけることができます。すべての唐の詩が掲載されている URL は、the_main_page_url/gushi/tangshi.aspx です。図4.3.1-1に示すように。
ここに画像の説明を挿入します

図 4.3.1-1
    F12 をクリックして開発者モードに入ります。左上隅にあるマウス ボタンをクリックし、詩の右側をクリックして、詩が配置されている HTML コードと詩の関連情報。図 4.3.1-2 および図 4.3.1-3 に示すように。
ここに画像の説明を挿入します

図4.3.1-2
ここに画像の説明を挿入します

図 4.3.1-3
  観察すると、この詩の関連情報がわかります。名前は「Xinggong」、作者はYuan Zhenであると結論付けることができます。すべての詩が配置されている URL は the_main_page_url/gushi/tangshi.aspx であり、指摘された情報によると、詩が配置されている URL は the_main_page_url/shiwenv_45c396367f59.aspx で取得できます。他のいくつかの詩をクリックすると、the_main_page_url/shiwenv_c90ff9ea5a71.aspx、the_main_page_url/shiwenv_5917bc6dca91.aspx を取得できます。したがって、詩が配置されている URL テンプレートには the_main_page_url というプレフィックスが付いていると結論付けることができ、独自の情報に href="/shiwenv_xxx.aspx" を追加することで、詩が配置されている URL を取得できます。そこで、the_main_page_url/shiwenv_c90ff9ea5a71.aspx などの詩の URL を入力し、キーボードの F12 を押して開発者モードに入ります (図 4.3.1-4 および図 4.3.1-5 に示す情報)。

ここに画像の説明を挿入します

図4.3.1-4
ここに画像の説明を挿入します

図 4.3.1-5
  要素をクリックすると、上の図 4.3.1-5 のすべてのコンテンツを取得できます。
  ここから、詩の名前、作者、王朝、内容が分かります。詩の名前は h1 タグにあり、作者はクラス ソースを持つ p タグの最初の a タグにあります。たとえば、作者の名前は袁振、王朝は 2 番目の a タグにあります。 p タグ内にクラスソースが含まれており、括弧内は詩人の王朝が唐王朝であり、詩の内容がクラスコンソンの div タグ内にあることがわかります。ルールに従って、詩に関するすべての情報を見つけることができます。同様に、作成者の個人ホームページは the_main_page_url/authorv_201a0677dee4.aspx です。
そこで、図 4.3.1-6 および図 4.3.1-7 に示すように、作成者のホームページに入り、開発者モードに入ります。
ここに画像の説明を挿入します

図4.3.1-6
ここに画像の説明を挿入します

図4.3.1-7

  他の機能を通じて、図 4.5-4 に示すように、依然として多くの絵を描き、多くの情報を提供することができます。その関数は ciyun() です。下の図から、文字が大きいほど、誰か、紳士、客人などの登場人物を描写するなど、詩の中に多く登場することがわかります。そのため、「彼」などのホームシックと関連付けることができます。志章の「故郷への帰還」 『奇数の書』の「客がどこから来たのか笑いながら尋ねる」は、詩人の故郷への憧れを表現しており、長い間故郷に戻った子供たちはもはや彼を認識できないほどです。太陽、月、雲は風景を説明するために使用されるため、杜牧の「秦淮の火かき棒」の「煙籠、冷水、月籠の砂」は、霧、霧、寒さの素晴らしい情景を描写しています。季節は春と秋として表現されます...たとえば、杜甫の『蜀の宰相』の「英傑」の「青草は春から来る」では、万物が甦り、春の美しい景色が描かれています。草は青く青く、王波の「杜少夫蜀州任命の別れ」の「海に自信あり」は、詩人と旧友との深い友情を表している。何気なく見ただけでいくつかのキーワードが浮かび上がり、この絵を見た瞬間に、さまざまなおなじみの詩が頭に浮かびます。

ここに画像の説明を挿入します

図4.5-4

4. 結論

  この設計は主に、Python を使用してコードを記述し、詩をマイニングして分析するプロジェクトを実装しており、当初の設計目標を正常に達成しました。このプログラムでは、中華民族の伝統文化についての良い知識と Python 関連の学習コードを得ることができ、主に matplotlib ライブラリなどの Python の非常に便利なモジュールを使用し、コーディング ソフトウェアとして pyCharm を選択しています。このデザインは中国の歴史と文化の普及に役立ち、世界文化の発展を促進します。この情報化時代において、インターネット上での情報の拡散は、中国文化の普及速度と影響力をさらに増大させるだろう。
  テスト後、この設計は (1) データの取得: Baidu を通じて詩の URL を取得することを達成しました。 (2) データ マイニング: Python コードを記述して、インターネット上の詩をローカル ハード ドライブにクロールします。 (3) データ分析:Python コードを記述してローカル ハード ドライブ内の詩の統計と分析を実行し、さまざまな角度から詩を分析します。 (4) データの視覚化:Python コードを記述することにより、処理および分析された詩をさまざまなスタイルの絵に形成し、小さな唐の詩に含まれる大きな「エネルギー」を直感的に示します。
  ただし、このデザインにはいくつかの欠点があり、まだ完全に開発されていますが、より多くの王朝、より多くの詩人の詩、またはすべての詩人の詩をクロールするなど、まだ改善の余地があります。有名なセリフを分析したり、さまざまな絵を通して詩を視覚化してみるなど、詩人や詩、詩を書いたときの気分や環境について詳しく知ることができ、詩の内容を数えるのにも役立ちます。 、そこから詳細情報を入手してください。

目次

目次
要約 I
Python に基づくデータ マイニングと詩の分析 1
データ マイニングとPython2 での詩の分析
1 はじめに 3
2 プロジェクトの概要設計 4
2.1 プロジェクト設計のアイデア 4< a i=7 > 2.2 開発ツールと開発環境の概要 4 2.2.1 PyCharm 開発ソフトウェアの概要 4 2.2.2 Jieba モジュールの概要 4 a> 4.2 プロジェクト環境の構築 9 4.1 プロジェクト実装の概要 9 4 プロジェクトの詳細な設計と実装 9 3.3 プロジェクトの物理構造の設計 8 3.2 プロジェクトの論理モデルの設計 7 3.1 プロジェクトの機能モジュールの設計 7 3 プロジェクト全体の設計 7 2.3.3 運用上の実現可能性 6 2.3.2 経済的な実現可能性 5 2.3.1 技術的な実現可能性 5 2.3 プロジェクトの実現可能性分析 5 2.2.4 BeautifulSoup の概要 モジュール 5 2.2.3 リクエストの概要 モジュール 5 4.2.2 PyCharm のインストール 9 4.2.3 サードパーティ ライブラリのインストール 9 4.3 データ収集モジュール テスト 10 4.3.1 詩の形式とリンク分析 10 4.4 データ マイニング モジュール テスト 14 4.4.1 コードの作成 14 4.4.2 モジュール全体のテスト 16 結論 24 謝辞 25

























おすすめ

転載: blog.csdn.net/QQ2743785109/article/details/133781298