Pythonデータ分析入門:Numpy、Pandas、Matplotlib、Scikit-Learnの詳細解説

Python データ分析入門チュートリアル

ナンピーライブラリ

NumPy は、Python の科学計算用の基本モジュールであり、多次元配列および行列演算関数を提供します。

import numpy as np

arr = np.array([1, 2, 3]) 
print(arr)

NumPy の配列は、Python 独自のリストよりも数値計算やデータ分析に適しています。

パンダ図書館

Pandas は NumPy 上に構築されており、より高度なデータ分析機能を提供します。

import pandas as pd

data = pd.DataFrame({
  "name":["John", "Mary"],
  "age":[30, 25]  
})

print(data)

Pandas の DataFrame は 2 次元のテーブルとみなすことができ、データのロードと分析に便利です。

Matplotlib のプロット

Matplotlib を使用すると、データ分析や視覚化によく使用されるさまざまなグラフを描画できます。

import matplotlib.pyplot as plt

x = [1, 2, 3, 4]
y = [2, 4, 6, 8]

plt.plot(x, y)
plt.show()

少ないコードで棒グラフ、散布図、ヒストグラムなどのさまざまなグラフを描画できます。

Scikit-Learn機械学習

Scikit-Learn は、一般的に使用される機械学習アルゴリズムを提供します。

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)

データ分析と機械学習のパイプラインは、Pandas と Scikit-Learn に基づいて構築できます。

NumPy の配列と演算

NumPy は Python 言語の重要な拡張ライブラリであり、主にデータ分析にとって非常に重要な配列および行列の演算に使用されます。この記事では、NumPy 配列オブジェクトと関連する操作を詳しく紹介します。

NumPy 配列オブジェクト

NumPy の ndarray (N 次元配列オブジェクト) は、標準の Python リストよりも科学技術計算に適した、高速かつ柔軟な大規模データ セット コンテナーです。

import numpy as np

arr = np.array([1, 2, 3])
print(arr)

arr = np.array([[1, 2], [3, 4]]) 
print(arr) 
ndarray是一个同质数据的多维容器,在创建时可以指定数据类型。
python
arr = np.array([1, 2, 3], dtype=np.float32)
ndarray的维数 called shape,可以通过shape属性获得:
python 
arr = np.array([[1,2,3], [4,5,6]])
print(arr.shape) # (2, 3) 

次元数は 2 を超える場合があり、これは高次元配列を示します。配列のサイズは size 属性と呼ばれます。

配列作成関数

np.array は、配列を作成する最も基本的な方法です。np は、配列を作成するための他の関数も提供します。

arr = np.zeros(10) # 10个0 

arr = np.ones((2, 3), dtype=int) # 2x3全1数组

arr = np.full((3, 5), 6) # 3x5全6数组
np.random模块可以生成随机数组:
python
arr = np.random.random((2, 4)) # 2x4随机数组

arr = np.random.normal(0, 1, (3, 3)) # 正态分布 

配列演算

NumPy では、配列全体に対して要素ごとに算術演算を実行できます。

arr1 = np.array([1, 2, 3])
arr2 = np.array([2, 3, 4])
print(arr1 + arr2) # [3 5 7]

print(arr1 * 2) # [2 4 6]

一般的に使用される配列演算には、合計、統計、ブロードキャストなども含まれます。

arr = np.array([[1,2], [3,4]]) 

print(arr.sum()) # 10

print(arr.min()) # 1
print(arr.max()) # 4 

arr1 = np.array([[1, 2]])
arr2 = np.array([2, 3])
print(arr1 + arr2) # broadcasting

配列インデックス

ndarray は多次元インデックスをサポートしており、特定の要素を取得できます。

arr = np.array([[1,2,3], [4,5,6], [7,8,9]])

print(arr[1, 2]) # 6

print(arr[0:2, 1]) # [2 5] 切片
布尔数组索引:
python 
arr = np.array([1, 2, 3, 4])
bool_idx = arr > 2 

print(arr[bool_idx]) # [3 4]

配列演算の概要

  • ndarray は NumPy の基本的な配列オブジェクトであり、リストよりも科学技術計算に適しています。
  • ゼロ、ランダムなどの複数の配列作成方法をサポートします。
  • 合計、平均などの数学的および統計的演算を実行できます。
  • 配列要素はインデックス付けとスライスを通じて操作できます。

NumPy の配列操作は Python の科学計算の基礎であり、強固な基盤を築くために徹底的に研究する必要があります。

要約する

この記事では、Numpy ライブラリ、Pandas ライブラリ、Matplotlib プロット、Scikit-Learn 機械学習に焦点を当てた、Python データ分析の入門チュートリアルを紹介します。では、簡単にまとめてみましょう!

まずはNumpyライブラリです。Numpy は Python の強力な数値計算ライブラリであり、多次元配列オブジェクトと豊富な配列演算関数を提供することがわかりました。Numpy を使用すると、配列の作成、操作、インデックス付けが簡単にできるほか、さまざまな数学演算や線形代数演算も実行できます。

次に Pandas ライブラリを紹介しました。Pandas はデータ分析と処理のための重要なツールであり、DataFrame オブジェクトを提供することで、データを柔軟に処理および分析できます。Pandas を通じて、データ セットの読み取り、データのクリーンアップ、変換、統合を行い、データのフィルタリング、並べ替え、グループ化などの高度なデータ操作を実行できます。

次に、Matplotlib のプロットです。Matplotlib は、さまざまな種類の静的、動的、対話型のグラフの作成に使用できる機能が豊富なプロット ライブラリです。折れ線グラフ、棒グラフ、散布図、円グラフのいずれであっても、Matplotlib はスタイルとラベルを設定することでニーズを満たし、グラフを美しくすることができます。

最後に、Scikit-Learn 機械学習があります。Scikit-Learn は、一般的に使用されるさまざまな機械学習アルゴリズムとツールを提供する強力な機械学習ライブラリです。Scikit-Learn を通じて、データの前処理、特徴量エンジニアリング、モデルのトレーニングと評価などを実行できます。教師あり学習、教師なし学習、半教師あり学習などのさまざまな学習タスクをサポートします。

つまり、この記事を学ぶことで、Python データ分析についての理解が深まります。Numpy、Pandas、Matplotlib、Scikit-Learn は、データ分析と機械学習の分野でより良い結果を達成するのに役立つ重要なツールです。この記事が皆さんにインスピレーションを与え、役立つことを願っています。一緒に Python データ分析の素晴らしい世界に入りましょう。


おすすめのPythonブティックコラム

Pythonの基礎知識(0基礎入門)

【Python基礎知識】 0.print()関数
【Python基礎知識】 1.データ型、データ応用、データ変換
【Python基礎知識】 2.if条件判定と条件ネスト
【Python基礎知識】 3.input()関数
【Pythonの基礎知識】 4. リストと辞書
【Pythonの基礎知識】 5. Forループとwhileループ
【Pythonの基礎知識】 6. ブール値と4種類のステートメント(break、Continue、pass、else)
【Pythonの基礎知識】 7. 実践操作 ~Pythonを使って「Word PK」ゲームを実装してみる(1)
【Pythonの基礎】 7. 実践操作 ~Pythonを使って「Word PK」ゲームを実装してみる(2)
【Pythonの基礎】 8. プログラミング的思考:問題の解決方法 思考編
【Pythonの基礎知識】 9. 関数の定義と呼び出し
【Pythonの基礎知識】 10. 関数を使ったプログラムの書き方 実践編
【Pythonの基礎知識】 10. Pythonの使い方じゃんけんゲームを実装する - 関数の実践操作編
【Pythonの基礎】 11. デバッグ方法 - よくあるエラー原因とトラブルシューティングの考え方 - 考え方の章
【Pythonの基礎】 12. クラスとオブジェクト(1)
【Pythonの基礎】 12 . クラスとオブジェクト (2)
【Pythonの基礎知識】 13. クラスとオブジェクト (3)
【Pythonの基礎知識】 13. クラスとオブジェクト (4)
【Pythonの基礎知識】 14. ライブラリ管理システムの構築(実践)クラスやオブジェクトの操作)
【Pythonの基礎知識】 15. コーディングの基礎知識
【Pythonの基礎知識】 16. ファイルの読み書きと操作の基礎
【Pythonの基礎知識】 16. 「古詩書き取り問題」のPython実装(ファイルの読み書きとコーディング~実践操作)
【Pythonの基礎知識】 17. モジュールの概念と導入方法
【Python基礎】 18. 実践的な運用~Pythonを使って大量メール自動送信~
【Python基礎】 19. プロダクトの考え方とフローチャートの使い方~考え方
【Python基礎】 20. Pythonの実装「お昼何を食べるか」の(プロダクト思考~実践運用編)
【Pythonの基礎知識】 21. 効率よくダラダラ開く正しい開き方~卒業
【Python ファイル処理】 CSV ファイルの読み込み・加工・書き込み
【Python ファイル処理】 】Excel自動処理(openpyxlを使用)
【Pythonファイル処理】 - Excel形式処理


Python クローラーの知識

【python クローラー】 1. クローラーの基礎知識
【python クローラー】 2. Web ページの基礎知識
【python クローラー】 3. クローラー初体験(BeautifulSoup 解析)
【python クローラー】 4. クローラーの実践操作(ディッシュクローリング)
【pythonクローラー】 5 .クローラーの実践操作(歌詞のクローリング)
【Python クローラー】 6. クローラーの実践操作(パラメーター付きデータのリクエスト)
【Python クローラー】 7. クロールされたデータはどこに保存されるの?
[Python クローラー] 8. 過去を振り返り、新しいことを学ぶ
[Python クローラー] 9. Cookie (クッキー) でログインする
[Python クローラー] 10. ブラウザーに自動で動作するよう指示する (Selenium)
[Python クローラー] 11. クローラーに任せる時間通りに報告する
[Python クローラー] 12. クローラー軍団を構築する
[Python クローラー] 13. 太らない食事とは (クローラー実習)
[Python クローラー] 14. Scrapy フレームワークの説明
[Python クローラー] 15. Scrapy フレームワークの実践(人気のジョブクローリング Take)
【Python クローラー】 16. クローラーの知識ポイントのまとめと復習

おすすめ

転載: blog.csdn.net/qq_41308872/article/details/132873978
おすすめ