パンダのテキストデータ処理と時系列

文字テキスト
Pandasは、文字列データを便利に操作できる一連の文字列関数を提供します。最も重要なことは、これらの関数はNaN値を無視することです。次のメソッドは、ほとんどすべてPythonの組み込み文字列関数をサポートしています。パンダのいくつかの方法がサポートされています正規表現、次のようにreplace()、/ xyxをもっと試すことができます。

関数名 説明
lower() Series / Indexの文字列を小文字に変換します。
アッパー() Series / Indexの文字列を大文字に変換します。
len() 文字列の長さを計算します。
ストリップ() 両側のシリーズ/インデックスの各文字列からスペース(改行を含む)を削除するのに役立ちます。
スプリット('') 指定されたパターンで各文字列を分割します。
cat(sep = '') 指定されたセパレータを使用して、シリーズ/インデックス要素を連結します。
get_dummies() ワンホットエンコーディング値を持つデータフレーム(DataFrame)を返します。
含む(パターン) 要素に部分文字列が含まれている場合は、各要素のブール値Trueが返されます。含まれていない場合は、Falseになります。
replace(a、b) 値aを値bに置き換えます。
リピート(値) 各要素を指定された回数繰り返します。
count(パターン) パターン内の各要素の出現の総数を返します。
開始(パターン) シリーズ/インデックスの要素がパターンで始まる場合はtrueを返します。
で終わる(パターン) シリーズ/インデックスの要素がパターンで終わる場合はtrueを返します。
find(パターン) パターンが最初に表示された位置を返します。
findall(パターン) パターンのすべての出現のリストを返します。
swapcase() 大文字と小文字を変更します。
islower() シリーズ/インデックスの各文字列のすべての文字が小文字であるかどうかを確認し、ブール値を返します
isupper() シリーズ/インデックスの各文字列のすべての文字が大文字であるかどうかを確認し、ブール値を返します
isnumeric() シリーズ/インデックスの各文字列のすべての文字が数字であるかどうかを確認し、ブール値を返します。

上記の方法は必要に応じて使用できますが、選択後は使用に注意strして文字列に変換することで効果的です。
といった

import pandas
df = pd.DataFrame({
    
    'name':['jack','MIKE']})
df['name'] = df['name'].str.upper() #全部转化为大写

時系列生成時間範囲
を使用できますpd.date_range(start=None, end=None, periods=None, freq='D')

  • 開始と終了および周波数の組み合わせにより、開始と終了の範囲内の周波数周波数を持つ一連の時間インデックスを生成できます。
  • 開始と期間および頻度の組み合わせにより、開始から開始する頻度頻度で期間インデックスを生成できます。

freqの可能な値:
パラメータ説明
コードのデモンストレーション

import numpy as np
import pandas as pd
index1 = pd.date_range('2020-05-14',freq="D",periods=5)
df = pd.DataFrame(np.random.rand(5),index=index1)
index2=pd.date_range('2020-6-16 12:45',freq="T",periods=5)
ndf = pd.DataFrame(np.random.rand(5),index=index2)

結果のスクリーンショット
結果のスクリーンショット

おすすめ

転載: blog.csdn.net/qq_44091773/article/details/106078855