Pandas-Funktionen:
1. Es stellt ein einfaches, effizientes DataFrame-Objekt mit Standardbeschriftungen bereit (Sie können Beschriftungen auch anpassen). 2. Kann schnell Daten aus Dateien in verschiedenen Formaten laden (z. B. Excel-, CSV-, SQL-Dateien) und sie dann in verarbeitbare Objekte konvertieren. 3. Kann Daten nach Zeilen- und Spaltenbezeichnungen
gruppieren und gruppieren. 4. Kann Daten einfach implementieren Normalisierung und Verarbeitung fehlender Werte;
5. Kann problemlos DataFrame-Datenspalten hinzufügen, ändern oder löschen; 6. Kann Datensätze unterschiedlicher Formate wie Matrixdaten, heterogene Datentabellen, Zeitreihen usw. verarbeiten; bietet verschiedene Möglichkeiten zur Verarbeitung von Datensätzen B. das Erstellen von Teilmengen, das Aufteilen, Filtern, Gruppieren und Neuanordnen.
In Pandas integrierte Datenstrukturen
Es gibt zwei Hauptdatenstrukturen: Series (eindimensionale Datenstruktur) und DataFrame (zweidimensionale Datenstruktur):
Serie ist ein beschriftetes eindimensionales Array, wobei die Beschriftung als Index verstanden werden kann, dieser Index jedoch nicht auf Ganzzahlen beschränkt ist, sondern auch ein Zeichentyp wie a, b, c usw. sein kann; DataFrame ist a tabellarische Datenstruktur
. Sie verfügt über Zeilen- und Spaltenbeschriftungen.
1.Serie
Zunächst müssen wir verstehen, dass der Index einen Zeilenindex (0 ~ N Ganzzahl) und einen Spaltenindex (0 ~ N Ganzzahl) hat.
Erstellen Sie ein Series-Objekt
Der obige Index ist nicht definiert und beginnt daher bei 0 (impliziter Index).
Das Folgende ist eine explizite Indexmethode zum Definieren der Indexbezeichnung
dict erstellt ein Series-Objekt (gibt einen Index für die Daten an)
DataFrame (einfach als Excel-Tabelle betrachtet, beim Erstellen eines Arrays können der Zeilenindex (Index) und der Spaltenindex (Spalten) automatisch generiert werden.)
Aufführen
OK
Verwenden Sie einen Index, um eine Datenspalte abzurufen
element=df_obj['要获取的哪列数据名称'] #df_obj是基于数组创建DataFrame对象的名称可以自己修改
element #输出结果
type(element) #查看返回的结果
Rufen Sie eine Datenspalte nach Namen ab
element=df_obj.No2 #No2就是要获取的那列数据名称根据自己需求自己修改
element
Fügen Sie DataFrame eine Datenspalte hinzu
df_obj['No4']=['g','h'] #添加的列名称为No4,第一行为g,第二行为h。
df_obj
Löschen Sie eine Datenspalte für DataFrame
del df_obj['No3'] #删除No3的一列数据
df_obj
Das Pandas-Indexobjekt kann geändert oder nicht geändert werden
Pandas-Reset-Index
Gibt den Auffüllwert für die Auffüllung beim Zurücksetzen des Index an
Indexoperation
Indizierungsvorgänge für DataFrame
Pandas sortieren nach Index
Statistische Berechnung und Beschreibung der Pandas
import numpy as np
import pandas as pd
df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj)
print('求和')
print(df_obj.sum())
print('求最大值')
print(df_obj.max())
print('按行求最小值')
print(df_obj.min(axis=1))
hierarchischer Index
http://t.csdn.cn/6pGGD (sehr guter Beispielartikel)
Lese- und Schreibvorgänge für Daten
Betrieb:
Programmfrage
Antwort:
Numpy als NP importieren
arr = np.zeros(5)
drucken(arr)
Antwort:
numpy als np importieren
arr = np.zeros((8,8),dtype=int)
arr[1::2,::2] = 1
arr[::2,1::2] = 1
drucken(arr)