Python-Datenanalysetool Pandas

Pandas-Funktionen:

1. Es stellt ein einfaches, effizientes DataFrame-Objekt mit Standardbeschriftungen bereit (Sie können Beschriftungen auch anpassen). 2. Kann schnell Daten aus Dateien in verschiedenen Formaten laden (z. B. Excel-, CSV-, SQL-Dateien) und sie dann in verarbeitbare Objekte konvertieren. 3. Kann Daten nach Zeilen- und Spaltenbezeichnungen
gruppieren und gruppieren. 4. Kann Daten einfach implementieren Normalisierung und Verarbeitung fehlender Werte;
5. Kann problemlos DataFrame-Datenspalten hinzufügen, ändern oder löschen; 6. Kann Datensätze unterschiedlicher Formate wie Matrixdaten, heterogene Datentabellen, Zeitreihen usw. verarbeiten; bietet verschiedene Möglichkeiten zur Verarbeitung von Datensätzen B. das Erstellen von Teilmengen, das Aufteilen, Filtern, Gruppieren und Neuanordnen.




In Pandas integrierte Datenstrukturen

Es gibt zwei Hauptdatenstrukturen: Series (eindimensionale Datenstruktur) und DataFrame (zweidimensionale Datenstruktur):

Serie ist ein beschriftetes eindimensionales Array, wobei die Beschriftung als Index verstanden werden kann, dieser Index jedoch nicht auf Ganzzahlen beschränkt ist, sondern auch ein Zeichentyp wie a, b, c usw. sein kann; DataFrame ist a tabellarische Datenstruktur
. Sie verfügt über Zeilen- und Spaltenbeschriftungen.

1.Serie

Zunächst müssen wir verstehen, dass der Index einen Zeilenindex (0 ~ N Ganzzahl) und einen Spaltenindex (0 ~ N Ganzzahl) hat.

Erstellen Sie ein Series-Objekt

 Der obige Index ist nicht definiert und beginnt daher bei 0 (impliziter Index).

Das Folgende ist eine explizite Indexmethode zum Definieren der Indexbezeichnung

dict erstellt ein Series-Objekt (gibt einen Index für die Daten an)

 DataFrame (einfach als Excel-Tabelle betrachtet, beim Erstellen eines Arrays können der Zeilenindex (Index) und der Spaltenindex (Spalten) automatisch generiert werden.)

Aufführen

 OK

 Verwenden Sie einen Index, um eine Datenspalte abzurufen

element=df_obj['要获取的哪列数据名称'] #df_obj是基于数组创建DataFrame对象的名称可以自己修改
element #输出结果
type(element) #查看返回的结果

Rufen Sie eine Datenspalte nach Namen ab

element=df_obj.No2 #No2就是要获取的那列数据名称根据自己需求自己修改
element

Fügen Sie DataFrame eine Datenspalte hinzu

df_obj['No4']=['g','h'] #添加的列名称为No4,第一行为g,第二行为h。
df_obj

Löschen Sie eine Datenspalte für DataFrame

del df_obj['No3'] #删除No3的一列数据
df_obj

Das Pandas-Indexobjekt kann geändert oder nicht geändert werden

 Pandas-Reset-Index

 Gibt den Auffüllwert für die Auffüllung beim Zurücksetzen des Index an

 Indexoperation

 Indizierungsvorgänge für DataFrame

Pandas sortieren nach Index

 Statistische Berechnung und Beschreibung der Pandas

import numpy as np
import pandas as pd

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj)


print('求和')
print(df_obj.sum())


print('求最大值')
print(df_obj.max())


print('按行求最小值')
print(df_obj.min(axis=1))

hierarchischer Index

http://t.csdn.cn/6pGGD (sehr guter Beispielartikel)

Lese- und Schreibvorgänge für Daten

 Betrieb:

 

Programmfrage
Antwort:
Numpy als NP importieren

arr = np.zeros(5)

drucken(arr)

Antwort:
numpy als np importieren

arr = np.zeros((8,8),dtype=int)

arr[1::2,::2] = 1

arr[::2,1::2] = 1

drucken(arr)

Supongo que te gusta

Origin blog.csdn.net/qq_68890680/article/details/130158735
Recomendado
Clasificación