[Capítulo 3 Introducción al aprendizaje automático de Python: creación, indexación, división, limpieza de datos, análisis de datos, etc. de series y marcos de datos]


Capítulo 1 Uso de la biblioteca Pandas para comenzar con el aprendizaje automático de Python

Capítulo 2 Uso de la biblioteca NumPy para comenzar con Python Machine Learning

Capítulo 3 Introducción a Python Machine Learning Series y creación de marcos de datos, indexación, división, limpieza de datos, análisis de datos, etc.

Capítulo 4 Visualización de datos para comenzar con el aprendizaje automático de Python
Capítulo 5 Algoritmos de aprendizaje automático para comenzar con el aprendizaje automático de Python
Capítulo 6 Proyectos prácticos para comenzar con el aprendizaje automático de Python
inserte la descripción de la imagen aquí

1. Crear serie

1. Creación de Serie

La serie es una matriz unidimensional que se puede crear mediante:

Crear serie a partir de la lista

Utilice la función pd.Series() para crear un objeto Serie, especifique el parámetro de índice para personalizar el índice y especifique el parámetro dtype para especificar el tipo de datos. Por ejemplo:

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=float)
print(s)

Resultado de salida:

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

Puede usar la función incorporada de Python list() para convertir otros tipos de datos en listas, use la función incorporada de Python range() para generar una secuencia de enteros dentro de un cierto rango, use las funciones en la biblioteca NumPy para generar una secuencia de números aleatorios dentro de un cierto rango, y usa la función integrada de Python zip() combina varias listas en una lista de tuplas.

Crear una serie a partir de un diccionario

Use la función pd.Series() para crear un objeto Serie. La clave del diccionario se usará como el índice de la Serie, y el valor del diccionario se usará como los datos de la Serie. Puede especificar el dtype parámetro para especificar el tipo de datos. Por ejemplo:

d = {
    
    'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s = pd.Series(d, dtype=float)
print(s)

Resultado de salida:

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

En segundo lugar, la creación de DataFrame

DataFrame es una tabla bidimensional, que se puede crear de las siguientes maneras:
WX buscar cuenta oficial: barra de carga de recursos
0R escanear código atención

因为我在学习过程中经常要找资料,而且很多要付费,所以干了个免费的资源分享平台。不要想太多,真的无偿,关注回复想要的资料即可

Uso compartido gratuito de materiales de aprendizaje de TI populares en 2023, varios tutoriales en varias plataformas, código fuente
inserte la descripción de la imagen aquí

Crear marco de datos de la lista

Use la función pd.DataFrame() para crear un objeto DataFrame, puede especificar el parámetro de columnas para personalizar el nombre de la columna y especificar el parámetro de índice para personalizar el índice. Por ejemplo:

data = {
    
    'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data, columns=['name', 'age', 'gender'], index=['a', 'b', 'c', 'd'])
print(df)

Resultado de salida:

a     Alice   25      F
b       Bob   30      M
c   Charlie   35      M
d     David   40      M

Otros tipos de datos se pueden convertir en listas utilizando la función integrada de Python list(), y varias listas se pueden combinar en una lista de tuplas utilizando la función integrada de Python zip().

Crear trama de datos desde el diccionario

Use la función pd.DataFrame() para crear un objeto DataFrame. La clave del diccionario se usará como el nombre de columna del DataFrame, y el valor del diccionario se usará como los datos del DataFrame. Puede especificar el parámetro de columnas para personalizar el nombre de la columna y especifique el parámetro de índice para personalizar el índice. Por ejemplo:

data = {
    
    'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame.from_dict(data, orient='columns', columns=['name', 'age', 'gender'], index=['a', 'b', 'c', 'd'])
print(df)

Resultado de salida:

a     Alice   25      F
b       Bob   30      M
c   Charlie   35      M
d     David   40      M

3. Indexación y corte

Indexación y corte de Series

Utilice el operador [] para la indexación, el método .loc[] para la indexación de etiquetas, el método .iloc[] para la indexación de ubicaciones, la operación de división para las operaciones de división y el índice booleano para las operaciones de filtro. Por ejemplo:

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd',

resultado de salida

1.0 1.0 1.0 b 2.0 c 3.0 d 4.0 e 5.0 dtype: float64

d 4.0 e 5.0 dtype: float64

Indexación y corte de DataFrame

Utilice el operador [] para la indexación, el método .loc[] para la indexación de etiquetas, el método .iloc[] para la indexación de ubicaciones, la operación de división para las operaciones de división y el índice booleano para las operaciones de filtro. Por ejemplo

import pandas as pd

data = {
    
    'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data, columns=['name', 'age', 'gender'], index=['a', 'b', 'c', 'd'])

#索引
print(df['name'])

#标签索引
print(df.loc['a'])

#位置索引
print(df.iloc[0])

#切片
print(df[1:3])

#筛选
print(df[df['age'] > 30])
输出结果:

```csharp
a       Alice
b         Bob
c     Charlie
d       David
Name: name, dtype: object

name      Alice
age          25
gender        F
Name: a, dtype: object

name      Alice
age          25
gender        F
Name: a, dtype: object

       name  age gender
b       Bob   30      M
c   Charlie   35      M

       name  age gender
c   Charlie   35      M
d     David   40      M

4. Limpieza de datos

eliminar filas duplicadas

Use el método .drop_duplicates() para eliminar filas duplicadas en un DataFrame. Por ejemplo:

import pandas as pd

data = {
    
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Bob'], 'age': [25, 30, 35, 40, 30], 'gender': ['F', 'M', 'M', 'M', 'M']}
df = pd.DataFrame(data, columns=['name', 'age', 'gender'])

# 删除重复行
df = df.drop_duplicates()
print(df)

Resultado de salida:

      name  age gender
0    Alice   25      F
1      Bob   30      M
2  Charlie   35      M
3    David   40

5. Reemplazar valores vacíos

Use el método .fillna() para reemplazar valores vacíos en un DataFrame con el valor especificado. Por ejemplo

import pandas as pd

data = {
    
    'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, None, 35, 40], 'gender': ['F', 'M', 'M', None]}
df = pd.DataFrame(data, columns=['name', 'age', 'gender'])

# 替换空值
df = df.fillna({
    
    'age': 30, 'gender': 'M'})
print(df)

Resultado de salida:

       name   age gender
0     Alice  25.0      F
1       Bob  30.0      M
2   Charlie  35.0      M
3     David  40.0      M

6. Conversión de tipos de datos

inserte la descripción de la imagen aquí

En Pandas, la conversión de tipos de datos de Series y DataFrame puede usar el método astype(). El método astype() puede convertir el tipo de datos en Series o DataFrame al tipo de datos especificado. Aquí hay un código de muestra:

import pandas as pd

# 创建一个Series
s = pd.Series(['1', '2', '3'])
print(s)

# 将Series中的数据类型转换为整型
s = s.astype(int)
print(s)

# 创建一个DataFrame
df = pd.DataFrame({
    
    'A': ['1', '2', '3'], 'B': ['4', '5', '6']})
print(df)

# 将DataFrame中的数据类型转换为整型
df = df.astype(int)
print(df)

Resultado de salida:

0    1
1    2
2    3
dtype: object
0    1
1    2
2    3
dtype: int64
  A  B
0  1  4
1  2  5
2  3  6
  A  B
0  1  4
1  2  5
2  3  6

7. Análisis de datos

inserte la descripción de la imagen aquí

En Pandas, el análisis de datos de Series y DataFrame puede usar una variedad de métodos, incluidas estadísticas descriptivas, clasificación, filtrado, agrupación, agregación y otras operaciones. Aquí hay un código de muestra:

import pandas as pd

# 创建一个Series
s = pd.Series([1, 2, 3, 4, 5])

# 描述性统计
print(s.describe())

# 排序
print(s.sort_values(ascending=False))

# 筛选
print(s[s > 3])

# 创建一个DataFrame
df = pd.DataFrame({
    
    'A': [1, 2, 3, 4,{
    
    'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})\n\n# 分组\ngrouped = df.groupby('A')\n\n# 聚合\nprint(grouped.aggregate(['sum', 'mean', 'max']))\n```\n\n输出结果:\n\n```\ncount    5.000000\nmean     3.000000\nstd      1.581139\nmin      1.000000\n25%      2.000000\n50%      3.000000\n75%      4.000000\nmax      5.000000\ndtype: float64\n4    5\n3    4\n2    3\n1    2\n0    1\ndtype: int64\n3    4\n4    5\ndtype: int64\n  B           
  sum mean max
A              
1  6.0  6.0   6
2  7.0  7.0   7
3  8.0  8.0   8
4  9.0  9.0   9
5  10.0 10.0  10

8. Resumen

En la introducción al aprendizaje automático de Python, aprendimos la creación, la indexación, el corte, la limpieza de datos, el análisis de datos y otras operaciones de Series y DataFrame en la biblioteca de Pandas. El siguiente es un resumen de este estudio:

La serie es una matriz unidimensional que se puede crear a través de listas, diccionarios, matrices, etc. Se puede acceder a la serie y modificarla a través de índices, y admite operaciones de división.

DataFrame es una tabla bidimensional que se puede crear mediante listas, diccionarios, matrices, etc. Se puede acceder a DataFrame y modificarlo por nombre de columna e índice de fila, y admite la operación de división.

La limpieza de datos es el trabajo previo al análisis de datos, incluido el tratamiento de problemas como valores faltantes, valores repetidos y valores atípicos. Pandas proporciona una variedad de métodos para la limpieza de datos, como dropna(), fillna(), drop_duplicates(), replace(), etc.

El análisis de datos es el trabajo central de la minería de datos, incluidas las estadísticas descriptivas, la clasificación, el filtrado, la agrupación, la agregación y otras operaciones. Pandas proporciona una variedad de métodos para el análisis de datos, como describe(), sort_values(), groupby(), added(), etc.

La visualización de datos es un medio importante de análisis de datos Puede mostrar la distribución de datos, tendencias y otra información a través de gráficos. Pandas proporciona métodos de visualización para varios tipos de gráficos, como plot(), hist(), scatter(), etc.

En resumen, Pandas es una de las herramientas indispensables en el aprendizaje automático de Python, dominar el uso de Pandas es muy importante para el análisis y la minería de datos.

Supongo que te gusta

Origin blog.csdn.net/CDB3399/article/details/130672027
Recomendado
Clasificación