Notas de estudo de Python, dia 58 (funções comuns do Pandas)

Enterprise 2023-09-09 20:49:20 views: null

Notas de estudo de Python, dia 58

Funções comuns do Pandas
pós-escrito

Funções comuns do Pandas

A seguir listamos algumas funções comumente usadas e exemplos de uso do Pandas:

Ler dados

função	ilustrar
pd.read_csv(nome do arquivo)	Leia arquivos CSV;
pd.read_excel(nome do arquivo)	Ler arquivos Excel;
pd.read_sql(consulta, objeto_de_conexão)	Ler dados do banco de dados SQL;
pd.read_json(json_string)	Ler dados da string JSON;
pd.read_html(url)	Leia dados de páginas HTML.

A seguir, demonstramos o uso de cada função.

# 实例 1
import pandas as pd

# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')

# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)

# 从 JSON 字符串中读取数据
json_string = '{"name": "John", "age": 30, "city": "New York"}'
df = pd.read_json(json_string)

# 从 HTML 页面中读取数据
url = 'https://www.runoob.com'
dfs = pd.read_html(url)
df = dfs[0] # 选择第一个数据框

Ver dados

função	ilustrar
df.head(n)	Exiba as primeiras n linhas de dados;
df.cauda(n)	Exiba as últimas n linhas de dados;
df.info()	Exibir informações de dados, incluindo nomes de colunas, tipos de dados, valores ausentes, etc.;
df.describe()	Exibir informações estatísticas básicas de dados, incluindo média, variância, valor máximo, valor mínimo, etc.;
df.forma	Exibe o número de linhas e colunas de dados.

A seguir, demonstramos o uso de cada função.

# 实例 2
# 显示前五行数据
df.head()

# 显示后五行数据
df.tail()

# 显示数据信息
df.info()

# 显示基本统计信息
df.describe()

# 显示数据的行数和列数
df.shape

# 实例 3
import pandas as pd

data = [
    {
    
    "name": "Google", "likes": 25, "url": "https://www.google.com"},
    {
    
    "name": "Runoob", "likes": 30, "url": "https://www.runoob.com"},
    {
    
    "name": "Taobao", "likes": 35, "url": "https://www.taobao.com"}
]

df = pd.DataFrame(data)
# 显示前两行数据
print(df.head(2))
# 显示前最后一行数据
print(df.tail(1))

Limpeza de dados

função	ilustrar
df.dropna()	Exclua linhas ou colunas contendo valores ausentes;
df.fillna(valor)	Substitua os valores ausentes por valores especificados;
df.replace(valor_antigo, valor_novo)	Substitua o valor especificado por um novo valor;
df.duplicado()	Verifique se há dados duplicados;
df.drop_duplicates()	Remova dados duplicados.

A seguir, demonstramos o uso de cada função.

# 实例 4
# 删除包含缺失值的行或列
df.dropna()

# 将缺失值替换为指定的值
df.fillna(0)

# 将指定值替换为新值
df.replace('old_value', 'new_value')

# 检查是否有重复的数据
df.duplicated()

# 删除重复的数据
df.drop_duplicates()

Seleção e fatiamento de dados

função	ilustrar
df[nome_coluna]	Selecione a coluna especificada;
df.loc[row_index, column_name]	Selecione os dados por tag;
df.iloc[row_index, column_index]	Selecione dados por localização;
df.ix[row_index, column_name]	Selecione os dados por rótulo ou localização;
df.filter(items=[nome_coluna1, nome_coluna2])	Selecione a coluna especificada;
df.filter(regex='regex')	Selecione colunas cujos nomes de coluna correspondam à expressão regular;
df.amostra(n)	Selecione aleatoriamente n linhas de dados.

A seguir, demonstramos o uso de cada função.

# 实例 5
# 选择指定的列
df['column_name']

# 通过标签选择数据
df.loc[row_index, column_name]

# 通过位置选择数据
df.iloc[row_index, column_index]

# 通过标签或位置选择数据
df.ix[row_index, column_name]

# 选择指定的列
df.filter(items=['column_name1', 'column_name2'])

# 选择列名匹配正则表达式的列
df.filter(regex='regex')

# 随机选择 n 行数据
df.sample(n=5)

classificação de dados

função	ilustrar
df.sort_values(nome_coluna)	Classifique pelo valor da coluna especificada;
df.sort_values([nome_coluna1, nome_coluna2], ascendente=[Verdadeiro, Falso])	Classifique pelos valores de múltiplas colunas;
df.sort_index()	Classifique por índice.

A seguir, demonstramos o uso de cada função.

# 实例 6
# 按照指定列的值排序
df.sort_values('column_name')

# 按照多个列的值排序
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False])

# 按照索引排序
df.sort_index()
数据分组和聚合
函数	说明
df.groupby(column_name)	按照指定列进行分组；
df.aggregate(function_name)	对分组后的数据进行聚合操作；
df.pivot_table(values, index, columns, aggfunc)	生成透视表。

# 实例 7
# 按照指定列进行分组
df.groupby('column_name')

# 对分组后的数据进行聚合操作
df.aggregate('function_name')

# 生成透视表
df.pivot_table(values='value', index='index_column', columns='column_name', aggfunc='function_name')

mesclagem de dados

função	ilustrar
pd.concat([df1, df2])	Mesclar vários quadros de dados de acordo com linhas ou colunas;
pd.merge(df1, df2, on=column_name)	Mescla dois quadros de dados com base em colunas especificadas.

A seguir, demonstramos o uso de cada função.

# 实例 8
# 将多个数据框按照行或列进行合并
df = pd.concat([df1, df2])

# 按照指定列将两个数据框进行合并
df = pd.merge(df1, df2, on='column_name')

Seleção e filtragem de dados

função	ilustrar
df.loc[row_indexer, column_indexer]	Selecione linhas e colunas por rótulo.
df.iloc[row_indexer, column_indexer]	Selecione linhas e colunas por posição.
df[df['nome_coluna'] > valor]	Selecione linhas em uma coluna que atendam aos critérios.
df.query('nome_coluna > valor')	Use uma expressão de string para selecionar linhas em uma coluna que atenda a uma condição.

Estatísticas e descrição

função	ilustrar
df.describe()	Calcule estatísticas básicas como média, desvio padrão, mínimo, máximo, etc.
df.média()	Calcule a média de cada coluna.
df.mediana()	Calcule a mediana de cada coluna.
df.modo()	Calcule a moda de cada coluna.
df.contagem()	Conte o número de valores não ausentes em cada coluna.

Suponha que temos os seguintes dados JSON e os dados são salvos no arquivo data.json:
arquivo data.json

[
  {
    
    
    "name": "Alice",
    "age": 25,
    "gender": "female",
    "score": 80
  },
  {
    
    
    "name": "Bob",
    "age": null,
    "gender": "male",
    "score": 90
  },
  {
    
    
    "name": "Charlie",
    "age": 30,
    "gender": "male",
    "score": null
  },
  {
    
    
    "name": "David",
    "age": 35,
    "gender": "male",
    "score": 70
  }
]

Podemos usar Pandas para ler dados JSON e realizar operações como limpeza e processamento de dados, seleção e filtragem de dados, estatísticas e descrição de dados, como segue:

# 实例 9
import pandas as pd

# 读取 JSON 数据
df = pd.read_json('data.json')

# 删除缺失值
df = df.dropna()

# 用指定的值填充缺失值
df = df.fillna({
    
    'age': 0, 'score': 0})

# 重命名列名
df = df.rename(columns={
    
    'name': '姓名', 'age': '年龄', 'gender': '性别', 'score': '成绩'})

# 按成绩排序
df = df.sort_values(by='成绩', ascending=False)

# 按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({
    
    '年龄': 'mean', '成绩': 'mean'})

# 选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名', '成绩']]

# 计算每列的基本统计信息
stats = df.describe()

# 计算每列的平均值
mean = df.mean()

# 计算每列的中位数
median = df.median()

# 计算每列的众数
mode = df.mode()

# 计算每列非缺失值的数量
count = df.count()

pós-escrito

O que você está aprendendo hoje são funções comuns do Python Pandas. Você as aprendeu? Um resumo do conteúdo de aprendizagem de hoje:

Funções comuns do Pandas
Ler dados
Ver dados
Limpeza de dados
Seleção e fatiamento de dados
classificação de dados
mesclagem de dados
Seleção e filtragem de dados
Estatísticas e descrição

Acho que você gosta

Origin blog.csdn.net/qq_54129105/article/details/132262570

Notas de estudo de Python, dia 58 (funções comuns do Pandas)

Notas de estudo do Python no dia seguinte

Notas de estudo do Python, dia 57 (limpeza de dados do Pandas)

Notas de estudo do Python, dia 52 (instalação do Pandas)

Notas de estudo de Python, dia 53 (série Pandas)

Notas de estudo das funções integradas do Python

Notas de estudo básicas do Python - funções

Notas de estudo do MySQL ------ restrições comuns

Notas de estudo do Python (função)

Notas de estudo do Python quinquagésimo sexto (Pandas JSON)

Biblioteca de funções comuns do Python

[3.5] Python notas de estudo dia14 string (profundidade seqüência de compreensão de alguns métodos comuns)

Notas de estudo do Python (referência da biblioteca de funções)

Notas de estudo do Python (quatro) - compreensão das funções

Notas de estudo de Python: funções avançadas

Notas de estudo do Python um: função integrada str

Flexibilidade Estudo Notas dia18] [Python 4.2 Funções

Coleção de notas de estudo de Python (resumo do Pandas)

notas de estudo python - tipos de dados comuns da cadeia

[Notas de estudo do Python] 09 ancestral Yuan, dicionário, conjunto de operações comuns e princípios básicos do dicionário

Notas de estudo sobre o Python, dia 6

[Notas de estudo do Python] loop python

notas de estudo do python (5) -base de função e parâmetros de função

O Pandas costumava usar a estrutura de dados das notas do estudo de análise de dados do Python em 2020 (5)

Notas de estudo do Python (tuplas, listas)

Notas de estudo do Python-Qimage

notas de estudo Python100Days --- interface gráfica do usuário Dia10 e desenvolvimento de jogos

notas de estudo Python100Days --- lógica do programa de construção Dia5

O sexagésimo quinto dia de notas de estudo do Python (Matplotlib desenha vários gráficos)

dia de estudo Python 33 (soquete princípio do servidor de mensagens ligações circulares)

Recomendado

Clasificación

Diario

Más

2024-06-15(0)

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)