[python] статистические операции pandas с данными

Общие статистические операции включают суммирование, среднее значение и экстремальное значение, соответственно, используя sum(), mean(), max() и min().

Кроме того, вы также можете получить распределение значений, коэффициенты корреляции, создать сводные таблицы и т. д.

1. Подведение итогов

Функция sum() модуля pandas может суммировать каждый столбец данных, и если значение является строковым типом, оно объединяется вместе:

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.sum()                  #每一列的和
b=dt['利润(元)'].sum()       #特定列的和
print(a)
print('----------------------')
print(b)

 2. Найдите среднее значение

Используйте mean(), чтобы найти среднее значение каждого столбца, но если тип столбца не является числовым, операция столбца сообщит об ошибке.

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.mean()                  #每一列的均值
b=dt['利润(元)'].mean()       #特定列的均值
print(a)
print('----------------------')
print(b)


3. Найдите экстремальное значение

max(), min(), чтобы найти максимальное значение и минимальное значение

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.max()                  #每一列的最大值
b=dt['利润(元)'].max()       #特定列的最大值
print(a)
print('----------------------')
print(b)

 4. Распределение ценностей

Используйте description() для получения распределения всех значений в таблице данных, включая число, среднее значение, экстремальное значение, дисперсию, квартиль и т. д.:

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.describe()                  #每一列的汇总数据
b=dt['数量(个)'].describe()                  #特定列的汇总数据
print(a)
print('----------------------')
print(b)

5. Коэффициент корреляции

Коэффициент корреляции обычно используется для измерения степени корреляции между двумя или более элементами, а коэффициент корреляции можно рассчитать с помощью corr() в pandas.

Используемые данные следующие:

Используйте corr() для вычисления коэффициента корреляции:

import pandas as pd

dt=pd.read_excel('相关性分析.xlsx',sheet_name=0)
a=dt.corr()                                 #所有的相关系数
b=dt.corr()['年销售额(万元)']                  #特定列的相关系数
print(a)
print('----------------------')
print(b)

 6. Обобщить данные по группам

groupby() в pandas может группировать данные, после группировки возвращается объект DataFrameGroupBy, который нельзя отобразить интуитивно, его нужно отобразить с помощью функций статистической работы.

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.groupby('产品').sum()                                 #所有列的分组求和
print(a)
print('----------------------')
b=dt.groupby('产品')['利润(元)'].sum()                       #特定列的分组求和
print(b)

7. Создайте сводную таблицу

Сводная таблица может выполнять быстрые групповые вычисления в таблице данных, а функция pivot_table() может реализовать сводную таблицу.

import pandas as pd

dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=pd.pivot_table(dt,values=['利润(元)','成本(元)'],index='产品',aggfunc='sum')
#函数的参数分别是:求那一列的透视值('利润(元)','成本(元)'),根据那一列分组(产品),统计的方式(sum)
print(a)
print('----------------------')

 

Supongo que te gusta

Origin blog.csdn.net/weixin_39407597/article/details/126493914
Recomendado
Clasificación