Общие статистические операции включают суммирование, среднее значение и экстремальное значение, соответственно, используя sum(), mean(), max() и min().
Кроме того, вы также можете получить распределение значений, коэффициенты корреляции, создать сводные таблицы и т. д.
1. Подведение итогов
Функция sum() модуля pandas может суммировать каждый столбец данных, и если значение является строковым типом, оно объединяется вместе:
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.sum() #每一列的和
b=dt['利润(元)'].sum() #特定列的和
print(a)
print('----------------------')
print(b)
2. Найдите среднее значение
Используйте mean(), чтобы найти среднее значение каждого столбца, но если тип столбца не является числовым, операция столбца сообщит об ошибке.
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.mean() #每一列的均值
b=dt['利润(元)'].mean() #特定列的均值
print(a)
print('----------------------')
print(b)
3. Найдите экстремальное значение
max(), min(), чтобы найти максимальное значение и минимальное значение
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.max() #每一列的最大值
b=dt['利润(元)'].max() #特定列的最大值
print(a)
print('----------------------')
print(b)
4. Распределение ценностей
Используйте description() для получения распределения всех значений в таблице данных, включая число, среднее значение, экстремальное значение, дисперсию, квартиль и т. д.:
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.describe() #每一列的汇总数据
b=dt['数量(个)'].describe() #特定列的汇总数据
print(a)
print('----------------------')
print(b)
5. Коэффициент корреляции
Коэффициент корреляции обычно используется для измерения степени корреляции между двумя или более элементами, а коэффициент корреляции можно рассчитать с помощью corr() в pandas.
Используемые данные следующие:
Используйте corr() для вычисления коэффициента корреляции:
import pandas as pd
dt=pd.read_excel('相关性分析.xlsx',sheet_name=0)
a=dt.corr() #所有的相关系数
b=dt.corr()['年销售额(万元)'] #特定列的相关系数
print(a)
print('----------------------')
print(b)
6. Обобщить данные по группам
groupby() в pandas может группировать данные, после группировки возвращается объект DataFrameGroupBy, который нельзя отобразить интуитивно, его нужно отобразить с помощью функций статистической работы.
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=dt.groupby('产品').sum() #所有列的分组求和
print(a)
print('----------------------')
b=dt.groupby('产品')['利润(元)'].sum() #特定列的分组求和
print(b)
7. Создайте сводную таблицу
Сводная таблица может выполнять быстрые групповые вычисления в таблице данных, а функция pivot_table() может реализовать сводную таблицу.
import pandas as pd
dt=pd.read_excel('产品统计表.xlsx',sheet_name=0)
a=pd.pivot_table(dt,values=['利润(元)','成本(元)'],index='产品',aggfunc='sum')
#函数的参数分别是:求那一列的透视值('利润(元)','成本(元)'),根据那一列分组(产品),统计的方式(sum)
print(a)
print('----------------------')