DataWhale & Pandas(综合练习)

DataWhale & Pandas(综合练习)


Pandas学习手册


学习大纲: 


这一小节是综合练习,共有三个任务,如下所示:


import numpy as np
import pandas as pd

【任务一】企业收入的多样性

【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:

                                                                                                    $$ \rm I=-\sum_{i}p(x_i)\log(p(x_i)) $$

其中$$ \rm p(x_i) $$是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I 。

【数据下载】数据集下载链接 密码:u6fd


【任务二】组队学习信息表的变换

【题目描述】请把组队学习的队伍信息表变换为如下形态,其中“是否队长”一列取1表示队长,否则为0

【数据下载】数据集下载链接     密码:iz57


【任务三】美国大选投票情况

【题目描述】两张数据表中分别给出了美国各县(county)的人口数以及大选的投票情况,请解决以下问题:

  • 有多少县满足总投票数超过县人口数的一半
  • 把州(state)作为行索引,把投票候选人作为列名,列名的顺序按照候选人在全美的总票数由高到低排序,行列对应的元素为该候选人在该州获得的总票数

  • 每一个州下设若干县,定义拜登在该县的得票率减去川普在该县的得票率为该县的BT指标,若某个州所有县BT指标的中位数大于0,则称该州为Biden State,请找出所有的Biden State

【数据下载】数据集下载链接 提取码:q674

还没想出来,看完题解后补一下吧

猜你喜欢

转载自blog.csdn.net/adminkeys/article/details/112003826