数据的图表展示

数据预处理

数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核筛选排序等。

数据审核

数据审核就是检查数据中是否有错误。

对于通过调查取得的原始数据(raw data),主要从完整性和准确性两个方面去审核。

完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。

准确性审核主要是检查数据是否有错误,是否存在异常值等。

通过代码表示的话,可以使用python中pandas库对数据做具体操作;

如果一份数据中存在缺失值,通过pandas读出数据后,会将缺失值表示为 NaN,只需统计NaN的状态就可以展示数据的完整性如何。

也可以通过pandas检查数据的准确性   ,例如一份数据,里面的数值不能出现为0,则可以通过pandas计算这份数据是否存在为0数值,从而进行准确性审核。

样例:

数据筛选

数据筛选(data filter)是根据需要找出符合特定条件的某类数据。

比如,找出销售额在1000万元以上的企业;找出考试成绩在90分以上的学生,等等。

数据筛选可借助计算机自动完成,例如用excel进行数据筛选,python的pandas库进行数据筛选。

样例:

数据排序

数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。

除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。

在某些场合,排序本身就是分析的目的之一,例如了解究竟谁是中国汽车生产的三巨头,对于汽车生产厂商而言不论它是作为伙伴还是竞争者,都是很有用的信息。

pandas表示数据排序的话,可以使用pandas中的 sort_index() 、sort_values() 、rank() 等方法进行。

sort_index():通过索引排序

sort_values():通过值进行排序

rank() :对列里面的值做排名

品质数据的整理与展示

数据经过预处理后,可根据需要进一步做分类或分组。

在对数据进行整理时,首先要弄清所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。

对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。

品质数据包括分类数据和顺序数据,它们在整理和图形展示的方法上大多是相同的,但也有些微小差异。

分类数据的整理与图示

分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,

然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据及其特征有一个初步的了解。

待补充……………

顺序数据的整理与图示

顺序数据,除了可使用上面的整理和显示技术,还可以使用累计频数&累计频率(百分比)
(排序后,分为向上累加和向下累加的形式)

待补充………………

数值型数据的整理与展示

数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据(grouped data)。

数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。

数据分组的方法有单变量值分组和组距分组两种。

数据展示

待补充……

猜你喜欢

转载自www.cnblogs.com/bigtreei/p/11789881.html
今日推荐