一些变量筛选方法——5、真实数据与总结

这里使用两个真实数据进行前面所述方法的应用。


真实数据

在实际数据运用中,针对高维和超高维数据的情况,算法该如何使用?如何实现?这里我们使用两组数据,一组是课本中提到的Hitters数据,另一组是自己搜索整理而出的土耳其新闻数据。前者是数十维,后者则是上千维。


课本Hitters数据

课本中的案例实验是以Hitters数据为例,这里进行重现。

数据简介

这个数据集取自卡耐基梅隆大学的StatLi图书馆。这份统计数据是从1987的《棒球百科全书》得到,记录了1986和1987年两个赛季的数据,共包含322个观测样本,以及20个变量。后面我们将利用变量筛选的方法对其进行变量选择。

数据分析

我们以Salary作为自变量,其余19个变量(AtBat, Hits, HmRun, Runs, RBI, Walks, Years, CAtBat, CHits, CHmRun, CRuns, CRBI, CWalks, League, Division, PutOuts, Assists, Errors, NewLeague)作为因变量分别使用下述方法进行变量筛选:

最优子集选择:

通过最优子集筛选,筛选出的变量为:
AtBat, Hits, Walks, CHmRun, CRuns, CWalks, DivisionW, PutOuts

向前逐步回归:

通过向前逐步回归,筛选出的变量为:
AtBat, Hits, Walks, CRuns, CRBI, CWalks, DivisionW, PutOuts

向后逐步回归:

通过向后逐步回归,筛选出的变量为:
AtBat, Hits, Walks, CRuns, CRBI, CWalks, DivisionW, PutOuts

比较上述三种方法发现,其变量相差不是很大。由于案例的特殊性,在这里向前逐步回归和向后逐步回归得到的结果是完全一致的。其实在很多真实数据中,这两者之间可能会有一定的差异。

LASSO:

使用LASSO的根据其 λ 的变化,我们可以得到如下的路径图:


可以看出第十五个变量:DivisionW(下面那条绿色的曲线),对于Salary变量而言非常重要。Division是个分类变量,它有E和W两个,E代表东部,W代表西部。出现DivisionW这表示薪水差异和球员所属的是东部还是西部有很大的关系。其系数为负数,表示西部球员的薪水要普遍低于东部球员的薪水。

然后我们需要进行变量选择:首先使用交叉验证确定 λ 的值(本案例中,使用一倍标准误的 λ λ 1 s e = 57.6 ),然后使用这个值带入,再进行重新建模,最后选择出的变量为:
Hits, Walks, CRuns, CRBI, DivisionW

通过这个选出的变量不难发现,通过 L 1 做变量选择和前面的子集选择 L 0 方法相比有一定的差距,但是选择出的变量个数更少。这也从真实数据的角度印证了前面模拟实验得出的结论:使用LASSO进行变量筛选,由于使用了 λ 1 s e ,其往往会比较“严苛”,但其效果也很突出。所以其比较适用于大规模,超高维度的数据的情形,在不影响准确率的前提下,这样一次降维的幅度也比较大。

由于时间的限制,这里不再做更多的展开,而为了试试SIS在真实数据中的实践过程,本文接着分析下面的土耳其新闻数据,这是一个超高维数据。


土耳其新闻数据

数据简介

本研究所用到的数据集来自于UCI数据库,数据名称为TTC-3600。它包括了来自土耳其6个知名门户的3,600份文件,涵盖了经济、文化、健康、政治、体育和科技等六大领域。门户名称如下:

  1. http://dosyalar.hurriyet.com.tr/rss

  2. http://www.posta.com.tr/rss

  3. http://www.iha.com.tr/rss.html

  4. http://www.haberturk.com/rss

  5. http://www.zaman.com.tr/rss

  6. http://www.zaman.com.tr/rss_rssMainPage.action?sectionId=341

机器学习分类器通常将文本文档处理为一堆文字。向量空间模型是一个单词袋的改进版本,其中每个文本文档被表示为一个向量,每个维度对应一个单独的术语(词)。如果一个术语出现在文档中,那么它的值在矢量中变成非零。 从TC角度考虑时,目标是使用文档的训练集来构造包含每个类别的特征的向量。在向量空间模型中,术语加权是一个关键的步骤,而影响术语重要性的三个主要部分分别是:词频(TF),逆文档频率因子(IDF)和文档长度归一化。 归一化因子如以下等式计算:

w 1 2 + w 2 2 + . . . + w t 2

其中 w (即TF x IDF)的计算公式:

w k i = t f i k log ( N / n k ) k = 1 n ( t f i k ) 2 [ log ( N / n k ) ] 2

其中 t k 是文档 d i 中的第k项; t f i k 是文档 d i 中单词 t k 的频率; log ( N / n k ) 是词 n k 在数据集中的逆文档频率因子; n k 是包含单词 t k 的文档的数量; N是数据集中文档数目。

根据预处理过程的不同,TTC-3600有三种不同的数据集:

  1. Original:不应用预处理步骤。

  2. FPS-5:选择术语的前五个字符作为词干并且去除停止词。

  3. FPS-7:选择术语的前七个字符作为词干并且去除停止词。

于是我们得到了以下三份数据集:

Dataset 变量个数 自变量类型 因变量类型
FPS-5 3209 连续型变量 分类变量(6分类)
FPS-7 4818 连续型变量 分类变量(6分类)
Original 7508 连续型变量 分类变量(6分类)

数据一共包含3600个样本。在预处理完后,发现由于写报告的时间不是很充裕,所以这里只以FPS-5数据集为例,如何对超高维变量进行数据筛选。

根据我们之前模拟实验的结果,发现面对这种超高维的数据我们先用DC-SIS进行初步筛选,然后再使用LASSO,再来进行回归预测,同时再次进行降维,以此筛选出最重要的变量。

数据分析

先使用DC-SIS,对FPS-5数据集中数据进行初步降维,保留变量个数 n / log ( n ) ,这样我们就保留了440个变量,这个部分使用了四核并行运算,大约跑了1个小时。

然后针对筛选出的440个变量,我们再使用LASSO进行回归。参数系数路径图如下所示:

由于变量太多,发现从参数系数图中不能看出具体的系数情况,然后我们使用交叉验证选出最佳的 λ 1 s e = 0.0049 。从下图中我们也能看出 λ 的最优取值范围,最后我们选取的 λ 值在 log ( 6 ) 附近。

这里写图片描述

然后再用选出的 λ 进行模型的拟合,得到最后的模型,最后LASSO回归的结果还剩下360个变量。这次从440个变量中选出了360个,比例非常高,说明了本来440个变量本身就已经非常重要,也间接说明了前面DC-SIS的有效。后面我们使用这些变量可以进行后续的机器学习等方法实践,但由于本文不对其他方法进行讨论,所以这里不进行后续分析。

上面两个真实数据主要是为了进行实践,由于时间原因,在模拟实验上耗时太久,所以在分析上其实还有很多不足。


总结

在大数据时代的今天,变量筛选与数据降维是一个非常实用的课题,这个研究方向在现在也非常的热门,各种新方法层出不穷。

本文对线性回归模型中的变量选择方法,到非线性模型的变量选择方法再到无模型假设的如今一些处理超高维数据的新方法进行了概述。并在文章后半段利用R语言进行数据模拟实验,用不同的方式比较不同的方法之间的差异性。最后,以课本上数据实验和土耳其知名门户网站上的新闻数据为例,将变量选择融合进入数据实际分析中。

针对实际的数据,没有最好的方法,只有最适合的方法,并且方法的迭代非常快。需要实时保持对最新方法的关注,才能紧跟时代的潮流。

最后本文的一个小遗憾是由于课程报告的时间有限,许多高维模拟没办法完成,以致于很多地方比较的不够全面。


参考文献

[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning(Second Edition). 2009.

[2] Donoho D L. High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality[J].

Lecture  Math Challenges of Century. 2000:178-183.

[3] Fan J, Li R. Statistical challenges with high dimensionality: Feature selection in knowledge dis-covery. Proceedings of the International Congress of Mathematicians. 2006. pp. 595622.

[4] Fan J, Lv J. A Selective Overview of Variable Selection in High Dimensional Feature S-pace.[J].Statistica Sinica, 2010, 20(1):101-148.

[5] James G, Witten D, Hastie T, et al. An Introduction to Statistical Learning[M]. Springer New York, 2013.

[6] Zeng J, Zhou J. Variable Selection for High-dimensional Data Model: A Survey[J]. Journal of Applied Statistics and Management, 2017, 36(4):678-692.

[7] Mallows C L. Some Comments on Cp. Technometrics, Vol. 15, No. 4 (Nov. 1973), pp. 661-675[J].

[8] Akaike H. A new look at the statistical model identification[J]. Automatic Control IEEE Transactions on, 1974, 19(6):716-723.

[9] Schwarz G. Estimating the Dimension of a Model[J]. Annals of Statistics, 1978, 6(2):págs. 15-18.

[10] Tikhonov A. Solution of Incorrectly Formulated Problems and the Regularization Method[J].

Soviet Math Dokl, 1963, 5(4).

[11] Akaike H. A new look at the statistical model identification[J]. Automatic Control IEEE Transactions on, 1974, 19(6):716-723.

[12] Tibshirani R. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society (Series B), 1996, 58: 267-288.

[13] Fan J, Li R. Variable selection via nonconcave penalized likelihood and its oracle properties [J].

Journal of the American Statistical Association, 2001, 96 1348 1360.

[14] Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space [J]. Journal of the Royal Statistical Society, 2008, 70(5): 849-911.

[15] Breiman L. Heuristics of Instability and Stabilization in Model Selection. The Annals of Statis-tics, 24(6), 2350-2383[J]. 1996, 24(6):1031310325.

[16] Narendra P M, Fukunaga K. A Branch and Bound Algorithm for Feature Subset Selection[J].

IEEE Transactions on Computers, 2006, C-26(9):917-922.

[17] Zou H. The adaptive lasso and its oracle properties [J], Journal of the American Statistical Asso-ciation, 2006, 101: 1418-1429.

[18] Zou H, Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society, 2005, 67(5):301-320.

[19] G. J. Szekely; M. L. Rizzo; N. K. Bakirov , Measuring and Testing Independence by Correlation of Distances, Annals of Statistics, 2007, 35 (6): 27692794.

[20] Runze Li, Wei Zhong, Liping Zhu. Feature Screening via Distance Correlation Learning[J]. Journal of the American Statistical Association, 2012, 107(499):1129.

[21] Wen C, Zhang A, Quan S, et al. BeSS: An R Package for Best Subset Selection in Linear, Logistic and CoxPH Models[J]. 2017.

猜你喜欢

转载自blog.csdn.net/weixin_41929524/article/details/80400450
今日推荐