通过RCpp计算连续值的信息增益 - 代码天地

通过RCpp计算连续值的信息增益

其他 2018-04-28 14:28:05 阅读次数: 5

R语言没有计算连续值的信息增益的包，连续值的信息增益需要不断在连续值之间找到最优的切分点，使得信息增益最大，用R循环来计算会非常慢。所以此次使用了RCpp来辅助计算，第一列是特征列，第二类是标签列，特征列的值需要先排序。以下是程序。

#Rcpp

cppFunction(
  
  '
  double inforGain(NumericVector x, NumericVector y) {
    int n = x.size();
        int num_r = 0;
  int num_a = 0;
  int all_r = 0;
  for (int i = 0; i < n; i++) {
  if (y[i] == 1) {
  all_r++;
  }
  }
  double all_a = n - all_r;
  double gain = 0.0;
  double entropyBefore;
  if ( all_r  == 0 || all_r == n) {
  entropyBefore = 0.0;
  } else {
  entropyBefore = - all_r * 1.0/ n * log2(all_r * 1.0 / n) - (1- all_r * 1.0 / n) * log2(1 - all_r * 1.0/ n);
  }
  for(int i = 0; i < n - 1; i++) {
  if (y[i] == 1) {
  num_r++;
  } else {
  num_a++;
  }
  
  if (x[i] != x[i+1]){
  double p1 = num_r * 1.0 / (num_r + num_a);
  double entropy1;
  if (num_r == 0 || num_a == 0) {
  entropy1 = 0.0;
  } else {
  entropy1 = -((p1*log2(p1)) + (1-p1)*log2(1-p1));
  }
  double entropy2;
  double p2 = (all_r - num_r) * 1.0 / (n - i - 1);
  if (all_r - num_r == 0 || all_a - num_a == 0) {
  entropy2 = 0.0;
  } else {
  entropy2 = -((p2*log2(p2)) + (1-p2)*log2(1-p2));
  }
  double entropy = entropy1 * (i + 1) / n + entropy2 * (n - i - 1)/ n;
  double gainTemp = entropyBefore - entropy;
  if (gainTemp > gain) {
  gain = gainTemp;
  }
  }
  }
  return gain;
  }
  ')
x <- c(8  ,18  , 18 ,  21,   24,   25,   28)
y <- c(0    ,1   , 0  ,  0 ,   0 ,   0 ,   0)

inforGain(x,y)
[1] 0.1981174

猜你喜欢

转载自www.cnblogs.com/bianjiehui/p/8967386.html

通过RCpp计算连续值的信息增益

Unorder 值的信息熵增益计算

信息增益的计算

决策树-信息熵-信息增益-基尼系数-剪枝操作-连续值处理-缺失值处理

【结合实例】信息增益的计算

python详细步骤计算信息增益

Python实现计算信息增益的香农熵

信息增益

熵、信息增益、信息增益比

信息增益比 vs 信息增益

信息增益，信息增益率

用python实现求信息增益，进行特征选择。（可以同时适用于二值离散型和连续型的属性）

信息熵和信息增益的简单理解与计算

决策树（信息熵、信息增益、信息增益率、基尼值和基尼指数、剪枝）

机器学习-决策树 -计算信息增益

决策树中信息增益计算和代码理解

信息熵、信息增益与信息增益率

信息熵、信息增益和信息增益比

机器学习---决策树的划分依据（熵、信息增益、信息增益率、基尼值和基尼指数）

信息增益、信息增益比和GINI例子

熵、信息增益、信息增益率

熵——信息增益

信息增益与熵

信息增益辅助决策

信息增益的介绍

信息增益 IG

信息增益的代码实现

熵与信息增益

特征抽取-信息增益

信息增益的算法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)