R语言去重操作unique duplicate filter - 代码天地

R语言去重操作unique duplicate filter

编程语言 2022-08-05 14:12:57 阅读次数: 0

比如有一个数据框，根据第一列ID去重，将所有重复的行删除，你用unique和duplicate函数，可能是错误的，这里总结一下。

模拟数据

set.seed(123)
dat = data.frame(ID = c(1:10,9,4,4,9,9,2),y = rnorm(16))
dat

需求：
把ID重复的行都去掉。

错误1：用unique函数

unique函数，会去掉重复的ID，保留不重复的ID，利用 1,2，3,1中1是重复的，用unique之后剩下：1,2，3，而不是2,3。

所以，下面的步骤是错误的。

uid = unique(dat$ID)
dat[dat$ID %in% uid,]

错误2：duplicate函数

duplicate会返回TRUE和FALSE状态，返回的是唯一值，而不是去掉所有重复ID的值。类似unique，不是我们想要的。

dat[!duplicated(dat$ID),]

正确1：用filter函数

先判断出现的次数，提取ID，然后用filter进行提取。

uid = dat %>% count(ID) %>% filter(n ==1) %>% select(ID)
uid
dat[dat$ID %in% uid$ID,]

正确2：用%in%

先用duplicate打印出重复的ID，然后用filter排除即可。

uid2  = dat$ID[duplicated(dat$ID)]
uid2

dat %>% filter(!ID %in% uid2)

完整测试代码：

set.seed(123)
dat = data.frame(ID = c(1:10,9,4,4,9,9,2),y = rnorm(16))
dat

# 错误方法
dat[!duplicated(dat$ID),]


# 正确方法1
uid = unique(dat$ID)
dat[dat$ID %in% uid,]

uid = dat %>% count(ID) %>% filter(n ==1) %>% select(ID)
uid
dat %>% filter(ID %in% uid$ID)




# 正确方法2
uid2  = dat$ID[duplicated(dat$ID)]
uid2

dat %>% filter(!ID %in% uid2)

猜你喜欢

转载自blog.csdn.net/yijiaobani/article/details/125372333

R语言去重操作unique duplicate filter

R--unique&duplicate

filter去重

关于[scrapy] DEBUG:Filtered duplicate request: (dont_filter=True)

Remove Duplicate from List(链表去重)

Remove Duplicate from Array(数组去重)

30、filter数组去重

LeetCode Contains Duplicate 利用set 容器去重

数组filter()参数详解，巧用filter()数组去重

lucene4.7 过滤Filter（六） ---去重的filter（DuplicateFilte）

filter数组去重，用filter()筛选出素数

关于mysql中unique的插入Duplicate key

dplyr 中的filter报错：Can‘t transform a data frame with duplicate names

js利用filter()给数组去重

使用filter进行数组去重

R语言switch语句报错Error: duplicate ‘switch‘ defaults

MySQL操作之ON DUPLICATE KEY UPDATE

HBase filter shell操作

数组操作 map filter

Duplicate entry '874-974' for key 'unique_userid_commentid'

Maven : maven异常记录-must be unique maven duplicate declaration of version

学以致用——Java源码——对用户输入进行去重处理（Duplicate Elimination）

利用filter过滤去重

filter

$filter

Bloom Filter替换Scrapy-Redis集合去重

js 前端 filter 过滤，去重，查找 findIndex 等等

js实现数组去重简洁代码(filter,Set,reduce)

MYSQL中ON DUPLICATE KEY UPDATE对数据进行insertOrUpdate操作

mysql insert的几点操作(DELAYED 、IGNORE、ON DUPLICATE KEY UPDATE )

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)