data.table使用总结

其他 2020-09-18 11:46:32 阅读次数: 0

目录

数据读取
选择行列
数据清洗
生成新的列
- 对所有行生成
- 对满足条件的行生成
筛选
- 按照列的值去筛选
合并两个表
长数据和宽数据的转换
- 宽数据转换为长数据
- 长数据转换为宽数据
排序
分组统计

数据读取


df1=fread("E:/Research/df1.csv",header=T)
df2=fread("E:/Research/df2.csv",header=T)

选择行列

df=df[,Variable] #返回向量
df=df[,.(Variable)] #返回data.table
df=df[,c("Variable"),with=FALSE] #返回一个数据框
df=df[["Variable"]] #返回一列x向量，同第一个
# Varibale可以是列名也可以是列编号

数据清洗

缺失值处理

缺失值删除

df=df[ID !="NA"]

缺失值替换

SparseVariables = c("Variable1","Variable2","Variable3")
for (col in SparseVariables)
    set(df, which(is.na(df[[col]])),col,0)

转换数据类型

NumericVariables=c("Var1","Var2")
df[,(NumericVariables):=lapply(.SD,as.numeric),.SDcols=NumericVariables]

生成新的列

对所有行生成

df[,":="(Var1 = Var2+ Var3)]
df[,":="(Var1 = Var2+ Var3, Var4 = Var5 + Var6)]
df[, c('Var1', 'Var5') := list(Var2+ Var3, Var5 + Var6)]

对满足条件的行生成

df[Var1=="0",':='(Var1_flag = 1)]

筛选

按照列的值去筛选

df2=df[Var1=="1"]

合并两个表

df_final=df_1[df_2,on="ID",nomatch=0]

长数据和宽数据的转换

宽数据转换为长数据

df_long=melt(df_wide,id.vars = "ID",measure.vars = c("Var1","Var2","Var3"),variable.name = "Var",value.name = "Var_valuet)

长数据转换为宽数据

df_wide=dcast(df_long,ID+Var1+Var2~Var3,value.var ="ValueName",fun.aggregate = sum)

排序

setkey(df_cluster,label)

分组统计

df_PPEG=df3 %$% .[,":="(diff=abs(Po-Pr))] %$% .[,.(PPGE=mean(diff,na.rm = TRUE)),by=ID]
df_SDGB=df2[,.(SDGB=sd(na.omit(glucose))),by=c("ID","Day")] %$% .[,.(meanSDGB=mean(SDGB,na.rm = TRUE)),by=ID]

猜你喜欢

转载自blog.csdn.net/Alleine/article/details/103622953

data.table使用总结

R语言data.table包的使用

data.table学习（1）

data.table基础知识

data.table包使用应该注意的一些细节

R语言data.table导入数据实战:把data.table数据转化为data.frame数据

pandas与data.table比较和常用操作整理

R语言：data.table语句批量生成变量

R语言必学包之data.table包

R语言data.table导入数据实战:data.table删除特定数据列

R语言进行dataframe数据左连接（Left join）：使用R原生方法、data.table、dplyr等方案

【R语言】合并行操作中data.frame与data.table的性能比较

R报：不存在叫‘data.table’这个名字的程辑包，以及：‘data.table’ These will not be installed之类问题的解决方法

R语言合并两个或多个有序数dataframe实战（dataframe的纵向合并）：使用R原生方法、data.table、dplyr等方案

R语言基于多字段（多数据列、multiple columns）对dataframe的行数据进行排序（Ordering rows）实战：使用R原生方法、data.table、dplyr等方案

懒癌必备-dplyr和data.table让你的数据分析事半功倍

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言进行数据聚合统计（Aggregating transforms）计算滑动窗口统计值（Window Statistics）：使用R原生方法、data.table、dplyr等方案、计算滑动分组统计

R语言将dataframe数据从宽表（wide）变为长表(long)实战：tidyr包的gather函数、cdata包的unpivot_to_blocks函数、data.table使用melt函数

R语言stats包的setNames函数和data.table包的setnames函数为数据对象设置名称实战

Bootstrap table 使用总结

bootstrap table使用总结

load data infile into table 的使用例子

[UE C++] Data Table的使用

table data

bootstrap table 简单使用总结

Bootstrap-table使用总结

Bootstrap-table 使用总结

Unreal 5 实现Data Table 数据表格的使用

bootstrap table使用总结（显示图片）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)