高维数据探索 (High-Dimensional Data Exploration) - 代码天地

高维数据探索 (High-Dimensional Data Exploration)

其他 2018-10-10 13:40:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/eengel/article/details/53994280

在医学领域做数据分析，经常把数据先整理成一张大宽表，然后再进行诸如疾病风险预测之类的建模。这张大宽表每行代表一个患者（case）的数据，而且通常会包含非常多列，每列对应某一种数据（feature）比如患者基本信息、诊断、检查结果等。这样的数据如果有非常多的行和列，则可以被称作是高维数据(High-DimensionalData Exploration)。在进行具体建模分析之前，非常重要的一步是理解数据。数据探索就是为了在做具体数据分析之前，尽可能地了解某个数据集的特点[1]，看看它能告诉我们什么。

在拿到一个高维临床数据集时，最常见的比如要知道里面包含的患者都是什么样的人。如果数据集有成千上万行，那么不可能把这成千上万个患者都看一遍，这个时候最直观的就是做采样sampling。选取其中比较有代表性的若干个患者，做为整个数据集中全体患者的代表。这个选择又有多种方式。尽可能地随机选择是一种方式，先ranking排序，再选择top k的是一种方式，先filtering再找到有代表性的患者是一种方式，在某些feature上先进行summarization，比如得到了全体患者在年龄维度上的分布，再对整个数据集做总结，也是一种方式。还有就是做自动聚类clustering，综合多个维度上的特点，将患者聚类成几大群，从而做出总结。

这是从case的角度来看如何做数据探索。从feature的角度，也有若干种方法可以辅助。比如先做featureselection，再看不同的case在选中的feature上特性如何。再比如先做feature projection，将多维投影到一个低维空间，再做诸如summarization,clustering等操作。

[1] Exploratory data analysis. https://en.wikipedia.org/wiki/Exploratory_data_analysis

猜你喜欢

转载自blog.csdn.net/eengel/article/details/53994280

高维数据探索 (High-Dimensional Data Exploration)

data exploration with R

Data Exploration using Pandas 　pandas库　数据读取＆清洗

Beginning Data Exploration and Analysis with Apache Spark 使用Apache Spark开始数据探索和分析中文字幕

特征工程集锦：A Comprehensive Guide to Data Exploration

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

Machine learning approximation algorithmsfor high-dimensional fully nonlinear PDE

rrt_exploration自主探索建图

2017-04-04 Salient Region Detection via High-Dimensional Color Transform and Local Spatial Support

VIDOSAT- High-dimensional Sparsifying Transform Learning for Online Video Denoising(March.2)

论文笔记：Top-N Recommendation with High-Dimensional Side Information via Locality Preserving Projection

Beamspace MIMO for High-Dimensional Multiuser Communication at Millimeter-Wave Frequencies 阅读笔记一

How to carry out data exploration of large datasets using BigQuery, Pandas, and Juypter？

Real-Time Rendering——16.1 Sources of Three-Dimensional Data三维数据的来源

Airflow exploration

强化学习方法（一）：探索-利用困境exploration exploitation，Multi-armed bandit

智能优化算法定性分析：探索与开发分析(Analysis of the exploration and exploitation)

基于RRT（快速探索随机树）算法 rrt_exploration实现真实机器人自主探索建图

hdu 5222 Exploration

Design Space Exploration (DSE)

Career Exploration and Selection

Treasure Exploration POJ - 2594

Exploration与Exploitation相关解释

POJ 2594 Treasure Exploration

Big picture of high dimensional probability

数据（Data）

poj 3618Exploration(排序）

POJ-2594 Treasure Exploration

jzxx1846Space Exploration

Exploration and Apprenticeship Learning in Reinforcement Learning

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)