高通量、全基因组的DNA芯片已经成为生物领域十分有用的工具。然而，芯片实验产生的数据量日益增长，由于不同的分析方法，会得出不同结论，因而分析起着关键作用。

基因芯片分析目的

基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因，从中寻找特定模式并对每个基因给予注释，从而挖掘出隐含的生物学过程并抽提出生物学的或功能层面上的意义。
根据芯片的使用目的，一张芯片可能包含数十、数百甚至数十万的不同序列。被排列成矩阵的DNA片段通常称为探针，而样本RNA则被成为靶标。

基因芯片原理

基本的芯片实验中，样本mRNA首先被反转录成cDNA（在过程中同时被荧光标记），后与芯片上的核酸探针混合，互补杂交的cDNA就结合到芯片上，而未被杂交的样本被洗脱掉。

芯片被一个荧光扫描仪扫描后，芯片上某个位置探针结合上了样本中互补的核酸，就在该位置显出了一个荧光点，此位置提示基因的身份，而荧光强度则提示了原始样本中该mRNA水平的高低。芯片技术不只用于检测基因表达，也可以用于检测单核苷酸多态性等。

芯片技术的方法

在芯片技术中有两种基本方法：单染色技术和双染色技术

单染色技术

单染色技术是将一个样本经一种荧光标记后单独杂交的一张芯片上，是目前使用最多的方法。将一个样本单独与一张芯片杂交，可以方便简单地在多张芯片之间进行比较。
产生的芯片数据为单通道信号数据，这种方法产生的数据变异大，需要通过重复实验来减少误差。

双染色技术

双染色技术是把两个样本用不同荧光标记后一起杂交到同一张芯片上。用于检测两种不同条件下基因表达的差异情况，如疾病组织和正常组织（往往多个正常组织DNA混合在一起，作为”pool“样本）；处理组与对照组。两个样本（如处理与对照）被两种不同荧光标记。一个样本的cDNA用Cy5（一种显示为红色染料）标记，另一个样本用Cy3（一种显示为绿色的染料）标记。这两种荧光标记的样本混合后与芯片上的探针竞争杂交。
这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较，有助于减少数据变异性，提高组间差异表达分析的准确性，同时减少了芯片的使用量，节约了成本。但由于使用这种技术已经确定好了实验设计，就无法与其他样本进行比较了。

芯片公司

当前，市场上芯片主要来自三家公司：Affymetric公司、Agilent公司和Illumina公司。

基因芯片分析工具

基因芯片分析一般对硬件要求不高，普通的计算机就能运行，但如果处理较多的数据量时，建议提高内存，一般拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多，但各有优缺点。根据难易程度推荐以下三款软件和工具。

工具	优点	缺点
GeneSpring	互动式的视窗操作界面，傻瓜式操作，功能强大，拥有超过4400篇的高水平参考文献的引用，表达谱数据分析的金标准	商业软件收费，操作繁琐，功能拓展性差。如同SPSS一样，适用于零基础
BRB-Array	基于excel的分析工具，自动调用R包，功能强大，拓展性强，操作简单，免费使用	专业性强，格式要求高，稍有不符就报错。适用于有一定专业基础
R-Bioconductor	R语言，生信必学的分析工具，强大的统计分析和作图工具，集合了几乎所有最新的分析算法和工具包，免费下载使用	需要有一定计算机编程能力

bioconductor包，会讲如何用 lumi包来处理这个芯片数据。
用bioconductor系列包来处理是最方便的，看这个教程就够了：https://bioconductor.org/packages/release/data/experiment/vignettes/BeadArrayUseCases/inst/doc/BeadArrayUseCases.pdf
数据处理流程还在plos one杂志上面发表过文章：http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002276
BMC也有一篇：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4486126/ 他们团队做了一个网页版工具，直接可以上传illumina芯片的原始数据去做全套分析：http://www.arrayanalysis.org/

数据下载

一般来说要比较和整合不同实验室和不同实验的数据是比较困难的。因此，科学家成立了一个联盟（MGED学会）来规范化芯片数据的输出和注释，促进数据共享和统一数据库的建立。

指定的标准化规则称为MIAME，权威期刊一般只接受遵循MIAME规则的芯片数据论文。NCBI的GEO和EBI的ArrayExpress是目前最大的公开资源数据库，用于存储和发布与MIAME相容的芯片数据。

illumina的bead 系列表达芯片

表达芯片大家最熟悉的当然是affymetrix系列芯片啦，而且分析套路很简单，直接用R的affy包，就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。illumina出厂的芯片略微有点不一样，它的原始数据有3个层级，一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。
http://www.bio-info-trainee.com/1937.html

其实对芯片数据处理最重要的过程，就是如何做QC以及拿到表达量矩阵，后面的差异分析，功能富集分析其实是大同小异的。
原文链接：芯片基础知识打卡
http://www.biotrainee.com/thread-992-1-1.html
(出处: 生信技能树)

GEO数据挖掘（3）-芯片基础知识