Minería de datos GEO (3) -conocimientos básicos de chips

Los chips de ADN de genoma completo de alto rendimiento se han convertido en herramientas muy útiles en el campo biológico. Sin embargo, la cantidad de datos generados por los experimentos con chips está aumentando. Los diferentes métodos de análisis llevarán a diferentes conclusiones, por lo que el análisis juega un papel clave.

Propósito del análisis de chips genéticos

  • El análisis de chips de genes consiste en utilizar métodos bioinformáticos para encontrar genes clave que puedan desempeñar un papel en los efectos biológicos de estos datos de chips, encontrar patrones específicos y anotar cada gen, para desenterrar procesos biológicos ocultos y extraerlos. El significado biológico o funcional .

  • Dependiendo del propósito del chip, un chip puede contener decenas, cientos o incluso cientos de miles de secuencias diferentes. Los fragmentos de ADN dispuestos en una matriz generalmente se denominan sondas y la muestra de ARN se denomina objetivo .

Principio de Gene Chip

En los experimentos básicos del chip, la muestra de ARNm se transcribe primero en sentido inverso en ADNc (marcado simultáneamente con fluorescencia en el proceso), después de que las sondas de ácido nucleico en la mezcla del chip , se complementen para hibridar al ADNc para unirse al chip , sin hibridar la muestra. eluido.

Después de que el chip es escaneado por un escáner de fluorescencia, la sonda en una determinada posición en el chip se une al ácido nucleico complementario en la muestra, y se muestra una mancha fluorescente en esa posición. Esta posición indica la identidad del gen y el La intensidad de la fluorescencia indica el nivel original de ARNm en la muestra . La tecnología de chip no solo se usa para detectar la expresión de genes , sino que también se puede usar para detectar polimorfismos de un solo nucleótido .

Método de tecnología de chip

Hay dos métodos básicos en la tecnología de chips: tecnología de tinción simple y tecnología de tinción doble

Tecnología de un solo tinte

  • La técnica de tinción única consiste en hibridar una muestra por separado en un chip después de una etiqueta fluorescente y es actualmente el método más utilizado. La hibridación de una muestra con un solo chip permite comparar fácilmente varios chips.
  • Los datos del chip generados son datos de señales de un solo canal, los datos generados por este método tienen una gran variación y es necesario repetir el experimento para reducir el error.

Técnica de doble tinción

  • La técnica de doble tinción consiste en hibridar dos muestras con diferentes marcadores fluorescentes en el mismo chip. Se utiliza para detectar la diferencia en la expresión génica en dos condiciones diferentes, como tejido enfermo y tejido normal (a menudo se mezclan varios ADN de tejido normal como una muestra "agrupada"): grupo de tratamiento y grupo de control. Dos muestras (como tratamiento y control) se marcan con dos fluorescencias diferentes. El ADNc de una muestra se etiquetó con Cy5 (un tinte que se muestra en rojo) y la otra muestra se etiquetó con Cy3 (un tinte que se muestra en verde). Las dos muestras marcadas con fluorescencia se mezclan para competir con las sondas en el chip para la hibridación.
  • Los datos de chip así generados son datos de señales de dos canales. Esta señal de datos de doble canal facilita la comparación directa entre dos muestras, ayuda a reducir la variabilidad de los datos, mejora la precisión del análisis de expresión diferencial entre grupos, reduce la cantidad de chip utilizado y ahorra costes. Pero debido a que el diseño experimental se ha determinado mediante esta técnica, no se puede comparar con otras muestras.

Compañía de chips

Actualmente, los chips del mercado provienen principalmente de tres empresas: Affymetric, Agilent e Illumina .

Herramienta de análisis de chips genéticos

El análisis de chips genéticos generalmente no requiere altos requisitos de hardware y las computadoras comunes pueden ejecutarlo. Sin embargo, si está procesando una gran cantidad de datos, se recomienda aumentar la memoria. Por lo general, un procesador con 16 g de memoria e i7 básicamente puede Ejecute todo el análisis rápidamente. En la actualidad, existen muchas herramientas de análisis para el chip genético, pero cada una tiene ventajas y desventajas. Según el grado de dificultad, se recomiendan los siguientes tres software y herramientas.

herramienta ventaja Desventaja
GeneSpring Interfaz de operación de ventana interactiva, operación tonta, función potente, con más de 4400 referencias de alto nivel, el estándar de oro para el análisis de datos de perfil de expresión El software comercial cobra, la operación es engorrosa y la funcionalidad es deficiente. Como SPSS, aplicable a base cero
BRB-Array Herramienta de análisis basada en Excel, que llama automáticamente al paquete R, función potente, gran capacidad de expansión, operación simple, uso gratuito Fuerte profesionalismo, requisitos de alto formato, se informará el error si hay alguna discrepancia. Adecuado para una determinada base profesional.
R-Bioconductor R Language, una herramienta de análisis que los estudiantes deben aprender, potentes herramientas de dibujo y análisis estadístico, una colección de casi todos los algoritmos de análisis y kits de herramientas más recientes, descarga y uso gratuitos Necesita tener cierta capacidad de programación informática

paquete bioconductor, Hablaré sobre cómo usar el paquete lumi para procesar los datos del chip.
Es más conveniente utilizar el paquete de la serie bioconductor para procesar, solo vea este tutorial: https://bioconductor.org/packages/release/data/experiment/vignettes/BeadArrayUseCases/inst/doc/BeadArrayUseCases.pdf El
proceso de procesamiento de datos es Todavía hay un artículo publicado en la revista plos one: http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002276
BMC también tiene un artículo: https: //www.ncbi.nlm. nih.gov/ pmc / articles / PMC4486126 / Su equipo ha creado una herramienta de versión web, que puede cargar directamente los datos sin procesar del chip illumina para hacer un conjunto completo de análisis: http://www.arrayanalysis.org/

Descarga de datos

En términos generales, es difícil comparar e integrar datos de diferentes laboratorios y experimentos. Por lo tanto, los científicos establecieron una alianza ( Sociedad MGED ) para estandarizar la salida y la anotación de datos de chips, promover el intercambio de datos y el establecimiento de una base de datos unificada.

La regla de estandarización designada se llama MIAME , y las revistas autorizadas generalmente solo aceptan documentos de datos de chips que siguen las reglas de MIAME. GEO de NCBI y ArrayExpress de EBI son actualmente las bases de datos de recursos públicos más grandes para almacenar y publicar datos en chips compatibles con MIAME.

Chip de expresión de la serie Bead de Illumina

Por supuesto, el chip de expresión más familiar es el chip de la serie affymetrix, y la rutina de análisis es muy simple. Puede usar directamente el paquete affy de R para obtener la matriz de expresión del archivo cel a través del método RMA o MAS5 . El chip enviado por Illumina es ligeramente diferente. Sus datos brutos tienen 3 niveles. Generalmente, se obtienen datos procesados ​​(ejemplo). Cuando aún se necesitan una serie de métodos estadísticos para extraer la matriz de expresión.
http://www.bio-info-trainee.com/1937.html

De hecho, el proceso más importante para el procesamiento de datos de chips es cómo hacer QC y obtener la matriz de expresión. El siguiente análisis de diferencias y análisis de enriquecimiento de funciones son en realidad similares.
Enlace original: Registro de conocimientos básicos de Chip
http://www.biotrainee.com/thread-992-1-1.html
(Fuente: Árbol de habilidades de Shengxin)

Supongo que te gusta

Origin blog.csdn.net/qq_44520665/article/details/113307926
Recomendado
Clasificación