Análisis De Datos De Rna-seq Con Ia: Introducción Y Métodos

El análisis de RNA-Seq utiliza las capacidades de los métodos de secuenciación de alto rendimiento para proporcionar información sobre el transcriptoma de una célula. En comparación con los métodos anteriores basados en secuenciación de Sanger y microarrays, el RNA-Seq proporciona una cobertura mucho mayor y una mayor resolución de la naturaleza dinámica del transcriptoma. Además de cuantificar la expresión génica, los datos generados por el RNA-Seq facilitan el descubrimiento de nuevos transcritos, la identificación de genes con empalme alternativo y la detección de expresión alélica. Los avances recientes en el flujo de trabajo del RNA-Seq, desde la preparación de las muestras hasta la construcción de las bibliotecas y el análisis de datos, han permitido a los investigadores elucidar aún más la complejidad funcional de la transcripción. Además de los transcritos de ARN mensajero (ARNm) poliadenilados, el RNA-Seq se puede aplicar para investigar diferentes poblaciones de ARN, incluyendo ARN total, pre-ARNm y ARN no codificante, como microARN y ARN largo no codificante. Este artículo proporciona una introducción a los métodos de RNA-Seq, incluyendo aplicaciones, diseño experimental y desafíos técnicos.

Mini curso: Panorama general de análisis de datos de RNA-seq con R

Índice

Introducción
Cómo funciona el análisis de RNA-Seq

Introducción

El dogma central de la biología molecular describe el flujo de información que se almacena en los genes como ADN, se transcribe en ARN y finalmente se traduce en proteínas (Crick 1958; Crick 1970). La expresión final de esta información genética modificada por factores ambientales caracteriza el fenotipo de un organismo. La transcripción de un subconjunto de genes en moléculas de ARN complementarias especifica la identidad de una célula y regula las actividades biológicas dentro de la célula. Definido colectivamente como el transcriptoma, estas moléculas de ARN son esenciales para interpretar los elementos funcionales del genoma y comprender el desarrollo y las enfermedades.

El transcriptoma tiene un alto grado de complejidad y abarca múltiples tipos de especies de ARN codificantes y no codificantes. Históricamente, las moléculas de ARN se consideraban un intermediario simple entre los genes y las proteínas, como se encapsula en el dogma central de la biología molecular. Por lo tanto, las moléculas de ARN mensajero (ARNm) eran las más estudiadas porque codificaban proteínas a través del código genético. Además del ARNm que codifica proteínas, hay un grupo diverso de moléculas de ARN no codificantes (ARNnc) que son funcionales. Anteriormente, la mayoría de los ARNnc conocidos cumplían funciones celulares básicas, como los ARN ribosómicos y de transferencia involucrados en la traducción de ARNm, los ARN pequeños nucleares (snARN) involucrados en el empalme y los ARN nucleolares pequeños (snoARN) involucrados en la modificación de los ARN ribosómicos (Mattick y Makunin 2006). Más recientemente, se han descubierto nuevas clases de ARN, ampliando el repertorio de ARNnc. Por ejemplo, una de estas clases de ARNnc son los ARN pequeños no codificantes, que incluyen microARN (miARN) y ARN que interactúa con PIWI (piARN), ambos regulan la expresión génica a nivel post-transcripcional (Stefani y Slack 2008). Otra clase notable de ARNnc son los ARN largos no codificantes (lncARN). Como clase funcional, los lncARN se describieron por primera vez en ratones durante la secuenciación a gran escala de bibliotecas de cDNA (Okazaki et al. 2002). Se han descubierto una miríada de funciones moleculares para los lncARN, incluyendo la remodelación de la cromatina, el control transcripcional y el procesamiento post-transcripcional, aunque la gran mayoría no están completamente caracterizados (Guttman et al. 2009; Mercer et al. 2009; Wilusz et al. 2009).

Cómo funciona el análisis de RNA-Seq

Los estudios iniciales de expresión génica se basaban en métodos de baja capacidad, como las sondas de northern blot y la reacción en cadena de la polimerasa cuantitativa (qPCR), que se limitan a medir transcritos individuales. Durante las últimas dos décadas, los métodos han evolucionado para permitir la cuantificación a nivel genómico de la expresión génica, mejor conocida como transcriptómica. Los primeros estudios de transcriptómica se realizaron utilizando tecnologías de microarrays basadas en hibridación, que ofrecen una opción de alto rendimiento a un costo relativamente bajo (Schena et al. 1995). Sin embargo, estos métodos tienen varias limitaciones: la necesidad de conocimiento a priori de las secuencias que se están interrogando; artefactos problemáticos de hibridación cruzada en el análisis de secuencias altamente similares; y capacidad limitada para cuantificar con precisión genes expresados en niveles bajos y muy altos (Casneuf et al. 2007; Shendure 2008). En contraste con los métodos basados en hibridación, se han desarrollado enfoques basados en secuencias para elucidar el transcriptoma mediante la determinación directa de la secuencia del ARN. Inicialmente, la generación de bibliotecas de secuencias de ARN expresadas (EST) mediante secuenciación de Sanger de ADN complementario (cDNA) se utilizó en estudios de expresión génica, pero este enfoque es relativamente de baja capacidad y no es ideal para cuantificar transcritos (Adams et al. 1991, 1995; Itoh et al. 1994). Para superar estas limitaciones técnicas, se desarrollaron métodos basados en etiquetas, como el análisis serial de la expresión génica (SAGE) y el análisis de la expresión génica mediante captura de extremos (CAGE), para permitir un mayor rendimiento y una cuantificación más precisa de los niveles de expresión. Al cuantificar el número de secuencias etiquetadas, que correspondían directamente al número de transcritos de ARNm, estos métodos basados en etiquetas ofrecen una ventaja distintiva sobre la medición de intensidades de estilo analógico como en los métodos basados en microarrays (Velculescu et al. 1995; Shiraki et al. 2003). Sin embargo, estos ensayos son insensibles para medir los niveles de expresión de isoformas de empalme y no se pueden utilizar para el descubrimiento de nuevos genes. Además, la clonación laboriosa de etiquetas de secuencia, el alto costo de la secuenciación automatizada de Sanger y el requisito de grandes cantidades de ARN de entrada han limitado en gran medida su uso.

El desarrollo de la secuenciación de nueva generación (NGS) de alto rendimiento ha revolucionado la transcriptómica al permitir el análisis de ARN mediante la secuenciación de ADN complementario (cDNA) (Wang et al. 2009). Este método, denominado RNA-Seq, tiene ventajas distintas sobre enfoques anteriores y ha revolucionado nuestra comprensión de la naturaleza compleja y dinámica del transcriptoma. El RNA-Seq proporciona una visión más detallada y cuantitativa de la expresión génica, el empalme alternativo y la expresión alélica. Los avances recientes en el flujo de trabajo del RNA-Seq, desde la preparación de las muestras hasta las plataformas de secuenciación y el análisis bioinformático de datos, han permitido un perfilado profundo del transcriptoma y la oportunidad de elucidar diferentes condiciones fisiológicas y patológicas. En este artículo proporcionaremos una introducción a la secuenciación de ARN y al análisis utilizando métodos de secuenciación de nueva generación y discutiremos cómo aplicar estos avances para un análisis del transcriptoma más completo y detallado.

Si quieres conocer otras notas parecidas a Análisis de datos de rna-seq con ia: introducción y métodos puedes visitar la categoría Inteligencia.