Análisis del muestreo Gibbs para detección de motivos en secuencias biológicas

Angelone, Laura

Supervisor(es): Urquhart, María E. - Tapia Paredes, Elizabeth

Resumen:

El reconocimiento de patrones comunes o motivos en la evolución, disposición estructural y funcionalidad biológica de un conjunto de secuencias biológicas (ADN o proteínas) es aún hoy un desafío importante en Biología Computacional. El problema requiere la determinación simultánea de la composición y ubicación de los motivos comunes a partir del conjunto de secuencias afectadas por ruido de evolución y desalineadas. De acuerdo a los trabajos de Ming Li et al. [44][45], la determinación de una solución exacta es un problema NP completo y por lo tanto la formulación de soluciones aproximadas es de fundamental interés. En particular, el modelado estadístico de secuencias mediante modelos ocultos de Markov (HMM) o mediante Muestreo Gibbs permite el diseño de aproximaciones biológicamente significativas sujeto a la disponibilidad de un número adecuado y variado de secuencias. Estas restricciones son especialmente limitantes en el caso de modelos HMM pero salvable en muestreo Gibbs admitiendo una carga computacional ligeramente mayor. A diferencia del modelado HMM, el cual asume una determinada estructura para el proceso de generación de datos, el muestreo Gibbs intenta aproximar la distribución de probabilidad que rige a los datos bajo estudio en un proceso iterativo caracterizado por una gran simplicidad algorítmica. En esta tesis se analizan tanto los aspectos teóricos como prácticos que rigen el muestreo Gibbs para el problema de detección de motivos. Los resultados de este análisis se encuentran en la implementación de un software específico, su aplicación a la determinación de motivos en familias de secuencias de proteínas muy divergentes encuadradas en el Proyecto "Caracterización de factores basales de trascripción en parásitos protozoarios", Serra et al.[56], y su comparación con los programas de uso libre Gibbs Sampling[32] y MEME[5] .


Detalles Bibliográficos
2005
RECONOCIMIENTO DE PATRONES
BIOLOGIA COMPUTACIONAL
ALINEACION MULTIPLE DE SECUENCIAS BIOLOGICAS
MUESTREO GIBBS
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/2935
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC BY-NC-ND 4.0)
Resumen:
Sumario:El reconocimiento de patrones comunes o motivos en la evolución, disposición estructural y funcionalidad biológica de un conjunto de secuencias biológicas (ADN o proteínas) es aún hoy un desafío importante en Biología Computacional. El problema requiere la determinación simultánea de la composición y ubicación de los motivos comunes a partir del conjunto de secuencias afectadas por ruido de evolución y desalineadas. De acuerdo a los trabajos de Ming Li et al. [44][45], la determinación de una solución exacta es un problema NP completo y por lo tanto la formulación de soluciones aproximadas es de fundamental interés. En particular, el modelado estadístico de secuencias mediante modelos ocultos de Markov (HMM) o mediante Muestreo Gibbs permite el diseño de aproximaciones biológicamente significativas sujeto a la disponibilidad de un número adecuado y variado de secuencias. Estas restricciones son especialmente limitantes en el caso de modelos HMM pero salvable en muestreo Gibbs admitiendo una carga computacional ligeramente mayor. A diferencia del modelado HMM, el cual asume una determinada estructura para el proceso de generación de datos, el muestreo Gibbs intenta aproximar la distribución de probabilidad que rige a los datos bajo estudio en un proceso iterativo caracterizado por una gran simplicidad algorítmica. En esta tesis se analizan tanto los aspectos teóricos como prácticos que rigen el muestreo Gibbs para el problema de detección de motivos. Los resultados de este análisis se encuentran en la implementación de un software específico, su aplicación a la determinación de motivos en familias de secuencias de proteínas muy divergentes encuadradas en el Proyecto "Caracterización de factores basales de trascripción en parásitos protozoarios", Serra et al.[56], y su comparación con los programas de uso libre Gibbs Sampling[32] y MEME[5] .