PredGenIA : Transformers para Predicción Genómica.

Castro, Graciana - Hoffman, Romina - Musitelli, Mateo

Supervisor(es): Fariello, María Inés - Lecumberry, Federico

Resumen:

Se define el genotipo como la descripción del material físico real conformado por el ADN de un organismo y el fenotipo como cualquier característica observable del organismo (Rival, et al.). La predicción genómica busca predecir un determinado fenotipo de un individuo a partir del genotipo. Para eso, se cuenta con una base de datos genotípicos a los que se les asocia el fenotipo a predecir. Al ser los datos genotípicos una secuencia de letras, se puede tomar cada secuencia como si fuera un enunciado y las bases que lo componen (adenina (A), timina (T), citosina (C) y guanina (G)) las palabras que lo forman. Debido al reciente auge de las redes neuronales bidireccionales para el trabajo en Procesamiento de Lenguaje Natural (“Natural Languaje Processing”, NLP), surge la interrogante de si estos algoritmos, como las redes neuronales, redes neuronales recurrentes o Transformers, son igualmente eficientes en dominios que comparten similitudes en términos de estructuras de datos. En este proyecto, se plantea el objetivo de entrenar un modelo para predicción genómica basado en Transformers. Se toma como secuencia de entrada el genotipo de individuos de una especie haploide para comparar su desempeño con el de los modelos más utilizados en esta área, haciendo énfasis en comprender el funcionamiento del modelo. ¿Obtiene el modelo mejores resultados que los modelos ya existentes? Además, ¿es capaz de identificar las porciones importantes de esta secuencia, para realizar la predicción deseada? Para esta investigación se realizó un estudio del algoritmo Transformers, su funcionamiento y aplicaciones en el campo del NLP. Comprendido esto, se procedió a realizar el análisis de cómo adaptar un algoritmo de Transformers para su funcionamiento con datos genómicos de levadura con el objetivo de predecir el crecimiento de los individuos en distintos ambientes. Se estudió el modelo GPTransformers, propuesto por Jubair et al., 2021, en el cual se propone una estructura de Transformers basada solamente en el Encoder, debido a que para la predicción de un fenotipo es necesario contar con el conocimiento de la estructura local del ADN, la cual es determinada por este módulo. Se realizó el preprocesamiento de la base de datos de levadura, búsqueda de hiperparámetros óptimos y entrenamiento del modelo realizando validación cruzada. Se simularon dos fenotipos (lineal y nolinealmente) a partir de los genotipos que componen la base de datos, con los que se buscó evaluar cómo funciona el modelo con este tipo de datos. Luego se entrenaron modelos para realizar predicciones del crecimiento de levadura en los ambientes Lactato y Lactosa. También se realizaron predicciones conjuntas (Multitrait) para Lactato y Lactosa a la vez. Se concluyó en base a los resultados obtenidos, que el algoritmo de Transformers, basado en mecanismos de atención, presenta resultados prometedores para el campo de la predicción genómica.


Detalles Bibliográficos
2023
Predicción Genómica
SNPs
Genotipo
Fenotipo
Redes Neuronales
Transformers
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/41011
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Se define el genotipo como la descripción del material físico real conformado por el ADN de un organismo y el fenotipo como cualquier característica observable del organismo (Rival, et al.). La predicción genómica busca predecir un determinado fenotipo de un individuo a partir del genotipo. Para eso, se cuenta con una base de datos genotípicos a los que se les asocia el fenotipo a predecir. Al ser los datos genotípicos una secuencia de letras, se puede tomar cada secuencia como si fuera un enunciado y las bases que lo componen (adenina (A), timina (T), citosina (C) y guanina (G)) las palabras que lo forman. Debido al reciente auge de las redes neuronales bidireccionales para el trabajo en Procesamiento de Lenguaje Natural (“Natural Languaje Processing”, NLP), surge la interrogante de si estos algoritmos, como las redes neuronales, redes neuronales recurrentes o Transformers, son igualmente eficientes en dominios que comparten similitudes en términos de estructuras de datos. En este proyecto, se plantea el objetivo de entrenar un modelo para predicción genómica basado en Transformers. Se toma como secuencia de entrada el genotipo de individuos de una especie haploide para comparar su desempeño con el de los modelos más utilizados en esta área, haciendo énfasis en comprender el funcionamiento del modelo. ¿Obtiene el modelo mejores resultados que los modelos ya existentes? Además, ¿es capaz de identificar las porciones importantes de esta secuencia, para realizar la predicción deseada? Para esta investigación se realizó un estudio del algoritmo Transformers, su funcionamiento y aplicaciones en el campo del NLP. Comprendido esto, se procedió a realizar el análisis de cómo adaptar un algoritmo de Transformers para su funcionamiento con datos genómicos de levadura con el objetivo de predecir el crecimiento de los individuos en distintos ambientes. Se estudió el modelo GPTransformers, propuesto por Jubair et al., 2021, en el cual se propone una estructura de Transformers basada solamente en el Encoder, debido a que para la predicción de un fenotipo es necesario contar con el conocimiento de la estructura local del ADN, la cual es determinada por este módulo. Se realizó el preprocesamiento de la base de datos de levadura, búsqueda de hiperparámetros óptimos y entrenamiento del modelo realizando validación cruzada. Se simularon dos fenotipos (lineal y nolinealmente) a partir de los genotipos que componen la base de datos, con los que se buscó evaluar cómo funciona el modelo con este tipo de datos. Luego se entrenaron modelos para realizar predicciones del crecimiento de levadura en los ambientes Lactato y Lactosa. También se realizaron predicciones conjuntas (Multitrait) para Lactato y Lactosa a la vez. Se concluyó en base a los resultados obtenidos, que el algoritmo de Transformers, basado en mecanismos de atención, presenta resultados prometedores para el campo de la predicción genómica.