Implementación de clasificadores jerárquicos multiclase para la predicción de función de genes a partir de su ubicación en el genoma

Silvera, Diego

Supervisor(es): Pazos Obregón, Flavio - Guerberoff, Gustavo

Resumen:

El reciente desarrollo tecnológico está generando datos genómicos mucho más rápido que nuestra capacidad de analizarlos. Es imprescindible, en este contexto, implementar herramientas que permitan reducir el tiempo y el costo necesario para determinar las funciones de los genes experimentalmente, dado que para la mayoría de los genes aún se desconoce su función. Para aliviar este problema, en las últimas décadas se han desarrollado varios métodos de predicción de funciones de genes. Algunos se basan en alineamientos de secuencia con proteínas para las cuales su función se ha establecido experimentalmente [Clark and Radivojac, 2011, Martin et al., 2004, Engelhardt et al., 2005], y otros explotan otros tipos de datos: estructuras de proteínas [Pal and Eisenberg, 2005,Pazos and Sternberg, 2004], niveles de expresión de genes [Huttenhower et al., 2006], perfiles temporales de transcripción [Pazos Obregón et al., 2015], interacciones macromoleculares [Letovsky and Kasif, 2003, Nabieva et al., 2005], o una combinación de varios tipos de ellos. A pesar de que se sabe que los genes con la misma función se agrupan de diferentes maneras en el genoma, y que su posición en el mismo no es independiente de su función biológica, el potencial de la posición de un gen dentro del genoma como variable predictora de la función permanece poco explorado en organismos eucariotas. En este trabajo se implementa un modelo para predecir funciones de genes, utilizando datos generados a partir de su posición en el genoma y de funciones conocidas, en cinco organismos modelo. Los resultados obtenidos indican que, para algunos organismos y ontologías, la posición de un gen predice mejor su función que la secuencia.


The recent technological development is generating genomic data much faster than our ability to analyze it. In this context, it is essential to implement tools that reduce the time and cost necessary to determine the functions of genes experimentally, given that the function of most genes is still unknown. To alleviate this problem, various gene function prediction methods have been developed in recent decades. Some are based on sequence alignments with proteins for which their function has been established experimentally [Clark and Radivojac, 2011, Martin et al., 2004, Engelhardt et al., 2005], and others exploit other types of data: protein structures [Pal and Eisenberg, 2005, Pazos and Sternberg, 2004], expression levels of genes [Huttenhower et al., 2006], temporal transcription profiles [Pazos Obregón et al., 2015], macromolecular interactions [Letovsky and Kasif, 2003, Nabieva et al., 2005], or a combination of several types of them. Although genes with the same function are known to cluster in different ways in the genome, and their position in the genome is not independent of their biological function, the potential of a gene's position within the genome as a predictive variable of function remains unexplored in eukaryotic organisms. In this work, a model is implemented to predict gene functions, using data generated from their position in the genome and from known functions, in five model organisms. The results obtained indicate that, for some organisms and ontologies, the position of a gene is a better predictor of its function than its sequence.


Detalles Bibliográficos
2022
Predicción de función de genes
Clasificadores jerárquicos multiclase
Gene ontology
Grafo acíclico dirigido
Gene function prediction
Hierarchical multiclass classifier
Directed acyclic graph
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/34602
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resultados similares