Compresión de datos crudos de secuenciación de ADN por nanoporos.
Supervisor(es): Dufort y Álvarez, Guillermo - Martín, Álvaro
Resumen:
En este proyecto, generamos un framework para el desarrollo de compresores de datos crudos de secuenciación de ADN por nanoporos que permite prototipar de forma sencilla nuevos compresores y modelos estadísticos para dichas señales. Trabajamos sobre el formato de archivo POD5 y su biblioteca homónima, desarrollados por Oxford Nanopore Technologies (ONT) para suplantar a su predecesor, FAST5. El producto desarrollado permite la implementación de nuevos compresores que se integran a la biblioteca de POD5, así como compresores independientes. Presentamos dos compresores para este tipo de datos: PGNanoS y PGNano5. Estos compresores logran una mejora porcentual relativa de aproximadamente 2.9% respecto a Vbz, que es el compresor por defecto para POD5, al costo de considerable incremento de costo computacional. Estos compresores sirven como una línea base para investigaciones futuras, usando el framework desarrollado. También presentamos un conjunto de pruebas y análisis sobre los datos de secuenciación y posibles codificaciones que nos permiten interpretar el funcionamiento de Vbz, así como proponer alternativas para mejorar los resultados obtenidos por PGNano5 y PGNanoS.
2023 | |
Compresión de datos sin pérdida Secuenciación de ADN Nanoporos MinION POD5 Códigos de Golomb Codificación aritmética |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/41967 | |
Acceso abierto | |
Licencia Creative Commons Atribución (CC - By 4.0) |
Sumario: | En este proyecto, generamos un framework para el desarrollo de compresores de datos crudos de secuenciación de ADN por nanoporos que permite prototipar de forma sencilla nuevos compresores y modelos estadísticos para dichas señales. Trabajamos sobre el formato de archivo POD5 y su biblioteca homónima, desarrollados por Oxford Nanopore Technologies (ONT) para suplantar a su predecesor, FAST5. El producto desarrollado permite la implementación de nuevos compresores que se integran a la biblioteca de POD5, así como compresores independientes. Presentamos dos compresores para este tipo de datos: PGNanoS y PGNano5. Estos compresores logran una mejora porcentual relativa de aproximadamente 2.9% respecto a Vbz, que es el compresor por defecto para POD5, al costo de considerable incremento de costo computacional. Estos compresores sirven como una línea base para investigaciones futuras, usando el framework desarrollado. También presentamos un conjunto de pruebas y análisis sobre los datos de secuenciación y posibles codificaciones que nos permiten interpretar el funcionamiento de Vbz, así como proponer alternativas para mejorar los resultados obtenidos por PGNano5 y PGNanoS. |
---|