Compresión de datos crudos de secuenciación de ADN por nanoporos.

Castelli Ottati, Rafael Agustín

Supervisor(es): Dufort y Álvarez, Guillermo - Martín, Álvaro

Resumen:

En este proyecto, generamos un framework para el desarrollo de compresores de datos crudos de secuenciación de ADN por nanoporos que permite prototipar de forma sencilla nuevos compresores y modelos estadísticos para dichas señales. Trabajamos sobre el formato de archivo POD5 y su biblioteca homónima, desarrollados por Oxford Nanopore Technologies (ONT) para suplantar a su predecesor, FAST5. El producto desarrollado permite la implementación de nuevos compresores que se integran a la biblioteca de POD5, así como compresores independientes. Presentamos dos compresores para este tipo de datos: PGNanoS y PGNano5. Estos compresores logran una mejora porcentual relativa de aproximadamente 2.9% respecto a Vbz, que es el compresor por defecto para POD5, al costo de considerable incremento de costo computacional. Estos compresores sirven como una línea base para investigaciones futuras, usando el framework desarrollado. También presentamos un conjunto de pruebas y análisis sobre los datos de secuenciación y posibles codificaciones que nos permiten interpretar el funcionamiento de Vbz, así como proponer alternativas para mejorar los resultados obtenidos por PGNano5 y PGNanoS.


Detalles Bibliográficos
2023
Compresión de datos sin pérdida
Secuenciación de ADN
Nanoporos
MinION
POD5
Códigos de Golomb
Codificación aritmética
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/41967
Acceso abierto
Licencia Creative Commons Atribución (CC - By 4.0)
Resumen:
Sumario:En este proyecto, generamos un framework para el desarrollo de compresores de datos crudos de secuenciación de ADN por nanoporos que permite prototipar de forma sencilla nuevos compresores y modelos estadísticos para dichas señales. Trabajamos sobre el formato de archivo POD5 y su biblioteca homónima, desarrollados por Oxford Nanopore Technologies (ONT) para suplantar a su predecesor, FAST5. El producto desarrollado permite la implementación de nuevos compresores que se integran a la biblioteca de POD5, así como compresores independientes. Presentamos dos compresores para este tipo de datos: PGNanoS y PGNano5. Estos compresores logran una mejora porcentual relativa de aproximadamente 2.9% respecto a Vbz, que es el compresor por defecto para POD5, al costo de considerable incremento de costo computacional. Estos compresores sirven como una línea base para investigaciones futuras, usando el framework desarrollado. También presentamos un conjunto de pruebas y análisis sobre los datos de secuenciación y posibles codificaciones que nos permiten interpretar el funcionamiento de Vbz, así como proponer alternativas para mejorar los resultados obtenidos por PGNano5 y PGNanoS.