Análisis y desarrollo de modelos predictivos con redes neuronales para Web Application Firewall

Biardo Mirenda, Deborah - González Quintana, Guzmán - Lanzotti Filardi, Sabrina Leticia

Resumen:

Los datos manejados en las organizaciones son valiosos para la realización de múltiples investigaciones, sin embargo, poseen información personal que debe ser protegida. Por este motivo, anonimizar los datos es una tarea de vital importancia. Esto implica privatizarlos sin restarles poder informativo al momento de ser analizados. El siguiente trabajo final presenta una solución para proteger esta información personal desarrollando un modelo predictivo basado en el modelo bolsa de palabras (Bag of Words, BoW) y redes neuronales. El fin es realizar una tarea de “ciberseguridad” predictiva a partir de datos no privatizados que permita la clasificación de los identificadores de recursos uniformes (URI por sus siglas en inglés) como normales o anómalas. Se analizaron investigaciones previas referidas a esta temática utilizándose los conjuntos de datos empleados para la obtención de un conjunto de URI. A partir del conocimiento del dominio experto, se construyó una bolsa de palabras para cada “URI” que contiene la frecuencia de cada conjunto de caracteres (“keys” expertas) asociados a ataques informáticos y se añadieron caracteres adicionales al dominio experto. Se utilizó Perceptrón multicapa (MLP por sus siglas en inglés), entrenados para cada conjunto de datos por separado y luego para un único conjunto de datos. Para evaluar el modelo se emplearon técnicas como matriz de confusión, análisis y comparación de métricas “True Positive Rate” (TPR) y “True Negative Rate” (TNR) y curvas de aprendizaje. Se aplicaron técnicas como Frecuencia de término-Frecuencia inversa de documento (Tf-idf por sus siglas en inglés), utilizando los conjuntos de caracteres identificadas como “tokens”. Luego mediante la extracción de características se obtuvieron “tokens” en forma dinámica en modalidad de unigrama, bigrama y mixta. El mejor resultado obtenido fue con el modelo de TF-IDF: “Feature Extraction” Unigrama. Finalmente se aplicaron técnicas de métodos combinados como “stacking” y “majority voting”, pero no generaron mejores resultados que los del modelo TF-IDF: “Feature Extraction” Unigrama.


Detalles Bibliográficos
2020
PROYECTOS-MD
BIG DATA
APRENDIZAJE AUTOMÁTICO
SEGURIDAD DE DATOS
REDES NEURONALES
APRENDIZAJE PROFUNDO
FIREWALLS
SEGURIDAD INFORMÁTICA
Español
Universidad ORT Uruguay
RAD
http://hdl.handle.net/20.500.11968/4500
Acceso abierto
Resumen:
Sumario:Incluye bibliografía y anexos.