Selección de variables para datos espaciales

Gonella Furtado, Romina

Supervisor(es): Bel, Liliane - Bourel, Mathias

Resumen:

En este trabajo se estudia la selección de variables en modelos espaciales en red, en particular en modelos de regresión espacial, con ubicaciones irregulares y donde la estructura de autocorrelación se modela en los errores aleatorios. Primero se estudia la selección de variables para datos dependientes y luego como caso particular para datos espaciales. Se presenta una estrategia para "eliminar" la dependencia, que consiste en estimar la matriz de covarianzas de los errores, luego transformar el problema en uno equivalente donde los errores ya no presentan autocorrelación y finalmente realizar la selección de variables utilizando un modelo LASSO clásico. Se adapta un teorema que establece las condiciones que deben cumplir tanto la matriz de covarianzas estimada como la matriz de diseño del modelo. Se demuestra que las condiciones de ese teorema se cumplen para un modelo de regresión espacial con errores de tipo CAR o SAR, estructura de vecindad triangular y pesos específicos. También se compara esta estrategia con otra desarrollada en Zhu et al. [57], denominada LARSm. Se comparan ambas estrategias tanto en datos simulados como reales. Se obtiene que el modelo estimado luego de eliminar la dependencia espacial selecciona mejor que el modelo aplicado al problema original. Lo mismo ocurre con el modelo LARSm. Al comparar nuestra metodología con el LARSm en las simulaciones, se obtiene que en general el primero selecciona mejor las variables que participan del modelo, mientras que el segundo presenta menor sesgo en la estimación de los parámetros asociados a las variables que participan del modelo verdadero.


In this work we study the variable selection in spatial network models, particularly in spatial regression models, with irregular locations and where the autocorrelation structure is modeled in random errors. First, the variable selection for dependent data is studied and then as a particular case for spatial data. A strategy is presented to "eliminate" the dependence, which consists of estimating the covariance matrix of the errors, then transforming the problem into an equivalent one where the errors no longer present autocorrelation and finally making the variable selection using a classic LASSO model. A theorem is adapted that establishes the conditions that must meet both the estimated covariance matrix and the model design matrix. It is shown that the conditions of this theorem are fulfilled for a spatial regression model with errors of type CAR or SAR, triangular neighborhood structure and specific weights. This strategy is also compared with another developed in Zhu et al. [57], called LARSm. Both strategies are compared in both simulated and real data. It is obtained that the estimated model after eliminating the spatial dependence selects better than the model applied to the original problem. The same goes for the LARSm model. When comparing our methodology with the LARSm in the simulations, it is obtained that in general the former better selects the variables that participate in the model, while the latter presents less bias in the parameter estimation associated with the variables that participate in the true model.


Detalles Bibliográficos
2021
Estadística espacial
Selección de variables
Correlación
LASSO
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/33012
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En este trabajo se estudia la selección de variables en modelos espaciales en red, en particular en modelos de regresión espacial, con ubicaciones irregulares y donde la estructura de autocorrelación se modela en los errores aleatorios. Primero se estudia la selección de variables para datos dependientes y luego como caso particular para datos espaciales. Se presenta una estrategia para "eliminar" la dependencia, que consiste en estimar la matriz de covarianzas de los errores, luego transformar el problema en uno equivalente donde los errores ya no presentan autocorrelación y finalmente realizar la selección de variables utilizando un modelo LASSO clásico. Se adapta un teorema que establece las condiciones que deben cumplir tanto la matriz de covarianzas estimada como la matriz de diseño del modelo. Se demuestra que las condiciones de ese teorema se cumplen para un modelo de regresión espacial con errores de tipo CAR o SAR, estructura de vecindad triangular y pesos específicos. También se compara esta estrategia con otra desarrollada en Zhu et al. [57], denominada LARSm. Se comparan ambas estrategias tanto en datos simulados como reales. Se obtiene que el modelo estimado luego de eliminar la dependencia espacial selecciona mejor que el modelo aplicado al problema original. Lo mismo ocurre con el modelo LARSm. Al comparar nuestra metodología con el LARSm en las simulaciones, se obtiene que en general el primero selecciona mejor las variables que participan del modelo, mientras que el segundo presenta menor sesgo en la estimación de los parámetros asociados a las variables que participan del modelo verdadero.