Optimización del almacenamiento de energía en redes eléctricas
Supervisor(es): Bazerque, Juan Andrés
Resumen:
Storage technologies are a fundamental component of electric power systems, ranging from slow, high capacity systems (such as hydro reservoirs) to fast, high ramping, low capacity systems (such as utility-scale batteries). In this thesis we deal with optimizing the operation of energy storage systems from a broad perspective, focusing on both the large- and low-scale systems. Operating a grid with storage is a difficult task, in the sense that i) there is inherent uncertainty from the stochastic variables involved (such as the demand and renewable energy available), and ii) storage dynamics couple decisions across time, implying that actions must be taken with respect to some global goal. Accordingly, we formulate the optimal dispatch problem as a multi-stage dynamic programming problem, subject to various control and state constraints. We study both these cases and consider their applications on the Uruguayan grid. In the case of hydro-reservoirs, we model the cost-to-go functions as convexquadratic in the reservoirs. This leads to an approximate dynamic programming algorithm which at each stage samples state-cost pairs and fits convex-quadratic functions in a recursive manner. We implement this efficiently via modern optimization solvers, and our results show that the control policy learned in this fashion exceeds the performance of a naïve myopic policy. We also consider the operation of a bulk battery storage system in a single-bus model of the Uruguayan grid. In this regard, we consider learning the controller via Q-learning, the quintessential algorithm in the field of Reinforcement Learning. With no prior information on the transition model and on the stochastic variables involved, we obtain an agent that makes hourly decisions based on the state of the system, namely the state of charge of the battery, the time of day and the forecasted wind and demand. We train the controller with real data of three winters, and obtain a policy that operates the system with good performance, charging the battery —even at expenses of fuel generation— when generation is cheap and renewable energies abundant, and turning that surplus back to the grid when demand peaks.
Las tecnologías de almacenamiento energético son un componente fundamental de los sistemas eléctricos de potencia. Entre ellas se comprenden los sistemas lentos, de alta capacidad (como las represas hidroeléctricas), hasta los rápidos, de menor capacidad y con alta rampa de carga (tales como las baterías). Esta tesis versa sobre la optimización de la operación de estos sistemas desde una perspectiva amplia, abocándonos a los sistemas de gran y pequeño porte. Operar una red eléctrica con almacenamiento es una tarea compleja, en el sentido que i) existe incertidumbre inherente al problema debido a las variables estocásticas involucradas (como la demanda y la energía renovable disponible), y ii) la dinámica del almacenamiento acopla las decisiones en el tiempo, implicando que las acciones deben ser tomadas con respecto a algún objetivo global. En concordancia con esto, formulamos el problema de despacho óptimo en el marco de la programación dinámica en varias etapas, sujeto a variadas restricciones de control y estado. Estudiamos ambos escenarios y consideramos su aplicación en el sistema eléctrico uruguayo. Para el caso de las represas, modelamos las funciones de valor del problema como cuadráticas convexas en el nivel de los embalses. Esto da lugar a un algoritmo de programación dinámica aproximada, que en cada etapa toma muestras de parejas estado-costo y ajusta las cuadráticas de manera recursiva. Implementamos este algoritmo de manera eficiente usando solvers de optimización modernos, y nuestros resultados muestran que la política de control aprendida supera en desempeño a una política miope. Asimismo consideramos la operación de un banco de baterías en un modelo uninodal de la red uruguaya. El controlador se aprende a partir de Q-learning, uno de los algoritmos más conocidos del campo de Reinforcement Learning. Este controlador aprende a tomar decisiones de forma horaria, sin información previa de la dinámica de transición del sistema o de la estadística de las variables aleatorias involucradas, teniendo acceso únicamente al estado del sistema, a saber, el estado de carga de la batería, la hora del día y el pronóstico de demanda y energía renovable para la hora siguiente. Entrenamos a este controlador usando datos reales de tres inviernos uruguayos, y obtenemos una política que opera al sistema con buen desempeño, cargando la batería -incluso a expensas de generación térmica- cuando el costo de generación es barato y la energía renovable abundante, y que vuelca este excedente a la red cuando la demanda es alta.
2021 | |
Redes eléctricas Optimización Programación dinámica Aprendizaje por refuerzo |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/30024 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |