Алгоритм робастного управления одномерным динамическим объектом на основе табличного Q-метода обучения с подкреплением
Ключевые слова:
робастное управление, обучение с подкреплением, Q-алгоритм обучения, динамические объекты, неопределенные параметры, сходимость алгоритма обученияАннотация
В статье представлен обзор в области систем управления динамическими объектами на базе методов машинного обучения с подкреплением. На основе проведенного анализа сделан вывод о актуальности развития методов управления, базирующихся на обучении с подкреплением. В статье предлагается интеллектуальный алгоритм робастного управления устойчивыми динамическими объектами с одним входом и одним выходом, базирующийся на табличном Q-методе обучения нулевого порядка. Алгоритм осуществляет стабилизацию выходной величины объекта управления с заданной погрешностью, если параметры и внешние возмущения объекта являются кусочно-постоянными неизвестными величинами, а вектор состояния является измеряемым. Новизна предложенного алгоритма заключается в новом инкрементальном способе формирования управления, который позволяет, базируясь на множестве из трех возможных действий, стабилизировать объект управления. Предложенный способ формирования множества управляющих воздействий позволяет обеспечить требуемую точность стабилизации выхода объекта, изменяя амплитуду приращения управления. Также элементом новизны является предложенное выражения для расчета вознаграждения, которое позволяет ограничить изменения управления. Предлагаемый алгоритм обладает высокой вычислительной эффективностью. После обучения вычисление управления сводится к вычислению индексов по результатам измерения, чтению данных из памяти по вычисленным индексам и нахождению максимального значения в векторе небольшой размерности. В работе исследованы условия сходимости алгоритма обучения и ограниченности ошибки управления. Разработанный алгоритм демонстрируется на примере синтеза робастного управления двигателем постоянного тока с независимым возбуждением. В ходе численного моделирования исследуется качество замкнутой системы при изменении параметров и задающего воздействия. Анализ результатов позволяет сделать выводы об эффективности синтезированного алгоритма. В статье приводятся результаты экспериментов, которые демонстрируют техническую реализуемость полученного алгоритма. Данный вопрос является важным, так как анализ источников показывает практически полное отсутствие технической реализации систем управления динамическими объектами, синтезированными с использованием методов обучения с подкреплением.
Литература
2. Sutton R.S., Barto A.G., Williams R.J. Reinforcement learning is direct adaptive optimal control. IEEE Control Systems Magazine. 2002. vol. 12(2). pp. 19–22.
3. Pshikhopov V., Medvedev M. Multi-Loop Adaptive Control of Mobile Objects in Solving Trajectory Tracking Tasks. Automation and Remote Control. 2020. vol. 81. pp. 2078–2093. DOI: 10.1134/S0005117920110090.
4. Shih P., Kaul B., Jagannathan S., Drallmeier J. Near Optimal Output-Feedback Control of Nonlinear Discrete-Time Systems in Nonstrict Feedback Form with Application to Engines. IEEE International Joint Conference on Neural Networks. 2007. pp. 396–401.
5. Xu B., Yang C., Shi Z. Reinforcement Learning Output Feedback NN Control Using Deterministic Learning Technique. IEEE Transactions on Neural Networks and Learning Systems. 2014. vol. 25(3). pp. 635–641. DOI: 10.1109/TNNLS.2013.2292704.
6. Mu C., Ni Z., Sun C., He H. Data-Driven Tracking Control with Adaptive Dynamic Programming for a Class of Continuous-Time Nonlinear Systems. IEEE Transactions on Cybernetics. 2016. vol. 47(6). pp. 1460–1470.
7. Wang A., Liao X., Dong T. Event-Driven Optimal Control for Uncertain Nonlinear Systems with External Disturbance via Adaptive Dynamic Programming. Neurocomputing. 2018. vol. 281. pp. 188–195.
8. Kim J.W., Oh T.H., Son S.H., Jeong D.H., Lee J.M. Convergence Analysis of the Deep Neural Networks Based Globalized Dual Heuristic Programming. Automatica. 2020. vol. 122.
9. Luo B., Yang Y., Liu D., Wu H.-N. Event-Triggered Optimal Control with Performance Guarantees Using Adaptive Dynamic Programming. IEEE Transactions on Neural Networks and Learning Systems. 2019. vol. 31(1). pp. 76–88.
10. Yang X., Xu M., Wei Q. Dynamic Event-Sampled Control of Interconnected Nonlinear Systems Using Reinforcement Learning. IEEE Transactions on Neural Networks and Learning Systems. 2022. vol. 35(1). pp. 923–937. DOI: 10.1109/TNNLS.2022.3178017.
11. Zhang H., Zhao X., Wang H., Zong G., Xu N. Hierarchical Sliding-Mode Surface-Based Adaptive Actor-Critic Optimal Control for Switched Nonlinear Systems With Unknown Perturbation. IEEE Transactions on Neural Networks and Learning Systems. 2022. vol. 35(2). pp. 1559–1571. DOI: 10.1109/TNNLS.2022.3183991.
12. Dong C., Chen L., Dai S.-L. Performance-Guaranteed Adaptive Optimized Control of Intelligent Surface Vehicle Using Reinforcement Learning. IEEE Transactions on Intelligent Vehicles. 2023. vol. 9. no. 2. pp. 3581–3592. DOI: 10.1109/TIV.2023.3338486.
13. Dao P.N., Phung M.H. Nonlinear Robust Integral Based Actor-Critic Reinforcement Learning Control for a Perturbed Three-Wheeled Mobile Robot with Mecanum Wheels. Computers and Electrical Engineering. 2025. vol. 121. DOI: 10.1016/j.compeleceng.2024.109870.
14. Berkenkamp F., Turchetta M., Schoellig A., Krause A. Safe Model-Based Reinforcement Learning with Stability Guarantees. Advances in Neural Information Processing Systems. 2017. vol. 30. pp. 908–918.
15. Thananjeyan B., Balakrishna A., Rosolia U., Li F., McAllister R., Gonzalez J.E., Levine S., Borrelli F., Goldberg K. Safety Augmented Value Estimation From Demonstrations (SAVED): Safe Deep Model-Based RL for Sparse Cost Robotic Tasks. IEEE Robotics and Automation Letters. 2020. vol. 5(2). pp. 3612–3619.
16. Zanon M., Gros S. Safe Reinforcement Learning Using Robust MPC. IEEE Transactions on Automatic Control. 2020. vol. 66(8). pp. 3638–3652. DOI: 10.1109/TAC.2020.3024161.
17. Cheng R., Orosz G., Murray R.M., Burdick J.W. End-to End Safe Reinforcement Learning through Barrier Functions for Safety Critical Continuous Control Tasks. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI-19). 2019. vol. 33. no. 01. pp. 3387–3395.
18. Choi J., Castaneda F., Tomlin C.J., Sreenath K. Reinforcement Learning for Safety-Critical Control Under Model Uncertainty, Using Control Lyapunov Functions and Control Barrier Functions. Conference Robotics: Science and Systems. 2020.
19. Han M., Zhang L., Wang J., Pan W. Actor-Critic Reinforcement Learning for Control With Stability Guarantee. IEEE Robotics and Automation Letters. 2020. vol. 5(4). pp. 6217–6224.
20. Боровик В.С., Шидловский С.В. Обучение с подкреплением в системах управления объектами с транспортным запаздыванием. Автометрия. 2021. Т. 57(3). С. 48–57.
21. Галяев А.А., Медведев А.И., Насонов И.А. Нейросетевой алгоритм перехвата машиной Дубинса целей, движущихся по известным траекториям. Автоматика и телемеханика. 2023. № 3. С. 3–21.
22. Хапкин Д.Л., Феофилов С.В. Синтез устойчивых нейросетевых регуляторов для объектов с ограничителями в условиях неполной информации. Мехатроника, автоматизация, управление. 2024. Т. 25(7). С. 345–353. DOI: 10.17587/mau.25.345-353.
23. Фаворская М.Н., Пахирка А.И. Восстановление аэрофотоснимков сверхвысокого разрешения с учетом семантических особенностей. Информатика и автоматизация. 2024. Т. 23(4). С. 1047–1076. DOI: 10.15622/ia.23.4.5.
24. Чен Х., Игнатьева С.А., Богуш Р.П., Абламейко С.В. Повторная идентификация людей в системах видеонаблюдения с использованием глубокого обучения: анализ существующих методов. Автоматика и телемеханика. 2023. № 5. C. 61–112. DOI: 10.31857/S0005231023050057.
25. Понимаш З.А., Потанин М.В. Метод и алгоритм извлечения признаков из цифровых сигналов на базе нейросетей трансформер. Известия ЮФУ. Технические науки. 2024. № 6. C. 52–64. DOI: 10.18522/2311-3103-2024-6-52-64.
26. Голубинский А.Н., Толстых А.А., Толстых М.Ю. Автоматическая генерация аннотаций научных статей на основе больших языковых моделей. Информатика и автоматизация. 2025. Т. 24(1). С. 275–301. DOI: 10.15622/ia.24.1.10.
27. Hamdan N., Medvedev M., Pshikhopov V. Method of Motion Path Planning Based on a Deep Neural Network with Vector Input. Mekhatronika, Avtomatizatsiya, Upravlenie. 2024. vol. 25(11). pp. 559–567. DOI: 10.17587/mau.25.559-567.
28. Gaiduk A.R., Martjanov O.V., Medvedev M.Yu., Pshikhopov V.Kh., Hamdan N., Farhood A. Neural network based control system for robots group operating in 2-d uncertain environment. Mekhatronika, Avtomatizatsiya, Upravlenie. 2020. vol. 21(8). pp. 470–479. DOI: 10.17587/mau.21.470-479.
29. Жилов Р.А. Постройка ПИД-регулятора с использованием нейронных сетей // Известия Кабардино-Балкарского научного центра РАН. 2022. № 5(109). С. 38–47. DOI: 10.35330/1991-6639-2022-5-109-38-47.
30. Карапеев А.Н., Косенко Е.Ю., Медведев М.Ю., Пшихопов В.Х. Исследование интеллектуального адаптивного алгоритма управления на базе метода обучения с подкреплением. Известия ЮФУ. Технические науки. 2025. № 2. С. 162–175.
Опубликован
Как цитировать
Раздел
Copyright (c) Михаил Юрьевич Медведев

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).