Cybernetics And Systems Analysis logo
Інформація редакції Аннотації статей Автори Архів
Кібернетика та Системний Аналіз
Міжнародний Науково-Теоретичний Журнал
-->

УДК 004.81

М.З. ЗГУРОВСЬКИЙ
Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, Україна, mzz@kpi.ua

П.О. КАСЬЯНОВ
Навчально-науковий комплекс «Інститут прикладного системного аналізу»
Національного технічного університету України «Київський політехнічний інститут
імені Ігоря Сікорського» МОН України та НАН України, Київ, Україна,
kasyanov@i.ua

Л.Б. ЛЕВЕНЧУК
Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, Україна, lusi.levenchuk@gmail.com


ФОРМАЛІЗАЦІЯ МЕТОДІВ ПОБУДОВИ АВТОНОМНИХ СИСТЕМ
ШТУЧНОГО ІНТЕЛЕКТУ

Анотація. Розв’язано задачу формалізації побудови автономних систем штучного інтелекту, математичні моделі яких можуть бути складними або неідентифікованими. За допомогою методу послідовних наближень для Q-функцій винагород розроблено методологію побудови наближених за заданою точністю ε -оптимальних стратегій. Результати дають змогу визначити класи (зокрема, подвійного призначення), для яких можна на сучасному рівні математичної строгості обґрунтовано будувати оптимальні та ε -оптимальні стратегії навіть у випадках, коли моделі ідентифікуються, але обчислювальна складність стандартних алгоритмів динамічного програмування може не бути строго поліноміальною.

Ключові слова: автономні системи штучного інтелекту, марковські процеси прийняття рішень, ε -оптимальні стратегії.


повний текст

СПИСОК ЛІТЕРАТУРИ

  1. Feinberg E.A., Bender M.A., Curry M.T., Huang D., Koutsoudis T., Bernstein J.L. Sensor resource management for an airborne early warning radar. Proceedings of SPIE, Signal and Data Processing of Small Targets. August 7, Orlando, Florida. 2002. Vol. 4728. P. 145–156.

  2. Feinberg E.A., Kasyanov P.O., Zgurovsky M.Z. Continuity of equilibria for twoperson zero-sum games with noncompact action sets and unbounded payoffs. Annals of Operations Research. 2022. Vol. 317. P. 537–568. https://doi.org/10.1109/WSC.2015.7408530 .

  3. Wallis W.A. The statistical research group, 1942–1945. Journal of the American Statistical Association. 1980. Vol. 75 (370). P. 320–330.

  4. Yordanova V., Griffiths H., Hailes S. Rendezvous planning for multiple autonomous underwater vehicles using a Markov decision process. IET Radar, Sonar & Navigation. 2017. Vol. 11, N 12. P. 1762–1769.

  5. Silver D., Singh S., Precup D., Sutton R.S. Reward is enough. Artificial Intelligence. 2021. Vol. 299. 103535.

  6. Kara A.D., Saldi N., Yksel S. -learning for MDPs with general spaces: Convergence and near optimality via quantization under weak continuity. 2021. 25 p. arXiv preprint https:/arXiv:2111.06781 .

  7. Kara A.D., Yksel S. Convergence of finite memory Q-learning for POMDPs and near optimality of learned policies under filter stability. Mathematics of Operations Research. 2022. https://doi.org/10.1287/moor.2022.1331.

  8. Parthasarathy K.R. Probability measures on metric spaces. New York: Academic Press, 1967. 288 p.

  9. Bertsekas D.P., Shreve S.E. Stochastic optimal control: The discrete-time case. Belmont, MA: Athena Scientific, 1996. 330 p.

  10. Hernаndez-Lerma O., Lassere J.B. Discrete-time Markov control processes: Basic optimality criteria. New York: Springer, 1996. 216 p.

  11. Feinberg E.A., Kasyanov P.O., Zadoianchuk N.V. Berge’s theorem for noncompact image sets. Journal of Mathematical Analysis and Applications. 2013. Vol. 397, Iss. 1. P. 255–259.

  12. Feinberg E.A., Kasyanov P.O., Zadoianchuk N.V. Average-cost Markov decision processes with weakly continuous transition probabilities. Math. Oper. Res. 2012. Vol 37, N 4. P. 591–607.

  13. Rhenius D. Incomplete information in Markovian decision models. Ann. Statist. 1974. Vol. 2, N 6. P. 1327–1334.

  14. Yushkevich A.A. Reduction of a controlled Markov model with incomplete data to a problem with complete information in the case of Borel state and control spaces. Theory Probab. 1976. Vol. 21, N 1. P. 153–158.

  15. Dynkin E.B., Yushkevich A.A. Controlled Markov processes. New York: Springer-Verlag, 1979. 292 p.

  16. Bertsekas D.P., Shreve S.E. Stochastic optimal control: The discrete-time case. Belmont, MA: Athena Scientific, 1996. 331 p.

  17. Hernаndez-Lerma O. Adaptive Markov control processes. New York: Springer-Verlag, 1989. 148 p.

  18. Feinberg E.A., Kasyanov P.O., Zgurovsky M.Z. Markov decision processes with incomplete information and semiuniform feller transition probabilities. SIAM Journal on Control and Optimization. 2022. Vol. 60, N 4. P. 2488–2513.

  19. Sondik E.J . The optimal control of partially observable Markov processes over the infinite horizon: Discounted costs. Oper. Res. 1978. Vol. 26, N 2 P. 282–304.

  20. Hernаndez-Lerma O., Lassere J.B. Discrete-time Markov control processes: Basic optimality criteria. New York: Springer, 1996. 216 p.

  21. Feinberg, E.A., Kasyanov, P.O., Zgurovsky M.Z. Convergence of value iterations for total-cost mdps and pomdps with general state and action sets. IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL). December 2014. P. 1–8.

  22. Szepesvari C. Algorithms for reinforcement learning. Synthesis lectures on artificial intelligence and machine learning. 2010. Vol. 4 (1). 104 p.

  23. Rempel M., Cai J. A review of approximate dynamic programming applications within military operations research. Operations Research Perspectives. 2021. Vol. 8. 100204.

  24. Department of the Navy. Science & Technology Strategy for Intelligent Autonomous Systems. July 2. 2021. 24 p.