УДК 517.2+519.977.58+519.8
ОБОБЩЕННЫЕ ГРАДИЕНТЫ В ЗАДАЧАХ ДИНАМИЧЕСКОЙ ОПТИМИЗАЦИИ,
ОПТИМАЛЬНОГО УПРАВЛЕНИЯ И МАШИННОГО ОБУЧЕНИЯ
Аннотация. Рассмотрены негладкие невыпуклые задачи динамической оптимизации, оптимального управления (в дискретном времени), в том числе управления с обратной связью, и машинного обучения. Прослежена аналогия между задачами управления дискретными динамическими системами и задачами обучения многослойных нейронных сетей с негладкими целевыми функционалами и связями. Обоснованы методы вычисления обобщенных градиентов для таких систем на основе функций Гамильтона–Понтрягина. Градиентные (стохастические) алгоритмы оптимального управления и обучения распространяются на невыпуклые негладкие динамические системы.
Ключевые слова: динамическая оптимизация, оптимальное управление, машинное обучение, многослойные нейронные сети, глубокое обучение, негладкая невыпуклая оптимизация, стохастическая оптимизация, стохастический обобщенный градиент, стохастическое сглаживание.
ПОЛНЫЙ ТЕКСТ
Норкин Владимир Иванович,
доктор физ.-мат. наук, ведущий научный сотрудник Института кибернетики им. В.М. Глушкова НАН Украины; профессор кафедры Национального технического университета Украины «Киевский политехнический институт имени Игоря Сикорского», Киев,
vladimir.norkin@gmail.com
СПИСОК ЛИТЕРАТУРЫ
- Брайсон А., Хо Ю-Ши. Прикладная теория оптимального управления. Оптимизация, оценка и управление. Москва: Мир, 1972. 544 с.
- Ермольев Ю.М. Методы стохастического программирования. Москва: Наука, 1976. 240 с.
- Ермольев Ю.М., Гуленко В.П., Царенко Т.И. Конечно-разностный метод в задачах оптимального управления. Киев: Наук. думка, 1978. 164 с.
- Васильев Ф.П. Методы решения экстремальных задач. Москва: Наука, 1981. 400 с.
- Евтушенко Ю.Г. Оптимизация и быстрое автоматическое дифференцирование. Москва: ВЦ имени А.А. Дородницына РАН, 2013. 144 с. DOI: http://dx.doi.org/10.1016/j.neunet.2014.09.003.
- Schmidhuber J. Deep learning in neural networks: An overview. Neural Networks. 2015. Vol. 61. P. 85–117. http://dx.doi.org/10.1016/j.neunet.2014.09.003.
- Нурминский Е.А. Численные методы решения стохастических минимаксных задач. Киев: Наук. думка, 1979. 176 с.
- Понтрягин Л.С, Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. Москва: Физматгиз, 1961. 391 с.
- Болтянский В.Г. Оптимальное управление дискретными системами. Москва: Наука, 1973. 448 с.
- Rumelhart D.E., Hinton G.E., and Williams R.J. Learning representations by Back-Propagating errors. Nature. 1986. Vol. 323. P. 533–536. https://doi.org/10.1038/323533a0.
- LeCun Y., Bengio Y., and Hinton G. Deep learning. Nature. 2015. Vol. 521. P. 436–444. https://doi.org. 10.1038/nature14539.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. Пер. с анг. 2-е изд., испр. Москва: ДМК Пресс, 2018. 652 с.
- Норкин В.И. Обобщенно-дифференцируемые функции. Кибернетика. 1980. № 1. С. 9–11.
- Демьянов В.Ф. Условия экстремума и вариационное исчисление. Москва: Высш. шк., 2005. 335 с.
- Дадуна Г., Кнопов П.С., Тур Л.П. Оптимальные стратегии для системы запасов с функциями стоимости общего вида. Кибернетика и системный анализ. 1999. № 4. С.106–123.
- Ermoliev Yu.M. and Norkin V.I. Stochastic generalized gradient method with application to insurance risk management. Interim Report IR-97-021. Int. Inst. for Appl. Syst. Anal. Laxenburg, Austria, 1997. 19 p. URI: http://pure.iiasa.ac.at/5270.
- Пшеничный Б.Н. Необходимые условия экстремума. 2-е изд., перераб. и доп. М.: Наука. Гл. ред. физ.-мат. лит., 1982. 144 с. (1-е изд., 1969.)
- Под ред. Демьянова В.Ф. Негладкие задачи теории оптимизации и управления. Ленинград: Изд-во Ленинград. ун-та, 1982. 322 с.
- Кларк Ф. Оптимизация и негладкий анализ. Москва: Наука, 1988. 280 с.
- Мордухович Б. Ш. Методы аппроксимаций в задачах оптимизации и управления. Москва: Наука. Гл. ред. физ.-мат. лит., 1988. 360 с.
- Rockafellar R.T., Wets R.J-B. Variational analysis. Berlin; Heidelberg: Springer, 1998. 734 p.
- Ahn H-S., Moore K.L., Chen YQ. Iterative learning control. Robustness and monotonic convergence for interval systems. London: Springer-Verlag, 2007. 230 p.
- Aubin J-P. Neural Networks and Qualitative Physics. Cambridge: Cambridge University Press, 1996. 283 p.
- Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. СПб.: Питер, 2018. 480 с.
- Griewank A., Walther A. Evaluating derivatives. Principles and techniques of algorithmic differentiation. Sec. Ed. Philadelphia: Soc. for Industr. and Appl. Mathematics, 2008. 438 p.
- Hardt M., Recht B., Singer Y. Train faster, generalize better: Stability of stochastic gradient descent. Proceedings of Machine Learning Research. 2016. Vol. 48. P. 1225–1234.
- Zhang C., Liao Q., Rakhlin A., Miranda B., Golowich N., Poggio T. Theory of deep learning IIb: Optimization Properties of SGD. CBMM Memo No. 072. McGovern Institute for Brain Research. Cambridge: Massachusetts Institute of Technology, 2018. 9 p. arXiv:1801.02254v1 [cs.LG] 7 Jan. 2018.
- Soudry D., Hoffer E., Nacson M.S., Gunasekar S., Srebro N. The implicit bias of gradient Descent on separable data. arXiv:1710.10345v3 [stat.ML] 21 Mar. 2018.
- Bottou L., Curtisy F.E., Nocedalz J. Optimization methods for large-scale machine learning. SIAM Review. 2018. Vol. 60, N 2. P. 223–311. https://doi.org.10.1137/16m1080173.
- Robbins H. and Monro S. A stochastic approximation method. The Annals of Mathematical Statistics. 1951. Vol. 22, N 3. P. 400–407.
- Nemirovski A., Juditsky A., Lan G., and Shapiro A. Robust stochastic approximation approach to stochastic programming. SIAM Journal on Optimization. 2009. Vol. 19, N 4. P. 1574–1609. https://doi.org/10.1137/070704277.
- Shapiro A., Dentcheva D., and RuszczyA. Lectures on stochastic programming: modeling and theory. Philadelphia: SIAM, 2009. 442 p.
- Ермольев Ю.М., Норкин В.И. Стохастический обобщенный градиентный метод для решения невыпуклых негладких задач стохастической оптимизации. Кибернетика и системный анализ. 1998. № 2. С. 50–71.
- Davis D., Drusvyatskiy D., Kakade S., and Lee J.D. Stochastic subgradient method converges on tame functions. Found. Comput. Math. 2019. P. 1–36. https://doi.org/10.1007/s10208-018-09409-5.
- RuszczyA. Convergence of a stochastic subgradient method with averaging for nonsmooth nonconvex constrained optimization. arXiv Preprint, 2019. arXiv:1912.07580v1 [math.OC] 16 Dec 2019. 10 p. https://arxiv.org/abs/1912.07580.
- Mifflin R. An algorithm for constrained optimization with semi-smooth functions. Math. Oper. Res. 1977. Vol. 2, N 2. P. 191–207. URL: www.jstor.org/stable/3689654.
- Mifflin R. Semismooth and semiconvex functions in constrained optimization. SIAM J. Contr. Opt. 1977. Vol. 15, N 6. P. 959–972. https://doi.org/10.1137/0315061.
- Гупал А.М. Стохастические методы решения негладких экстремальных задач. Киев: Наук. думка, 1979. 150 с.
- Mifflin R. A modification and an extension of Lemarechal’s algorithm for nonsmooth minimization. In: Nondifferential and Variational Techniques in Optimization (Sorensen D.C., Wets J.B., eds.). Math. Prog. Study. 1982. Vol. 17. P. 77–90.
- Shor N.Z. Minimization methods for nondifferentiable functions. Berlin; Heidelberg: Springer, 1985. 164 p.
- Дорофеев П.А. О некоторых свойствах обобщенного градиентного метода. Журнал вычисл. математики и мат. физки. 1985. Т. 25, № 2. С. 181–189.
- Михалевич В.С., Гупал А.М., Норкин В.И. Методы невыпуклой оптимизации. Москва: Наука, 1987. 280 с.
- Завриев С.К., Перевозчиков А.Г. Стохастический метод обобщенного градиентного спуска для решения минимаксных задач со связанными переменными. Журн. вычисл. математики и мат. физики. 1990. Т. 30, № 4. С. 491–500.
- Урясьев С.П. Адаптивные алгоритмы стохастической оптимизации и теории игр. Москва: Наука, 1990. 184 с.
- Hiriart-Urruty J.-B., Lemarechal C. Convex analysis and minimization algorithms. Berlin; Heidelberg: Springer-Verlag, 1993. Vol. II. 346 p.
- Fukushima M., Qi L. (Eds.) Reformulation: Nonsmooth, piecewise smooth, semismooth and smoothing methods. Dordrecht; Boston; London: Kluwer Acad. Publ., 1999. 442 p.
- Стецюк П.И. Теория и программные реализации r-алгоритмов Шора. Кибернетика и системный анализ. 2017. Т. 53, № 5. С. 43–57.
- Норкін В. І. Стохастичні методи розв’язання задач неопуклого стохастичного програмування та їх застосування: aвтореф. дис. д-ра фіз.-мат. наук. Ін-т кібернетики ім. В.М. Глушкова НАН України. Київ, 1998. 32 c. URL: http://library.nuft.edu.ua/ebook/file/01.05.01%20Norkin%20VI.pdf.
- Ермольев Ю.М., Норкин В.И. Методы решения невыпуклых негладких задач стохастической оптимизации. Кибернетика и системный анализ. 2003. № 5. С. 89–106.
- Норкин В.И. Нелокальные алгоритмы минимизации недифференцируемых функций. Кибернетика. 1978. № 5. С. 44–48.
- Bolte J., Daniilidis A., Lewis A. Tame functions are semismooth. Math. Program., Ser. B. 2009. Vol. 117. P. 5–19. https://doi.org.10.1007/s10107-007-0166-9.
- Норкин В.И. Случайные обобщенно-дифференцируемые функции в задаче невыпуклой негладкой стохастической оптимизации. Кибернетика. 1986. № 6. С. 98–102.
- Miric S. A note on the generalized differentiability of mappings. Nonl. Anal. Theory, Methods, Applications. 1980. Vol. 4, N 3. P. 567–575. https://doi.org/10.1016/0362-546x(80)90092-9.
- Ляшко І.І., Ємельянов В.Ф., Боярчук О.К. Математичний аналіз. Київ: Вища школа, 1992. Частина І. 495 с.
- Qi L., Sun J. A nonsmooth version of Newton’s method. Mathematical Programming. 1993. Vol. 58. P. 353–368. https://doi.org/10.1007/bf01581275.
- Qi L. Convergence analysis of some algorithms for solving nonsmooth equations. Mathematics of Operations Research. 1993. Vol. 18. P. 227–244. https://doi.org/10.1287/moor.18.1.227.
- Поляк Б.Т. Введение в оптимизацию. Москва: Наука. Гл. ред. физ.-мат. лит., 1983. 384 с.
- Стернберг С. Лекции по дифференциальной геометрии. Москва: Мир, 1970. 412 с.
- Burke J., Lewis A. & Overton M. A robust gradient sampling algorithm for nonsmooth nonconvex optimization. SIAM J. on Opt. 2005. Vol. 15, N 3. P. 751–779. https://doi.org/10.1137/030601296.