КиСА | Содержание

Том 56 >>> № 2 МАРТ — АПРЕЛЬ 2020

УДК 517.2+519.977.58+519.8

В.И. Норкин

ОБОБЩЕННЫЕ ГРАДИЕНТЫ В ЗАДАЧАХ ДИНАМИЧЕСКОЙ ОПТИМИЗАЦИИ,
ОПТИМАЛЬНОГО УПРАВЛЕНИЯ И МАШИННОГО ОБУЧЕНИЯ

Аннотация. Рассмотрены негладкие невыпуклые задачи динамической оптимизации, оптимального управления (в дискретном времени), в том числе управления с обратной связью, и машинного обучения. Прослежена аналогия между задачами управления дискретными динамическими системами и задачами обучения многослойных нейронных сетей с негладкими целевыми функционалами и связями. Обоснованы методы вычисления обобщенных градиентов для таких систем на основе функций Гамильтона–Понтрягина. Градиентные (стохастические) алгоритмы оптимального управления и обучения распространяются на невыпуклые негладкие динамические системы.

Ключевые слова: динамическая оптимизация, оптимальное управление, машинное обучение, многослойные нейронные сети, глубокое обучение, негладкая невыпуклая оптимизация, стохастическая оптимизация, стохастический обобщенный градиент, стохастическое сглаживание.

ПОЛНЫЙ ТЕКСТ

Норкин Владимир Иванович,
доктор физ.-мат. наук, ведущий научный сотрудник Института кибернетики им. В.М. Глушкова НАН Украины; профессор кафедры Национального технического университета Украины «Киевский политехнический институт имени Игоря Сикорского», Киев, vladimir.norkin@gmail.com

СПИСОК ЛИТЕРАТУРЫ

Брайсон А., Хо Ю-Ши. Прикладная теория оптимального управления. Оптимизация, оценка и управление. Москва: Мир, 1972. 544 с.

Ермольев Ю.М. Методы стохастического программирования. Москва: Наука, 1976. 240 с.

Ермольев Ю.М., Гуленко В.П., Царенко Т.И. Конечно-разностный метод в задачах оптимального управления. Киев: Наук. думка, 1978. 164 с.

Васильев Ф.П. Методы решения экстремальных задач. Москва: Наука, 1981. 400 с.

Евтушенко Ю.Г. Оптимизация и быстрое автоматическое дифференцирование. Москва: ВЦ имени А.А. Дородницына РАН, 2013. 144 с. DOI: http://dx.doi.org/10.1016/j.neunet.2014.09.003.

Schmidhuber J. Deep learning in neural networks: An overview. Neural Networks. 2015. Vol. 61. P. 85–117. http://dx.doi.org/10.1016/j.neunet.2014.09.003.

Нурминский Е.А. Численные методы решения стохастических минимаксных задач. Киев: Наук. думка, 1979. 176 с.

Понтрягин Л.С, Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. Москва: Физматгиз, 1961. 391 с.

Болтянский В.Г. Оптимальное управление дискретными системами. Москва: Наука, 1973. 448 с.

Rumelhart D.E., Hinton G.E., and Williams R.J. Learning representations by Back-Propagating errors. Nature. 1986. Vol. 323. P. 533–536. https://doi.org/10.1038/323533a0.

LeCun Y., Bengio Y., and Hinton G. Deep learning. Nature. 2015. Vol. 521. P. 436–444. https://doi.org. 10.1038/nature14539.

Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. Пер. с анг. 2-е изд., испр. Москва: ДМК Пресс, 2018. 652 с.

Норкин В.И. Обобщенно-дифференцируемые функции. Кибернетика. 1980. № 1. С. 9–11.

Демьянов В.Ф. Условия экстремума и вариационное исчисление. Москва: Высш. шк., 2005. 335 с.

Дадуна Г., Кнопов П.С., Тур Л.П. Оптимальные стратегии для системы запасов с функциями стоимости общего вида. Кибернетика и системный анализ. 1999. № 4. С.106–123.

Ermoliev Yu.M. and Norkin V.I. Stochastic generalized gradient method with application to insurance risk management. Interim Report IR-97-021. Int. Inst. for Appl. Syst. Anal. Laxenburg, Austria, 1997. 19 p. URI: http://pure.iiasa.ac.at/5270.

Пшеничный Б.Н. Необходимые условия экстремума. 2-е изд., перераб. и доп. М.: Наука. Гл. ред. физ.-мат. лит., 1982. 144 с. (1-е изд., 1969.)

Под ред. Демьянова В.Ф. Негладкие задачи теории оптимизации и управления. Ленинград: Изд-во Ленинград. ун-та, 1982. 322 с.

Кларк Ф. Оптимизация и негладкий анализ. Москва: Наука, 1988. 280 с.

Мордухович Б. Ш. Методы аппроксимаций в задачах оптимизации и управления. Москва: Наука. Гл. ред. физ.-мат. лит., 1988. 360 с.

Rockafellar R.T., Wets R.J-B. Variational analysis. Berlin; Heidelberg: Springer, 1998. 734 p.

Ahn H-S., Moore K.L., Chen YQ. Iterative learning control. Robustness and monotonic convergence for interval systems. London: Springer-Verlag, 2007. 230 p.

Aubin J-P. Neural Networks and Qualitative Physics. Cambridge: Cambridge University Press, 1996. 283 p.

Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. СПб.: Питер, 2018. 480 с.

Griewank A., Walther A. Evaluating derivatives. Principles and techniques of algorithmic differentiation. Sec. Ed. Philadelphia: Soc. for Industr. and Appl. Mathematics, 2008. 438 p.

Hardt M., Recht B., Singer Y. Train faster, generalize better: Stability of stochastic gradient descent. Proceedings of Machine Learning Research. 2016. Vol. 48. P. 1225–1234.

Zhang C., Liao Q., Rakhlin A., Miranda B., Golowich N., Poggio T. Theory of deep learning IIb: Optimization Properties of SGD. CBMM Memo No. 072. McGovern Institute for Brain Research. Cambridge: Massachusetts Institute of Technology, 2018. 9 p. arXiv:1801.02254v1 [cs.LG] 7 Jan. 2018.

Soudry D., Hoffer E., Nacson M.S., Gunasekar S., Srebro N. The implicit bias of gradient Descent on separable data. arXiv:1710.10345v3 [stat.ML] 21 Mar. 2018.

Bottou L., Curtisy F.E., Nocedalz J. Optimization methods for large-scale machine learning. SIAM Review. 2018. Vol. 60, N 2. P. 223–311. https://doi.org.10.1137/16m1080173.

Robbins H. and Monro S. A stochastic approximation method. The Annals of Mathematical Statistics. 1951. Vol. 22, N 3. P. 400–407.

Nemirovski A., Juditsky A., Lan G., and Shapiro A. Robust stochastic approximation approach to stochastic programming. SIAM Journal on Optimization. 2009. Vol. 19, N 4. P. 1574–1609. https://doi.org/10.1137/070704277.

Shapiro A., Dentcheva D., and RuszczyA. Lectures on stochastic programming: modeling and theory. Philadelphia: SIAM, 2009. 442 p.

Ермольев Ю.М., Норкин В.И. Стохастический обобщенный градиентный метод для решения невыпуклых негладких задач стохастической оптимизации. Кибернетика и системный анализ. 1998. № 2. С. 50–71.

Davis D., Drusvyatskiy D., Kakade S., and Lee J.D. Stochastic subgradient method converges on tame functions. Found. Comput. Math. 2019. P. 1–36. https://doi.org/10.1007/s10208-018-09409-5.

RuszczyA. Convergence of a stochastic subgradient method with averaging for nonsmooth nonconvex constrained optimization. arXiv Preprint, 2019. arXiv:1912.07580v1 [math.OC] 16 Dec 2019. 10 p. https://arxiv.org/abs/1912.07580.

Mifflin R. An algorithm for constrained optimization with semi-smooth functions. Math. Oper. Res. 1977. Vol. 2, N 2. P. 191–207. URL: www.jstor.org/stable/3689654.

Mifflin R. Semismooth and semiconvex functions in constrained optimization. SIAM J. Contr. Opt. 1977. Vol. 15, N 6. P. 959–972. https://doi.org/10.1137/0315061.

Гупал А.М. Стохастические методы решения негладких экстремальных задач. Киев: Наук. думка, 1979. 150 с.

Mifflin R. A modification and an extension of Lemarechal’s algorithm for nonsmooth minimization. In: Nondifferential and Variational Techniques in Optimization (Sorensen D.C., Wets J.B., eds.). Math. Prog. Study. 1982. Vol. 17. P. 77–90.

Shor N.Z. Minimization methods for nondifferentiable functions. Berlin; Heidelberg: Springer, 1985. 164 p.

Дорофеев П.А. О некоторых свойствах обобщенного градиентного метода. Журнал вычисл. математики и мат. физки. 1985. Т. 25, № 2. С. 181–189.

Михалевич В.С., Гупал А.М., Норкин В.И. Методы невыпуклой оптимизации. Москва: Наука, 1987. 280 с.

Завриев С.К., Перевозчиков А.Г. Стохастический метод обобщенного градиентного спуска для решения минимаксных задач со связанными переменными. Журн. вычисл. математики и мат. физики. 1990. Т. 30, № 4. С. 491–500.

Урясьев С.П. Адаптивные алгоритмы стохастической оптимизации и теории игр. Москва: Наука, 1990. 184 с.

Hiriart-Urruty J.-B., Lemarechal C. Convex analysis and minimization algorithms. Berlin; Heidelberg: Springer-Verlag, 1993. Vol. II. 346 p.

Fukushima M., Qi L. (Eds.) Reformulation: Nonsmooth, piecewise smooth, semismooth and smoothing methods. Dordrecht; Boston; London: Kluwer Acad. Publ., 1999. 442 p.

Стецюк П.И. Теория и программные реализации r-алгоритмов Шора. Кибернетика и системный анализ. 2017. Т. 53, № 5. С. 43–57.

Норкін В. І. Стохастичні методи розв’язання задач неопуклого стохастичного програмування та їх застосування: aвтореф. дис. д-ра фіз.-мат. наук. Ін-т кібернетики ім. В.М. Глушкова НАН України. Київ, 1998. 32 c. URL: http://library.nuft.edu.ua/ebook/file/01.05.01%20Norkin%20VI.pdf.

Ермольев Ю.М., Норкин В.И. Методы решения невыпуклых негладких задач стохастической оптимизации. Кибернетика и системный анализ. 2003. № 5. С. 89–106.

Норкин В.И. Нелокальные алгоритмы минимизации недифференцируемых функций. Кибернетика. 1978. № 5. С. 44–48.

Bolte J., Daniilidis A., Lewis A. Tame functions are semismooth. Math. Program., Ser. B. 2009. Vol. 117. P. 5–19. https://doi.org.10.1007/s10107-007-0166-9.

Норкин В.И. Случайные обобщенно-дифференцируемые функции в задаче невыпуклой негладкой стохастической оптимизации. Кибернетика. 1986. № 6. С. 98–102.

Miric S. A note on the generalized differentiability of mappings. Nonl. Anal. Theory, Methods, Applications. 1980. Vol. 4, N 3. P. 567–575. https://doi.org/10.1016/0362-546x(80)90092-9.

Ляшко І.І., Ємельянов В.Ф., Боярчук О.К. Математичний аналіз. Київ: Вища школа, 1992. Частина І. 495 с.

Qi L., Sun J. A nonsmooth version of Newton’s method. Mathematical Programming. 1993. Vol. 58. P. 353–368. https://doi.org/10.1007/bf01581275.

Qi L. Convergence analysis of some algorithms for solving nonsmooth equations. Mathematics of Operations Research. 1993. Vol. 18. P. 227–244. https://doi.org/10.1287/moor.18.1.227.

Поляк Б.Т. Введение в оптимизацию. Москва: Наука. Гл. ред. физ.-мат. лит., 1983. 384 с.

Стернберг С. Лекции по дифференциальной геометрии. Москва: Мир, 1970. 412 с.

Burke J., Lewis A. & Overton M. A robust gradient sampling algorithm for nonsmooth nonconvex optimization. SIAM J. on Opt. 2005. Vol. 15, N 3. P. 751–779. https://doi.org/10.1137/030601296.

УДК 517.2+519.977.58+519.8

ОБОБЩЕННЫЕ ГРАДИЕНТЫ В ЗАДАЧАХ ДИНАМИЧЕСКОЙ ОПТИМИЗАЦИИ, ОПТИМАЛЬНОГО УПРАВЛЕНИЯ И МАШИННОГО ОБУЧЕНИЯ

СПИСОК ЛИТЕРАТУРЫ

ОБОБЩЕННЫЕ ГРАДИЕНТЫ В ЗАДАЧАХ ДИНАМИЧЕСКОЙ ОПТИМИЗАЦИИ,
ОПТИМАЛЬНОГО УПРАВЛЕНИЯ И МАШИННОГО ОБУЧЕНИЯ