Анотація. Розглянуто EM-алгоритм для задачі поділу сумішей ймовірнісних розподілів, які описуються ланцюжками Маркова, та пов’язану з нею проблему максимізації зваженої правдоподібності. Запропоновано допоміжні алгоритми для вибору початкового наближення та оптимального числа компонентів суміші, а також метод апроксимації суміші розподілів на основі відомих даних з використанням методу опорних векторів. Отримані результати застосовано до задачі класифікації фрагментів генів.
Ключові слова: ланцюг Маркова, класифікація, ген, біоінформатика, нуклеотид, екзон, інтрон, правдоподібність.
Сергиенко Иван Васильевич,
академик НАН Украины, директор Института кибернетики им. В.М. Глушкова НАН Украины, Киев,
e-mail: aik@public.icyb.kiev.ua.
Гупал Анатолий Михайлович,
чл.-кор. НАН Украины, профессор, заведующий отделом Института кибернетики им. В.М. Глушкова НАН Украины, Киев,
e-mail: gupal_anatol@mail.ru.
Островский Алексей Викторович,
младший научный сотрудник Института кибернетики им. В.М. Глуш¬кова НАН Украины, Киев,
e-mail: ostrovski.alex@gmail.com.