Анотація. Розглянуто методи та алгоритми швидкої оцінки мір відстані/схожості вхідних даних за векторними представленнями з бінарними або цілочисельними компонентами, що отримані з вхідних даних, які є здебільшого векторами великої розмірності з різними мірами відстані (кутова, евклідова та ін.) та схожості (косинус кута, скалярний добуток та ін.). Обговорено методи без навчання, що використовують головним чином випадкові проекції з наступним квантуванням, а також семплювання. Отримані вектори можна застосовувати в алгоритмах пошуку за схожістю, машинного навчання тощо.
Ключові слова: відстань, схожість, вкладення, скетчі, випадкові проекції, семплювання, бінаризація, квантування, лема Джонсона–Лінденштрауса, ядерна схожість, пошук за схожістю, локально-чутливе хешування.
Рачковский Дмитрий Андреевич,
доктор техн. наук, ведущий научный сотрудник Международного научно-учебного центра информационных технологий и систем НАН и МОН Украины, Киев,
e-mail: dar@infrm.kiev.ua.