Cybernetics And Systems Analysis logo
Інформація редакції Аннотації статей Автори Архів
Кібернетика та Системний Аналіз
Міжнародний Науково-Теоретичний Журнал
-->


DOI 10.34229/KCA2522-9664.26.3.4
УДК 004.8

Д.І. ЮВЖЕНКО
Національний технічний університет України «Київський політехнічний інститут
імені Ігоря Сікорського», Київ, Україна, d.yuvzhenko@kpi.ua

С.Г. СТІРЕНКО
Національний технічний університет України «Київський політехнічний інститут
імені Ігоря Сікорського», Київ, Україна, s.stirenko@kpi.ua


ПОРІВНЯЛЬНЕ ОЦІНЮВАННЯ СТРАТЕГІЙ СЕГМЕНТАЦІЇ
ДОКУМЕНТІВ У СИСТЕМАХ ГЕНЕРАЦІЇ, ДОПОВНЕНОЇ ПОШУКОМ

Анотація. Наведено емпіричне порівняльне дослідження чотирьох стратегій сегментації: фіксованих вікон розміром 256, 512 і 1024 токенів, а також семантичної сегментації на основі великої мовної моделі. Проведено експерименти на довгих змістовно-зв’язних текстах набору даних SQuALITY. Виконано оцінювання на 225 парах запитання–відповідь із використанням метрик Precision@5, Recall@5 (метрики для топ-5 результатів пошуку), якості відповіді (Exact Match, токен-рівневий F1) і середньої затримки пошуку. Отримано результати, що виявляють чіткий компроміс між точністю та повнотою пошуку, зумовлений гранулярністю: менші фрагменти забезпечують вищу точність, тоді як більші суттєво підвищують повноту та покращують якість відповідей за F1-метрикою. У межах цього експериментального дослідження, семантична сегментація демонструє конкурентні результати, але не показує стабільної переваги порівняно з фіксованими вікнами розміром 512–1024 токенів. Зафіксовано зниження затримки пошуку під час використання більших сегментів, що пояснюється меншою щільністю векторного індексу. Запропоновано відтворювану процедуру оцінювання та практичні рекомендації щодо вибору стратегії сегментації для ефективних RAG-систем.

Ключові слова: доповнена пошуком генерація, RAG, сегментація тексту, семантичний пошук, довгі документи, стратегії сегментації.


повний текст

СПИСОК ЛІТЕРАТУРИ




© 2026 Kibernetika.org. All rights reserved.