КиСА | Содержание

Том 56 >>> № 1 ЯНВАРЬ — ФЕВРАЛЬ 2020

УДК 681.3

А.А. Марченко, О.С. Радивоненко, Т.С. Игнатова,
П.В. Титарчук, Д.В. Железняков

УЛУЧШЕНИЕ КАЧЕСТВА ГЕНЕРАЦИИ ТЕКСТА С ПОМОЩЬЮ МЕРЫ СВЯЗНОСТИ

Аннотация. Взаимодействие на основе текста с использованием мобильных устройств стало повсеместным, его основными источниками являются социальные сети, мессенджеры, электронные письма, виртуальные помощники, приложения для обеспечения доступности и т.д. Это подразумевает необходимость создания систем облегчения ввода текста пользователем и разработки способов поддержки вербальной обратной связи. В этой статье мы обсуждаем метод генерации уникального текста для мобильных устройств и методологию его оценки в качестве решения обеих заявленных проблем. Мы рассматриваем возможности, предоставляемые использованием контекста (местоположение, погода, запланированные события и т.д.), ограничения вычислительных ресурсов и использования данных, а также присущую субъективность оценки творческой задачи с учетом разнообразия возможных приемлемых результатов. Сравнение с другими методами генерации текстов показывает, что использование метрик связности помогает достичь более высокого качества с точки зрения человеческого восприятия. Корреляция Спирмена между значениями предлагаемой метрики связности и человеческой оценкой читабельности текста составляет 0.86, что свидетельствует о высоком качестве метрики и эффективности метода в целом.

Ключевые слова: компьютерная лингвистика, автоматическая генерация естественно-языковых текстов, связность текстов, метрики связности текстов.

ПОЛНЫЙ ТЕКСТ

Marchenko Oleksandr,
Dr. Sc. (Phys.-Math.), Professor, Taras Shevchenko National University of Kyiv, Ukraine,
rozenkrans17@gmail.com

Radyvonenko Olga,
Ph.D in Technical Science, Associate Professor, Head of Lab, Samsung R&D Institute Ukraine (SRK),
Kyiv, Ukraine, o.radyvonenk@samsung.com

Ignatova Tetiana,
Engineer, Samsung R&D Institute Ukraine (SRK), Kyiv, Ukraine, te.ignatova@samsung.com

Tytarchuk Pavlo,
Engineer, Samsung R&D Institute Ukraine (SRK), Kyiv, Ukraine, p.tytarchuk@samsung.com

Zhelezniakov Dmytro,
Staff Engineer, Samsung R&D Institute Ukraine (SRK), Kyiv, Ukraine, d.zheleznyak@samsung.com

СПИСОК ЛИТЕРАТУРЫ

Ruder S., Ghaffari P., Breslin J.G. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution. 2016. URL: http://arxiv.org/abs/1609.06686.

Agarwal B., Ramampiaro H., Langseth H., Ruocco M. A deep network model for paraphrase detection in short text messages. Information Processing and Management. 2018. Vol. 54, N 6. P. 922–937.

Asghar N., Poupart P., Hoey J., Jiang X., Mou L. Affective neural response generation. Advances in Information Retrival. Proc. 40th European Conf. on IR Research, ECIR 2018 (March 26–29, 2018, Grenoble, France). P. 154–166.

Chen Y.-N., Celikyilmaz A., Hakkani-Tur D. Deep learning for dialogue systems. Proc. 27th Int. Conf. on Computational Linguistics: Tutorial Abstracts. 2018. P. 25–31. URL: https:// www.aclweb.org/anthology/C18-3006.pdf.

Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language models are unsupervised multitask learners. OpenAI Blog. URL: https://openai.com/blog/better-language-models/ (Feb 14, 2019).

Kiros R., Zhu Y., Salakhutdinov R.R., Zemel R., Urtasun R., Torralba A., Fidler S. Skip-thought vectors. Proc. NIPS 2015. (December 7–12, 2015, Montreal, Quebec, Canada). Vol. 2. P. 3294–3302.

Jain P., Agrawal P., Mishra A., Sukhwani M., Laha A., Sankaranarayanan K. Story generation from sequence of independent short descriptions. 2017. URL: http:// arxiv.org/abs/1707.05501.

McIntyre N., Lapata M. Learning to tell tales: a data-driven approach to story generation. Proc. 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP (2–7 August 2009, Suntec, Singapore). 2009. P. 217–225.

Rishes E., Lukib S.M., Elson D.K., Walker M.A. Generating different story tellings from semantic representations of narrative. Proc. 6th ICIDS 2013. (November 6–9, Istanbul, Turkey). P. 192–204.

Leppnen L., Munezero M., Granroth-Wilding M., Toivonen H. Data-driven news generation for automated journalism. Proc. 10th INLG 2017. (September, 2017, Santiago de Compostela, Spain). P. 188–197.

Papineni K., Roukos S., Ward T., Zhu W.-J. BLEU: A method for automatic evaluation of machine translation. Proc. 40th Annual Meeting on Association for Computational Linguistics. (July, 2002, Philadelphia, Pennsylvania, USA). 2002. P. 311–318.

Ji Y., Eisenstein J. Discriminative improvements to distributional sentence similarity. Proc. 2013 Conference on Empirical Methods in Natural Language Processing. (October, 2013, Seattle, Washington, USA). P. 891–896.

Foltz P. W., Kintsch W., Landauer T.K. The measurement of textual coherence with latent semantic analysis. Discourse Processes. 1998. Vol. 25, N 2–3. P. 285–307.

Barzilay R., Lapata M. Modeling local coherence: an entity-based approach. Computational Linguistics. 2008. Vol. 34, N 1. P. 1–34.

Li J., Hovy E. A model of coherence based on distributed sentence representation. Proc. EMNLP 2014. (October 25–29, 2014, Doha, Qatar). P. 2039–2048.

Li J., Jurafsky D. Neural net models of open-domain discourse coherence. Proc. EMNLP 2017. (September, 2017, Copenhagen, Denmark). P. 198–209.

Basile V., Condori R.L., Cabrio E. Measuring frame instance relatedness. Proc. 7th Joint Conference on Lexical and Computational Semantics (*SEM) (June 5–6, 2018, New Orleans). 2018. P. 245–254.

Mesgar M., Strube M. A neural local coherence model for text quality assessment. Proc. 2018 Conference on Empirical Methods in Natural Language Processing (October 31 – November 4, 2018, Brussels, Belgium). P. 4328–4339.

Wu Z., Palmer M. Verbs semantics and lexical selection. Proc. 32nd Annual Meeting on Association for Computational Linguistics (June 27–30, 1994, Las Cruces, New Mexico). 1994. P. 133–138.

Mostafazadeh N., Chambers N., He X., Parikh D., Batra D., Vanderwende L., Kohli P., Allen J. A corpus and cloze evaluation for deeper understanding of commonsense stories. Proc. NAACL-HLT 2016. (June 12–17, 2016, San Diego, California). P. 839–849.

Yao L., Peng N., Weisahedel R., Kbight K., Zhao D., Yan R. Plan-And-Write: Towards better automatic storytelling. 2018. URL: https://arxiv.org/abs/1811.05701.

Lin T.-Y, Maire M., Belongie S., Hays J., Peroba P., Ramanan D., Dollar P., Zitnicl L. Microsoft COCO: Common objects in context. Proc. ECCV 2014. (September 6–12, 2014, Zurich, Switzerland). P. 740–75.