Учёные составили самый большой словарь паронимов русского языка

Российские компьютерные лингвисты смогли автоматически составить самый большой компьютерный словарь паронимов русского языка — слов, похожих по форме, но разных по значению.
Правильное употребление таких слов, как, например, «адресат» и «адресант», часто вызывает трудности. «У (нового) словаря есть как минимум два приложения — исправление ошибок в тексте и обучение правильному употреблению паронимов в разных контекстах», — сказала соавтор исследования, сотрудник факультета вычислительной математики и кибернетики МГУ имени М.В. Ломоносова Елена Большакова, представившая результаты работы на XIX конференции по компьютерной лингвистике «Диалог», сообщает РИА Новости.

До сих пор лингвисты составляли словари вручную, опираясь на языковое чутье. Елена Большакова и ее отец Игорь Большаков, независимый исследователь, впервые предложили формальный критерий паронимии, что дало им возможность составить словарь автоматически.

Исследователи определили паронимы как однокоренные слова одной части речи, имеющие определенные отличия в приставках и суффиксах — например, «добровольный» и «добровольческий». Степень различия слов, при которой они еще достаточно схожи, чтобы считаться паронимами, ученые нашли, анализируя самый большой печатный словарь паронимов русского языка, который содержит 1100 паронимических рядов из 2-7 слов.

В качестве материала для построения компьютерного словаря паронимов учёные использовали созданный ими же словарь однокоренных слов с 23 тысячами единиц. На основании введенных ими критериев, компьютер выбрал среди паронимов 192 тысячи слов, которые составили почти 22 тысячи статей словаря.

Учёные опробовали автоматический поиск ошибок при помощи словаря на отдельных примерах. Встретив в тексте пароним, компьютер обращается к статистике употребления его в разных контекстах. Если пароним оказался рядом с необычным «соседом», алгоритм предлагает варианты замены пары. Дальнейшая задача учёных — уточнить критерий паронимии и протестировать программу на текстах с настоящими ошибками.

Крупнейшая конференция по компьютерной лингвистике в России «Диалог» является традиционным местом встречи и интенсивного обмена идеями между специалистами в области лингвистики, коммуникации, представления знаний, автоматической обработки текста. Практической целью этого междисциплинарного общения является решение широкого спектра задач автоматической обработки естественного языка. Научная цель заключается в том, чтобы получить теоретические и языковые описания той степени полноты и эксплицитности, которая позволила бы решать вышеуказанные задачи. В этой ориентации инженерной практики на адекватные лингвистические и коммуникативные модели и состоит специфика «Диалога», отличающая его от большинства конференций по компьютерной лингвистике.



Следите за обновлениями сайта в нашем Telegram-канале