Компьютерная программа отслеживает изменения русского языка
Учёные Мурманского арктического университета разработали программу, которая на основе анализа сотен миллионов слов фиксирует, как со временем меняется русский язык

В России команда МАУ представила компьютерную программу для диахронического анализа лексики. Программа работает на основе автоматической лемматизации и количественного анализа текстов. Алгоритм автоматически приводит слова к начальной форме и вычисляет, как менялась частота их употребления в разные исторические периоды.
Система обрабатывает большие массивы текстов и выявляет динамику словоупотребления без ручной разметки. Открытие бесценно для лингвистических исследований и позволяет работать с лексическими данными в промышленных масштабах. Благодаря этому исследователи видят, как со временем меняется язык.
Тестирование провели на материалах Национального корпуса русского языка. В исследование вошли тексты дореволюционного, советского и постсоветского периодов. Всего программа проанализировала более 250 миллионов слов.
Интересный результат
Исследование выявило интересную картину. Язык не демонстрирует взрывного появления новых слов. При этом общее число слов, которые активно используются в повседневной речи, растёт.
В текстах стало заметно больше чисел. Понятно, что тут сказывается влияние цифровой среды и усиление роли статистики, технологий и вообще количественных показателей в общественной жизни.
Одновременно часть слов постепенно теряют актуальность и всё реже встречается в современных текстах. Программа позволяет фиксировать такие процессы автоматически.
Разработчики считают, что накопленные данные можно использовать для более точного прогнозирования изменений разговорного и официального языков. Накопленные массивы информации помогут обучать системы искусственного интеллекта лучше понимать эволюцию лексики и адаптироваться к её изменениям.
Поскольку нейросети «общаются» с нами с помощью письменной лексики, исследование просто неоценимо. Так мы сможем лучше понимать друг друга.








































