Казанский (Приволжский) федеральный университет

Квантитативные модели диахронических изменений и синхронной вариативности в русском языке и лингвистические базы данных, основанные на сверхбольших корпусах

Руководитель проекта

Бочкарев Владимир Владимирович

Исполнители

Соловьев Валерий Дмитриевич

Шевлякова Анна Владимировна

Масленникова Юлия Сергеевна

Олейник Инна Александровна

Галеев Тимур Ильдарович

Косова Вера Алексеевна

Христофоров Станислав Викторович

Копылов Николай Юрьевич

Аннотация проекта

Использование корпусных данных вкупе с методами математической статистически является современным трендом в лингвистике. Это позволяет создавать описания языка, основанные на реальных употреблениях и свободные от интроспекции исследователя и господствующих лингвистических теорий. Для русского языка основным инструментом корпусных исследований является Национальный корпус русского языка (НКРЯ), содержащий более 600 млн. слов. В нашем проекте акцент делается на использовании корпуса Google Books Ngram, содержащего более 67 млрд. слов и других сверхбольших (миллиарды и десятки миллиардов слов) корпусов русского языка. Это обеспечит статистически более надежные данные, что особенно важно для низкочастотных слов. Целью исследований является проверка и уточнение результатов, полученных ранее на НКРЯ, а также развитие совершенно новых моделей вариативности и диахронических изменений, не предлагавшихся в предшествующих работах.

Финансовая поддержка: грант РФФИ № 17-29-09163

Базы данных

Частотный словарь русского языка, онлайн-версия

Частотный словарь русского языка, скачиваемая версия

Словарь новых слов русского языка