Главная \ Образование \ Институт филологии и межкультурной коммуникации \ Структура \ Научно-образовательные центры (НОЦ) \ НОЦ по лингвистике им. И.А. Бодуэна де Куртенэ \ OpenLab "Квантитативная лингвистика"

Диахронический частотный словарь русской лексики

Словарь включает 1,340,703 наиболее частотных слов русского языка за два периода времени (с 1920 по 2019 и с 1992 по 2019 года). Информация о частотности употребления, ранге и части речи слов получена с исользованием корпуса текстов Google Books Ngram. Информация о леммах, нормальной форме и ее части речи получена на основе морфологического словаря «Открытый корпус» (OpenCorpora). Таким образом, в словарь включены только те слова, которые присутствуют в корпусе Google Books Ngram и морфологическом словаре OpenCorpora.

Разработка концепции словаря и его подготовка к изданию осуществлена сотрудниками лаборатории «Квантитативная лингвистика» Института филологии и межкультурной коммуникации КФУ В.Д. Соловьевым, В.В. Бочкаревым, Ю.С. Масленниковой, А.В. Шевляковой, электронная версия подготовлена В.В. Бочкаревым и Ю.С. Масленниковой.

Структура частотного словаря:

1 столбец – слово

2 столбец – ранг слова (его место в отсортированной по суммарной частоте употребления выборке за период, указанный в имени файла, 1920-2019 либо 1992-2019 года)

3 столбец – относительная частота (на 1 млн. слов)

4 столбец – документная частота

5 столбец –записи, включающие номер леммы (в нумерации корпуса OpenCorpora), нормальная форма слова и часть речи

6 столбец – часть речи по корпусу Google books Ngram с процентом случаев, когда словоформа размечена как относящаяся к той или иной части речи

База данных

Файл для скачивания частотного словаря за период с 1920 по 2019 года: (файл rus_freq_dictionary_1920-2019)

Файл для скачивания частотного словаря за период с 1992 по 2019 года: (файл rus_freq_dictionary_1992-2019)

Ключевые слова: Диахронический частотный словарь русской лексики