Словарь включает 1,340,703 наиболее частотных слов русского языка за два периода времени (с 1920 по 2019 и с 1992 по 2019 года). Информация о частотности употребления, ранге и части речи слов получена с исользованием корпуса текстов Google Books Ngram. Информация о леммах, нормальной форме и ее части речи получена на основе морфологического словаря «Открытый корпус» (OpenCorpora). Таким образом, в словарь включены только те слова, которые присутствуют в корпусе Google Books Ngram и морфологическом словаре OpenCorpora.
Разработка концепции словаря и его подготовка к изданию осуществлена сотрудниками лаборатории «Квантитативная лингвистика» Института филологии и межкультурной коммуникации КФУ В.Д. Соловьевым, В.В. Бочкаревым, Ю.С. Масленниковой, А.В. Шевляковой, электронная версия подготовлена В.В. Бочкаревым и Ю.С. Масленниковой.
Структура частотного словаря:
1 столбец – слово
2 столбец – ранг слова (его место в отсортированной по суммарной частоте употребления выборке за период, указанный в имени файла, 1920-2019 либо 1992-2019 года)
3 столбец – относительная частота (на 1 млн. слов)
4 столбец – документная частота
5 столбец –записи, включающие номер леммы (в нумерации корпуса OpenCorpora), нормальная форма слова и часть речи
6 столбец – часть речи по корпусу Google books Ngram с процентом случаев, когда словоформа размечена как относящаяся к той или иной части речи
База данных
Файл для скачивания частотного словаря за период с 1920 по 2019 года: (файл rus_freq_dictionary_1920-2019)
Файл для скачивания частотного словаря за период с 1992 по 2019 года: (файл rus_freq_dictionary_1992-2019)