Проекты НИЛ "Мультидисциплинарные исследования текста"
Корпус транскриптов звучащей речи школьников
Авторы:
Андреева Мария Игоревна
Галимова Халида Нурисламовна
Гатиятуллина Галия Маратовна
Гафиятова Эльзара Василовна
Замалетдинов Радиф Рифкатович
Зарипова Ирина Ренатовна
Казачкова Мария Борисовна
Кисельников Александр Сергеевич
Мартынова Екатерина Владимировна
Солнышкина Марина Ивановна
Соловьев Валерий Дмитриевич
Яковлева Светлана Леонидовна
Ярмакеев Искандер Энгелевич
Проект по созданию Базы данных «Корпус транскриптов звучащей речи школьников» реализован сотрудниками НИЛ «Текстовая аналитика». В основе проекта — современная отечественная концепция описания и дискурсивного аннотирования устной речи. Для графического представления звучащей речи в Базе данных используется минимальная транскрипция, при которой основной целью становится фиксация дискурсивных структур. Сегментация звучащей речи осуществляется при помощи деления речевого потока на минимальные кванты, «элементарные дискурсивные единицы», разделяемые знаками паузации.
Корпус транскриптов звучащей речи школьников представляет исключительно научную ценность и может быть использован для изучения современного учебного дискурса и его соответствия лингвистическим и когнитивным способностям школьников определенного возраста, а также различий в текстах различной сложности, предназначенных для изучения в различных классах.
Корпус включает транкрипты оригинальных текстов из учебников и модифицированных текстов. Объем каждого текста составляет примерно 200 слов и соответствует уровню читабельности текстов, предназначенных для школьников 5, 9 и 10 классов (Оценка производилась по формуле читабельности для русского языка, встроенной в RuLingva (https://rulingva.kpfu.ru/)). Ученикам были предложены модифицированные или оригинальные тексты из учебников школьного курса по обществознанию. Модифицированные тексты упрощены до уровня 5 или 9 класса соответственно, а также подвергнуты ряду синтаксических модификаций. (см. Табл.1)
Таблица 1. Модификации, внесенные в оригинальный текст для пересказа
Тип модификации |
Гипотеза – текст с наиб. сложн. модиф. |
Тексты А |
Сложность «А» SIS |
Сложность «В» SIS |
Сложность «А» Oborneva |
Сложность «B» Oborneva |
Тексты В |
MSVO – SVOM |
А |
Текст 51А |
6,1 |
6,1 |
11,6 |
11,7 |
Текст 51В |
N – V Inf |
А |
Текст 52А |
5,1 |
5,1 |
9,7 |
9.9 |
Текст 52В |
V – not V |
А |
Текст 53А |
5,8 |
5,8 |
10,5 |
10,4 |
Текст 53В |
Deeprich – V |
А |
Текст 54А |
5,4 |
5,1 |
9,9 |
9,7 |
Текст 54В |
NN → AdjN |
А |
Текст 55А |
6,4 |
7,2 |
10,6 |
11,7 |
Текст 55В |
PrichN → NPrich |
А |
Текст 56А |
5,2 |
5,2 |
9,5 |
9,5 |
Текст 56В |
NVInf → NprepN |
А |
Текст 57А |
6,9 |
6,9 |
11.9 |
11.9 |
Текст 57В |
SPOP → Prich |
А |
Текст 58А |
6,3 |
6,3 |
11 |
11 |
Текст 58В |
Passive → Active |
А |
Текст 59А |
4 |
4 |
7,5 |
7,5 |
Текст 59В |
В настоящее время База данных объединяет три группы транскриптов:
(1) транскрипты устной русской монологической речи школьников 5 класса (10-11 лет), воспроизводящих учебные тексты длиной около 200 слов после двукратного прочтения текста из учебника «Обществознание», 5 класс;
(2) транскрипты устной русской монологической речи школьников 9 класса (14-15 лет), воспроизводящих учебные тексты длиной около 200 слов после двукратного прочтения текста из учебника «Обществознание», 9 класс;
(3) транскрипты устной русской монологической речи школьников 10 класса (15-16 лет), воспроизводящих учебные тексты длиной около 200 слов после двукратного прочтения текста из учебника «Обществознание», 10 класс.
Корпус состоит из 690 пересказов, осуществленных 429 носителями русского языка. Записи производились в трех казанских школах и трех сельских школах Республики Татарстан в 2018–2019 гг. Объем корпуса — около 5 тысяч
База данных предназначена для фиксации и изучения постоянно изменяющегося русского учебного дискурса.
База данных «Корпус транскриптов звучащей речи школьников» открыта для пополнения.