13 сентября 2013
Как математика помогает читать и анализировать тексты

Что такое тематическое моделирование словоформ смогли узнать сегодня, 13 сентября, слушатели лекции на тему «Картирование тематической структуры интернета и СМИ c помощью автоматического анализа текстов»

Организовал мероприятие Институт сравнительных исследований модернизации обществ КФУ. Доклад, рассчитанный на социологов и медиа-исследователей, представили специалисты из НИУ «Высшая школа экономики» (Санкт-Петербург): заведующая лабораторией Интернет-исследований Олеся Кольцова и IT-директор лаборатории Сергей Кольцов.

Свою лабораторию лекторы охарактеризовали весьма интригующе: «Она сделана так, чтобы вместе могли работать люди разных специальностей: лингвисты, политологи, программисты, социологи». Как следует из рассказа представителей ученого сообщества Санкт-Петербурга, о тематическом составе тысяч текстов можно узнать с помощью подхода, который называется математическим моделированием. Для этого необходимо иметь, естественно, соответствующее программное обеспечение.

Ученые из лаборатории используют в своих исследованиях материалы российской блогосферы, конкретно – Живого журнала. «Нас интересует его политическая ориентация, начиная с этого года мы делаем его понедельные закачки», ‑ говорит Олеся Кольцова. В основном, по словам заведующей лабораторией, посредством этого метода сравнивается политическая активность населения в различные периоды.

«Все тексты – это набор слов, между которыми, если их рассматривать отдельно по тематике, нет никакой связи, ‑ говорит Сергей Кольцов. – Программа подсчитывает повтор определенных слов в текстах и распределяет их по тематике. Таким образом, мы можем не читать те из текстов, которые не интересны для наших исследований. Это сокращает время». Данная методика, по словам лекторов, позволяет также вобрать в себя все тексты, которые говорят об одном и том же, но разными словами.

Подход тематического моделирования использовался в лаборатории Интернет-исследований для выявления общественной повестки дня, задаваемой топовыми блогерами русскоязычного Живого журнала, и политизации повестки во время выборов 2011-2012 годов. При таком использовании метода тематический состав коллекции текстов определяется полностью автоматически, и от исследователя не требуется никаких гипотез о том, какие темы могли бы существовать в данной коллекции.

Метод также применялся для построения тематических выборок из большого количества данных – например, для вычленения постов о выборах, которые затем обрабатывались вручную на предмет их оппозиционности. Таким же образом вычленялись посты о разных этнических группах, о полицейском насилии, других социально-значимых темах, не сводимых к четкому набору ключевых слов для поиска. Но все же наибольшей популярностью пользуются классические, вечные темы: о любви, семье, детях, моде, кулинарии, здоровье.

Не лишена программа и минусов. Она, к примеру,  не фильтрует иностранные и ругательные слова.

Источник информации: Пресс-центр, фото Александры Киреевой