Ключевые проекты
Партнер: Джадавпурский университет, Индия
Привлечение внимания пациентов к заботе о своем здоровье и стимулирование взять на себя ответственность за свое здоровье, фактически, считаются наилучшим способом обеспечения устойчивости систем здравоохранения. Клиницисты часто испытывают трудности в диагностике рака из-за внутренних сложностей процесса и отсутствия универсальных средств диагностики. Различные модели предложены для обеспечения медицинской поддержки принятия решений в диагностике рака, но все они ограничены тем, что ориентируются, в основном, на переработку одного вида данных. Однако, компьютерная модель, которая поможет исследовать состояние пациентов комплексно, пока не разработана. Традиционное лечение рака проходит предписанными процедурами и назначением апробированных медицинских препаратов без обращения внимания на эмоциональное состояние пациента. Однако, пациент может также страдать от депрессии и других заболеваний.
В России на сегодняшний день насчитывается более 2.8 миллионов онкологических больных(http://ria.ru/interview/20130204/920936338.html). Многие из них имеют доступ к сети Интернет и выплескивают свои эмоции на форумах и/или в социальных сетях, но эта информация ранее принималась клиницистами в расчет как источник постановки диагноза или инструмент паллиативной медицины. Эти данные могут улучшить понимание того, как определенный тип рака развивается и влияет на настроение пациента или же наоборот, как эмоции способны повлиять на течение болезни.
Целью проекта яыляется разработка инструментов и моделей, которые автоматизируют интеллектуальный анализ текстовых данных, относящихся к пониманию взаимосвязи между стадиями рака, последствиями лечения и эмоциональными состояниями пациентов.
На сегодняшний день в рамках исследования получены результаты:
Компьютерная система, построенная на моделях глубокого обучения, для идентификации клинических симптомов, представленных различными аспектами, которые извлекаются автоматически из текстов и описывают настроение онкологических пациентов.
Партнеры:НИТУ "МИСиС".
До сих пор в России не создано достаточно эффективной общей открытой платформы для обработки текстов на русском языке, которая была бы пригодна как для исследований в этой сфере, так и для создания бизнес-приложений. Решения, предлагаемые различными компаниями и отдельными разработчиками, либо являются частичным решением проблемы, либо не обеспечивают приемлемого качества обработки текста, либо являются закрытыми.
В проекте впервые разработана, реализована и протестирована единая программная технология обработки текстов потребителей на русском языке с широким спектром возможностей и решаемых задач. Помимо решения бизнес-задач создание открытой технологии обработки большого массива подобных текстов может способствовать полному пониманию процессов, происходящих в обществе, и ускорить проведение и увеличить объем новых исследований в этой области. В интернете накоплен огромный объем текстовой информации так или иначе, связанной с потребителями (под потребителями в данном проекте понимаются активные пользователи социальных сетей). Тексты потребителей включают сообщения в социальных сетях, отзывы о товарах и услугах в специальных разделах страничек производителей, записи, связанные с покупками через интернет и т.д. Эти тексты в явной или скрытой форме содержат информацию о потребностях, предпочтениях, мнениях, оценках, которая может быть использована для повышения качества товаров и услуг, своевременности их предоставления.
В настоящее время извлечение полезных знаний из таких текстов осуществляется по большей части вручную. Важная цель проекта состоит в обобщении и развитии научно-технических результатов, полученных коллективом за последние десять лет. В частности, в реализации данного проекта используется задел, созданный участниками коллектива при выполнении проектов по проблематике извлечения информации из текстов, машинному обучению: поддержанных грантами РФФИ и фондом “Династия”, а также результатов НИОКР, выполненных по заказам компаний HP и Samsung. К исходным наборам данных в проекте относятся новостные тексты СМИ, а также текстовые данные, порождаемые пользователями социальных сетей и другими потребителями.
Результаты 2015
В процессе работы проводились экспериментальные исследования по тематическому моделированию, глубокому обучению для анализа текстов на русском языке, анализу чатов и социальных сетей, извлечению сущностей и пользовательских отзывов.В результате исследования разработаны модель SVD-pLSA (Singular Value Decomposition - probabilistic Latent Semantic Analysis) – модификация модели вероятностного латентного семантического анализа, форма аддитивного регуляризатора на основе логарифма правдоподобия логистического варианта SVD (Singular Value Decomposition); новый подход к обучению априорных распределений Дирихле на распределения вероятностей “слово-тема” в расширениях тематических моделей для анализа тональности; итеративный алгоритм, основанный на идее Expectation-Maximization подхода, котором параметры распределений Дирихле постепенно обучаются на основе результатов сэмплирования по Гиббсу. Заложены основы для дальнейших работ по применению глубокого обучения и распределённых представлений слов к интеллектуальному анализу текстов на русском языке. Разработан базовый метод анализа таких сетей на основе построения псевдо-бимодальной сети из топ- и боттом-пользователей с дальнейшей её унимодальной проекцией и выделением сообществ в полученной унимодальной сети. В рамках проекта был создан корпус событий с разметкой событий вручную. разработан метод извлечения целевых объектов, основанный на синтаксических связях слов между существительными и индикативными конструкциями в предложении. Разработан метод проверки принадлежности целевого объекта к предметной области на основе семантической связанности терминов целевого объекта и терминов предметной области в WordNet.
Партнер: Национальный политехнический институт Мексики
Целью исследования является разработка методов анализа систем, элементы которых описываются последовательностями событий с различной семантикой, с целью извлечения знаний о возможных взаимосвязях между событиями и элементами систем для задач принятия решений, связанных с изменением состояний систем и их элементов. Объектами исследования могут служить системы различной природы, характеризуемые последовательностями событий, состоящих из значений измеряемых параметров в метеорологии, экологии, нефтедобыче, в промышленных и технологических процессах, значений индексов в финансах и экономике, последовательностей новостей, политических событий, бизнес событий и т.д. В отличие от задачи прогнозирования, рассматриваемой в статистическом и интеллектуальном анализе временных рядов, основной задачей исследований в проекте является разработка методов выявления событий, ассоциаций и возможных зависимостей между событиями, для принятия решений, связанных с анализом систем. Например, мониторинг технологических процессов необходим для предотвращения нежелательных событий. Анализ ассоциаций между динамикой изменения метеорологических данных (влажность, температура, давление, направление и скорость ветра) и изменением концентрации вредных веществ в атмосфере может служить основой для изменения режима работы предприятий или изменения трафика по городу в разные дни недели. Выявление ассоциаций между динамикой экономических и финансовых индексов может служить основой для изменения объема инвестиций в отрасли экономики. Обнаружение ассоциаций между курсом валют или стоимостью акций разных предприятий может служить основой для перераспределения портфеля ценных бумаг. Аналогичной задаче может служить выявление в потоке новостей политических или бизнес событий, влияющих на курсы акций.
Результаты 2015
Сделан обзор текущего состояния исследований в области извлечения событий, обзор и систематизация существующих методов описания событий в различных областях приложений. Рассматриваются динамические события точечного и интервального типа, возникающие в анализе временных рядов для систем, характеризующихся изменением численных переменных, для таких областей как промышленные и технологические процессы, экология, метеорология, эпидемиология, финансы, экономика и др. Другой тип событий связан с задачами извлечения информации в таких предметных областях как бизнес процессы, новости, политика, культура, лингвистика и другие, где события представляются множеством документов или связывают участников, временные выражения и местоположения друг с другом. Различные типы событий могут быть связаны друг с другом общностью временных характеристик, причинно-следственными отношениями и т.д. Например, такое событие, как выпуск компанией нового товара, связывается с динамическими профилями временного ряда стоимости акций компании на рынке как по времени, так и по форме профилей изменения цены акций (рост или падение), а также с изменением цен на акции конкурирующих компаний.
Разработан метод извлечения событий из новостных текстов с использованием набора данных Google Ngrams.
Разработан прототип системы визуализации временных рядов, используемый для обнаружения и анализа динамических событий во временных рядах.
Предложена новая аксиоматика мер ассоциации временных рядов. Разработаны новые меры ассоциации временных рядов на основе метода скользящих аппроксимаций, удовлетворяющие заданным свойствам.
Разработаны методы описания и извлечения динамических событий временных рядов, связанных с изменением тренда временного ряда. Разработаны методы описания и извлечения динамических событий в одном временном ряде и методы поиска и представления ассоциированных событий между двумя сравниваемыми временными рядами из базы данных временных рядов. Разработаны методы и программы анализа ассоциаций между профилями временных рядов на основе локальных трендов. Разработанные методы применены к анализу курса акций компаний с целью разработки методики выявления конкурирующих компаний на основе новостных и динамических событий изменения курса акций. Показана связь между изменением динамических профилей временных рядов (изменением цен на акции компаний) и бизнес событиями, отражаемыми в новостных событиях (выход на рынок нового продукта). Результаты анализа могут применяться в задачах оптимизации портфеля ценных бумаг.
Разработаны меры ассоциации временных рядов на основе преобразования скользящих аппроксимаций и локальных трендов. На практических примерах продемонстрирована их практическая значимость для анализа финансовых систем.
Более обще, разработанные методы могут применяться в анализе ассоциаций временных рядов, характеризующих динамику параметров систем, меняющихся со временем в экологии, метеорологии, экономике, в технологических процессах и т.д.
Результаты исследований опубликованы в журнале Neurocomputing, 2016, WoS, импакт фактор 2.083, и в трудах Всероссийской конференции Интегрированные Модели и Мягкие Вычисления в Искусственном Интеллекте. Физматлит, 2015.
НИЛ “Большие данные и анализ текста” участвует в научно-исследовательских проектах других подразделений Казанского федерального университета. В 2015 году по научным руководством профессора Валерия Дмитриевича Соловьева (Институт филологии и межкультурной коммуникации) начата работа над следующим проектом, поддержанным РФФИ.
Партнеры: НИЦ "Курчатовский институт", МГУ имени М.В.Ломоносова
В последние годы накопились огромные массивы цифровых данных в той или иной мере отражающих социальные, экономические, политические, культурные, когнитивные изменения в жизни людей. Это данные официальной статистики, социальные сети, электронные библиотеки, запросы к поисковикам. Данные весьма разнообразны - числовые, текстовые; за несколько лет (как в случаях поисковиков и социальных сетей) или за столетия (как коллекция Google Books или Национальный корпус русского языка). Во всех случаях эти массивы данных содержат информацию об изменениях в социуме. Проект предусматривает создание методологии анализа подобного рода данных, включая сентимент-анализ текстов, а также выявление тенденций и взаимозависимостей между разнородными данными. Для анализа социогуманитарных трендов и их взаимосвязей разрабатывается комплекс математических и компьютерных методов и моделей (как новых, так и адаптированные известных). Разработанные средства позволят извлекать из сырых данных события и сопоставлять их с временными рядами определенных параметров. Предусматривается тестирование и количественное сопоставление различных методов. Проект ориентирован на обработку, в первую очередь, русскоязычных данных и основывается на оригинальных теоретических и экспериментальных исследованиях коллектива исполнителей в области анализа временных рядов и извлечения информации из текстов. Основу разработки составляют: система извлечения информации (в том числе событий) из текстов на русском языке, системы тематического и сентимент-анализа текстов, комплекс математических методов анализа временных рядов. Использованы следующие ресурсы: социальные сети, массивы логов запросов и статистика запросов к поисковикам (Google, Яндекс), новостные ленты, корпус Google Books Ngram, статистические данные из разных источников. Возможности разработанного аналитического ресурса продемонстрированы на конкретных примерах: влияние политических событий на мнения пользователей интернета; взаимосвязь макроэкономических показателей и данных сентимент-анализа сообщений в социальных сетях и печатных текстов, изменение лексики и лексико-грамматических конструкций под влиянием смены социальных приоритетов и др.
Результаты проекта могут быть применены: для создания аналитических средств следующего поколения; в фундаментальных исследованиях закономерностей развития общества, опирающихся на точные, статистически достоверные численные данные; в конкретных прикладных исследованиях. В проекте заложены основы для формирования эффективных технологий анализа социогуманитарных процессов и принятия решения в реальном времени.
Актуальность исследования обусловлена сложностью социогуманитарных процессов, наглядно проявившуюся в непредсказуемости финансовых и политических потрясений, отсутствием комплексной методологии анализа разноструктурных данных с применением математического аппарата, все возрастающим объемом информации в социальных сетях. Актуальность исследования подтверждается появлением новых междисциплинарных разделов науки, таких как вычислительная социология и значительным числом публикаций в этой области.
Новизна проекта определяется разработкой новых формальных методов анализа, созданием свободно доступных средств глубокого анализа текстов на русском языке и возможностью применения методологии к широкому диапазону социогуманитарных явлений
Результаты
Разработана группа методов анализа текстов:
- RTE - метод распознавания взаимосвязей между событиями (для коротких текстов на русском языке) на основе ранее разработанного нами словаря FrameNet. Метод применен для установления причинно-следственных связей между событиями, связанными с безопасностью и массовыми волнениями, извлеченными из новостных текстов;
- метод автоматического выделения из текстов естественного языка признаков характеризующих эмоциональное состояние автора (эмотивность текста) в момент написания текста с использованием разработанного модуля снятия морфологической омонимии на основе SVM;
- метод определения тональности текста по отношению к определённым объектам;
- метод выделения вложенных тем на основе семантических, вероятностных, энтропийных характеристик коллекции текстов.
- алгоритм аннотирования и визуализации вложенных тем в контекстно-семантическом графе; - метод кластеризации документов, использующий информацию полученную при построении вложенных тем.
По итогам первого этапа опубликовано 11 статей, в том числе 9 в изданиях, индексируемых в WoS и Scopus, сделано 9 докладов (в том числе 1 приглашенный) на международных конференциях.
Партнер: ЗАО "Хьюлетт-Паккард А.О."
Проект включает проведение широкого спектра исследований по разработке технологии извлечения информации из текстов на русском языке, а также создание прототипа системы извлечения бизнес событий из новостных потоков. Предложены и тщательно проанализированы новые методы в разных подходах к извлечению знаний: на основе экспертных правил, на основе статистического анализа размеченных и не размеченных корпусов текстов, а также предложен новый гибридный подход. Создана открытая системы с высокими значениями оценок точности и полноты извлечения для русского языка.
Результаты
В проекте разработаны подходы и алгоритмы для решения комплекса различных задач, возникающих в области извлечения информации из текста: извлечение именованных сущностей, извлечение фактов и событий, анализ тональности текста. Задачи были разделены на различные годы выполнения проекта. Ниже приводятся результаты, сгруппированные по годам.
Всего в ходе выполнения проекта опубликовано 13 статей, из которых 8 проиндексированы в Scopus или Web of Science, 4 статьи опубликованы в журналах из переченя ВАК.
2013
Разработан новый алгоритм ShalTeF, основанный на фреймах для представления ситуаций и аргументной структуры предикатов. Cоздан пилотный корпус и протестированы оба подхода. Тестовый корпус состоит из 100 документов и размечен событиями 5 - ти типов: Приобретение компании, Смена (руководящих) должностей, Отставка, Объявление компании, Объявление персоны. Объем корпуса – 1456 предложений, 25672 слова. 252 упоминаний персон, 172 упоминания компаний, 83 упоминания должностей. Эксперименты проведены для событий первых трех типов. Во всех вариантах оценки оказались крайне низкими, полнота не превышала 15%, F- мера не превосходила 20%. Анализ выходных данных системы извлечения, основанной на алгоритме ShalTeF, показал, что основной причиной низкой полноты являются ошибки модулей предобработки: морфоанализа, NPRecognizer.
После улучшений алгоритма полнота существенно выросла. Для события Приобретения компании она составила 45,23%, для события Смена должности – 27,91%, для события Отставка – 43,73%. Предложен подход к проблеме автоматического пополнения словарей индикаторов. Другим важным направлением исследований было развитие методов машинного обучения для распознавания именованных сущностей (не событий). Создана система распознавания именованных сущностей в русскоязычных текстах на основе метода условных случайных полей. Проведены эксперименты (только для двух типов – люди и организации), оценивающие эффективность распознавания именованных сущностей. Получен результат F1 = 75.05%.
2014
Разработаны руководящие документы-инструкции по разметке в текстах на русском языке
упоминаний сущностей и событий. Проведен сравнительный анализ статистических методов снятия морфологической омонимии для русского языка. Развиты новые статистические подходы к автоматизации построения словаря моделей управления для русского языка, необходимые в основанных на знаниях системах извлечения информации. Создана первая версия корпуса, размеченного упоминаниями сущностей и событий. Получены оценки методов по точности и полноте. Реализован оригинальный метод снятия омонимии. Создан словарь моделей управления типа FrameNet для русского языка. Разработаны алгоритмы для решения задачи извлечения из текста фраз, описывающих проблемы. Для тестирования алгоритмов создан специальный корпус, содержащий разметку фраз, описывающих проблемы.
2015
Разработаны:
1. Метод анализа тональности коротких текстов (на примере Twitter) на русском языке.
2. Методы извлечение аспектов проблем из отзывов о продуктах и услугах.
3. Русскоязычный корпус с разметкой фраз, содержащих информацию о проблемах при использовании продуктов и услуг.
4. Словарь позитивной и негативной лексики - русскоязычный аналог SentiWordnet.
Для задачи анализа проблемных высказываний относительно тональности фраз пользователя были разработаны две тематические модели Topic-Sentiment-Problem Model (TSPM) на основе латентного размещения Дирихле, позволяющие совместно учитывать несколько типов информации (позитивную, негативную или нейтральную) для идентификации проблемных высказываний. Предложенные алгоритмы моделируют распределение слов в документе, учитывая взаимосвязь между скрытыми тематической, тональной и проблемной переменными.