20 мая 2013
Огромное количество публикаций может быть проанализировано автоматически с помощью новых алгоритмов

 

 

Ежедневно в различных изданиях публикуются сотни тысяч научных статей, результатов исследований и трудов, прочесть которые, а тем более усвоить содержащуюся в них информацию, не может ни один человек на свете, насколько бы умным он не был. Оставаться на "острие" современной науки, быть в курсе всех последних ее достижений является на сегодняшний день очень сложной задачей даже в какой-либо узкоспециализированной области.

Для решения вышеупомянутой проблемы, связанной с огромным количеством информации, исследователи из Университета Северной Каролины разработали компьютерную программу, которая в автоматическом режиме может оценить, упорядочить и отсортировать всю научную литературу и публикации, предоставив людям ссылки только на наиболее значимые и достоверные источники информации.

Используя алгоритмы глубокого анализа текста программа раскладывает по приоритетам для дальнейшего ознакомления все научно-исследовательские работы, попадающие в ее поле зрения. Отобранные работы помещаются в специализированные тематические базы данных, такие как база Comparative Toxicogenomics Database (CTD), база данных с открытым доступом, в которой содержится информация о влиянии различных химических препаратов на геном человеческого организма, что отражается на здоровье нынешнего и отразится на здоровье будущих поколений людей.

"По одной тематике воздействия на здоровье токсичных тяжелых металлов с 1926 года было опубликовано более 33 тысяч научных работ" - объясняет доктор Аллан Питер Дэвис (Dr. Allan Peter Davis), один из руководителей проекта CTD, - "Даже приложив максимум усилий мы не сможем прочесть весь объем этих работ и выбрать из них только самую важную информацию. К счастью, теперь с этим успешно могут справиться наши новые алгоритмы".

Как уже говорилось выше, для выбора самых значимых публикаций используются алгоритмы глубокого анализа текста. Программа сравнивает тексты сразу многих тысяч статей, определяет совпадения и факты, что выражается в цифровом показателе научного "веса" каждого документа на основании которого принимается решение о включении его в общую базу. "Алгоритм не работает с одной отдельно взятой статьей, он эффективно может работать с большими наборами статей, но в этом случае он очень надежно отделяет зерна от плевел, если можно так выразиться" - рассказывает Томас Виджерс (Thomas Wiegers), один из исследователей в области биоинформатики.

Для проверки работоспособности созданных алгоритмов исследователи отобрали 15 тысяч статей и оправили из команде квалифицированных рецензентов, которые вычитав их должны были выбрать самые важные документы. "Результаты оказались внушительны" - рассказывает доктор Дэвис, - "Рецензенты сделали выбор, совпавший на 85 процентов с выбором, сделанным компьютером. Только компьютер сделал свой выбор гораздо быстрее людей".

Использование алгоритмов оценки научных статей позволит ученым сэкономить время и поднять эффективность своего труда минимум на 30 процентов. "Это технология позволит сэкономить огромное количество драгоценного времени" - объясняет доктор Дэвис, - "Благодаря нашей технологии мы можем гораздо эффективнее использовать ресурсы целых научных команд, предоставив ученым возможность работать только с документами, содержащими максимально возможное количество релевантной информации".

Естественно, как и в работе любого алгоритма, в работе алгоритмов оценки научной литературы бывают аномалии, когда высокий показатель назначается статье, которую человек-рецензент отклоняет как не важную. Исследователи провели тщательный анализ текстов "аномальных" статей и определили причины, по которым программа принимала ошибочные решения. "Теперь мы можем внести коррекции в наши алгоритмы, после чего система начнет работать максимально точно".

"Нам еще далеко до той стадии, когда компьютер сам сможет прочесть литературу, публикации и работы, самостоятельно извлекая только все важные данные и предоставляя их в удобном для восприятия виде" - рассказывает Дэвис, - "Но реализованный нами глубокий анализ текста является большим шагом вперед в этом направлении".

 

По материалам technosci.net

 

Комментарии

Стоит ли говорить какую неоценимую помощь в состоянии оказать такие программы-алгоритмы для педагогической и учебной практики. Может оказаться, что разработка подобных программ   заставит значительную часть пользователей по другому отнестись к оригинальным публикациям, а цифровые технологии вернут нам, таким образом,  тот "долг", который они же и породили, отдалив нас на какое-то время от  изучения, чтения авторских работ.