14 сентября 2020
Плагиат и самоплагиат. Как это сказывается на научном сообществе, и как его обнаружить?

Статью выпускницы магистратуры Высшей школы ИТИС Алины Тлитовой приняли к публикации в научный журнал «Frontiers in Computer Science» из категории Q1, т.е. в один из самых востребованных и цитируемых научным сообществом. Статья называется «Метаанализ методов кросс-языкового плагиата и самоплагиата».

«Еще во время учёбы я занималась исследованием тем, так или иначе связанных с моей будущей статьёй. И когда мой научный руководитель (Александр Тощев, доцент кафедры программной инженерии Высшей школы ИТИС, кандидат технических наук – прим.ред.) предложил сделать обзор тех инструментов и методов, которые применяются при обнаружении самоплагиата, то мне это очень понравилось. Когда я начала исследовать эти тему глубже, выяснила, что кросс-языковой плагиат в паре русский-английский изучен в нашей стране ещё недостаточно и поэтому мы решили уделить внимание именно этому аспекту. А ведь в век цифровизации, когда вокруг большое количество потоков информации, случаи различных видов плагиата только учащаются» - объяснила выбор темы Алина Тлитова.

На данный момент плагиат и самоплагиат являются такими же актуальными нарушениями, как и проблемы авторства, платных исследований и фабрикации результатов.  Всё это пагубно влияет на научное сообщество в целом. Согласно статистике, повторное использование текстов на разных языках очень распространено в исследованиях. Выявление подобного плагиата - сложная задача, и сейчас наблюдается недостаток решений для его обнаружения. В данной статье представлен обзор существующих методов выявления межъязыковых заимствований в научных статьях авторов, большое внимание уделено русско-английской языковой паре. Это и общеизвестные модели - T+MA, CL-ESA, CL-ASA,  CL-CNG, CL-CTS, CL-KGA, а также авторские:

- Model   used   cross-lingual   wordembeddings (CL-WE) and multilingualtranslation model (MTM)

- Model proposed in (Ehsan et al., 2019)

Наиболее известная модель, которая применяется для выявления кросс-языкового плагиата - T + MA (translation + monolingual analysis, т.е. перевод + одноязычный анализ). Концепция модели заключается в переводе текста подозреваемого документа на язык документа, с которым происходит сравнение, чтобы провести одноязычное сравнение между ними. Плюс модели в том, что она не требует параллельных или сопоставимых корпусов, однако есть необходимость составления словаря для обучения модели.

Плюсы и минусы остальных моделей более подробно рассмотрены в статье в сравнительном виде.

В скором времени полная версия статьи будет опубликована в журнале «Frontiers in Computer Science».

Источник информации: Высшая школа ИТИС