Статья посвящена рассмотрению основных систем поиска заимствований, которые можно использовать для поиска заимствований в различных работах научного типа. В статье рассмотрены популярные системы антиплагиата, которые активно используются на практике, а именно системы Advego, Text, Антиплагиат.ру, Content Watch. Несмотря на большое количество различных систем и программ, самым точным методом для выявления нарушения авторского права является экспертиза, которая требует работы специально обученных людей. Также в статье описаны некоторые программные методы, используемые при анализе текста.
В период очень активного развития информационных технологий становится актуальным применение различных систем проверки текста на предмет заимствования. Обычно, при проверке научного текста исследуется то, насколько автор работы писал её самостоятельно. Считается, что процент заимствований в работе является показателем плагиата.
Плагиат – умышленное использование в личных целях результатов авторского труда другого человека. Очень часто, при написании научных трудов, студенческих работ – курсовых, дипломных, НИР – студенты используют чужие труды в попытках выдать их результаты за свои. Для таких ситуаций на рынке ИТ-продуктов есть множество программ, которые могут отслеживать подобные инциденты, а также предоставлять ссылки на источники, с которых текст может быть заимствован. В данной статье будет проведён обзорный анализ систем проверки научного текста на плагиат. При обзоре системы будет приведено краткое описание системы, рассмотрены недостатки и достоинства каждой системы [6].
Антиплагиат Advego. Данный сервис имеет две концепции – можно использовать в режиме онлайн, а также есть настольная версия для установки на ПК. Программа является достаточно популярной у пользователей. Что немаловажно, на интерфейсе есть счётчики пробелов в тексте, счётчик слов, а также счётчик символов по всему тексту. Серьёзным минусом данной программы является отсутствие возможности загрузить файл в виде документа. Проверка текста осуществляется посредством копирования текста и вставки его в форму на сервисе. Для проверки текста в режиме онлайн, необходимо создать аккаунт. В результате проверки текста можно просмотреть процент заимствования текста, а также источники, откуда предположительно, мог быть взят текст. Сервис проверки текста доступен по ссылке https://advego.com/ [8].
Антиплагиат Text.ru. Также является одним из популярных средств проверки текста на заимствования. Интерфейс программы достаточно простой, проверить текст очень легко. Как и Advego – не имеет возможности загрузки файла на проверку – необходимо вставлять текст. Есть возможность приобретения платного тарифа, который позволяет проверять текст через файл, а также проверять текст без очереди. Очередь – порядок проверки поступающих в систему текстов. При отсутствии платного тарифа время проверки текста 3-6 страниц (научной статьи, например) может достигать 7-8 минут, что достаточно долго для проверки небольшого текста. Такое время проверки получается из-за того, что система не проверяет несколько текстов бесплатного тарифа одновременно. Если в момент проверки текста поступает запрос на проверку второго текста, то второй текст ожидает момента, когда закончится проверка первого текста. В среднем, количество текстов может быть разное, но обычно в период наибольшей нагрузки на сайт составляет около 12-15 в очереди. Сервис доступен по ссылке https://text.ru/ [9].
Content-Watch. Данный сервис является совсем несложным в работе, как и на некоторых других сервисах – возможности загрузить файл нет. Проверка текста осуществляется посредством вставки скопированного текста. Имеются счётчики символов текста, также есть число символов без учёта пробелов. Отличительной особенностью сайта является возможность ввода ссылки, индексация текста по которой будет проигнорирована при выводе результатов проверки на антиплагиат. Данный сервис имеет небольшую сетку тарифов, которая предоставляет различные возможности.
Первая из возможностей – ручные проверки текстов. Позволяет проверять тексты длиной до 20 000 символов, вести историю проверок текстов, отсутствие рекламы. Тариф строятся по принципу количества проверок в день. За 140 рублей в месяц можно проводить 150 проверок в день. Если заплатить 590 рублей, то в течение месяца можно будет проверять текст 1000 раз в день. Самый выгодный по отношению к количеству проверок тариф – 1490 рублей в месяц. За эту цену допускается 3000 проверок текста в день.
Вторая возможность – регулярная проверка текста, для которой тариф строится по принципу количества страниц. Например, если необходимо регулярно проверять курсовые работы (в среднем их объём не превышает 45-50 страниц), то подойдёт тариф «100 страниц» за 270 рублей в месяц – позволяется проверять документы по 100 страниц (данный тариф уже позволяет работать с текстовым документом). Также есть тарифы для документов с ограничением в 500 страниц и 2000 страниц с ценой 490 рублей и 990 рублей в месяц соответственно. Также покупка данного тарифа влияет на возможности ручных проверок (расширяет функционал и убирает рекламу).
Крайне удобный функционал данного сервиса – наличие управляемого интерфейса. Данный интерфейс можно внедрять в другие сайты и мобильные приложения. API уникальности контента позволяет проверять тексты и сайты на уникальность автоматически, не тратя время на ручную проверку. Стоимость проверок текста при наличии API динамическая, рассчитывается индивидуально, но минимум – 25 копеек на одну проверку в 20 000 символов [10].
Антиплагиат.Ру. Самый популярный сервис. Подходит для студентов, а также для использования различными компаниями. Имеет возможность регистрации клиентов. Для студентов есть бесплатные возможности – проверки текста по модулю поиска Интернет. Так как тариф бесплатный, будут проигнорированы другие известные источники, такие как базы данных Scopus и др. Имеет несколько тарифов – базовый, расширенный, полный. Базовый тариф позволяет загружать на проверку документы в разных форматах (бесплатный позволяет работать с форматами PDF и txt), не имеет ограничений на временной интервал между тарифами. Расширенные базовые тарифы предоставляют проверку по модулям Интернет и цитирование, имеют высокий приоритет при проверке. Стоимость проверок достаточно высокая – для базового тарифа – 500 проверок 6000 рублей. Расширенный тариф позволяет сделать 1000 проверок за 11500 рублей, а самый полнофункциональный тариф – 60 проверок за 13500 рублей [7].
Целью исследования является разработка алгоритма поиска ошибок в научном тексте. Данное исследование базируется на тех же алгоритмах, которых используются при разработке программ для поиска плагиата в авторских работах. В современных системах по поиску плагиата применяются различные средства, которые также можно использовать и для поиска ошибок в тексте. Например, многие алгоритмы используют различные автокодировщики текстов – нейронные сети, которые обучены восстанавливать текстовые объекты по их частям. Автокодировщик состоит из двух частей – энкодера, который кодирует выборку данных и внутреннее представление, которое он находит для восстановления выборки. Таким образом, автокодировщик пытается совместить восстановленную версию каждого объекта выборки с исходным объектом. Автокодировщики также можно будет использовать и в процессе разработки алгоритма поиска ошибок, чтобы упрощать и ускорять процесс поиска данных в базе знаний.
Таким образом, можно сделать вывод, что на сегодняшний день плагиат является большой проблемой во всем мире. Существует множество систем и программ для выявления заимствований, но ни одно из них не может дать 100 % гарантию, что в работе найдены все не уникальные фрагменты. И поэтому для получения более точного результата проверки лучше проверить текст несколькими системами или же обратиться за экспертизой, хотя этот способ является платным и долговременным.