Обнаружение сходства контента
Обнаружение плагиата или обнаружение сходства контента - это процесс размещения экземпляров плагиата или нарушения авторских прав в работе или документе. Широкое использование компьютеров и появление Интернета облегчили плагиацию работы других. [ 1 ] [ 2 ]
Обнаружение плагиата может быть предпринято различными способами. Обнаружение человека является наиболее традиционной формой идентификации плагиата из письменной работы. Это может быть длинная и трудоемкая задача для читателя [ 2 ] и также может привести к несоответствиям в том, как плагиат определяется в организации. [ 3 ] Программное обеспечение для сопоставления текста (TMS), которое также называется «Программное обеспечение для обнаружения плагиата» или программное обеспечение для «антиплагиатизма», стало широко доступным в форме как коммерчески доступных продуктов, так и с открытым исходным кодом. [ необходимы примеры ] программное обеспечение. TMS фактически не обнаруживает плагиат как таковой, но вместо этого находит конкретные отрывки текста в одном документе, который соответствует тексту в другом документе.
Обнаружение плагиата с помощью программного обеспечения
[ редактировать ]Компьютерное обнаружение плагиата-это задача поиска информации (IR) , поддерживаемая специализированными системами ИК, которая называется системами обнаружения плагиата (PDS) или системой обнаружения сходства документов. Систематический обзор литературы 2019 года [ 4 ] Представлен обзор современных методов обнаружения плагиата.
В текстовых документах
[ редактировать ]Системы для обнаружения сходства текста реализуют один из двух общих подходов к обнаружению, один из них является внешним, а другой - внутренним. [ 5 ] Внешние системы обнаружения сравнивают подозрительный документ с эталонной коллекцией, которая представляет собой набор документов, предполагаемых подлинными. [ 6 ] Основываясь на выбранной модели документа и предопределенных критериях сходства, задача обнаружения состоит в том, чтобы получить все документы, которые содержат текст, похожий на определенную степень выше выбранного порога для текста в подозрительном документе. [ 7 ] Внутренние PDSES исключительно анализируют текст, который будет оцениваться, не выполняя сравнения с внешними документами. Этот подход направлен на признание изменений в уникальном стиле письма автора в качестве показателя потенциального плагиата. [ 8 ] [ 9 ] PDSES не способны надежно идентифицировать плагиат без человеческого суждения. Сходства и функции стиля письма вычисляются с помощью предопределенных моделей документов и могут представлять ложные положительные результаты. [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ]
Эффективность этих инструментов в условиях высшего образования
[ редактировать ]Этот раздел в значительной степени или полностью зависит от одного источника . ( декабрь 2017 г. ) |
Было проведено исследование для проверки эффективности программного обеспечения для обнаружения сходства в условиях высшего образования. Одна часть исследования назначила одну группу студентов, чтобы написать статью. Эти студенты сначала получили образование о плагиате и сообщили, что их работа должна была проходить через систему обнаружения сходства контента. Второй группе студентов было поручено написать документ без какой -либо информации о плагиате. Исследователи ожидали найти более низкие показатели в первой группе, но обнаружили примерно одинаковые показатели плагиата в обеих группах. [ 15 ]
Подходы
[ редактировать ]На рисунке ниже представлена классификация всех подходов к обнаружению, которые в настоящее время используются для обнаружения сходства контента с помощью компьютера. Подходы характеризуются типом оценки сходства, которую они проводят: глобальным или локальным. Подходы к оценке глобальной сходства используют характеристики, взятые из более крупных частей текста или документа в целом для вычисления сходства, в то время как локальные методы рассматривают только предварительно выбранные текстовые сегменты в качестве входных данных. [ Цитация необходима ]

Отпечатков пальцев
[ редактировать ]Снятие отпечатков пальцев в настоящее время является наиболее широко применяемым подходом к обнаружению сходства контента. Этот метод формирует репрезентативные дайджесты документов, выбрав из них набор нескольких подстроков ( N-граммов ). Наборы представляют отпечатки пальцев , а их элементы называются мелочами. [ 17 ] [ 18 ] Подозрительный документ проверяется на плагиат путем вычисления его отпечатка пальца и запроса мелочей с предварительно вычисленным указателем отпечатков пальцев для всех документов эталонной сбора. Соответствие мелочам с другими документами указывают на общие текстовые сегменты и предполагают потенциальный плагиат, если они превышают выбранное порог сходства. [ 19 ] Вычислительные ресурсы и время являются ограничивающими факторами на снятия пальцев, поэтому этот метод обычно сравнивает только подмножество мелочей для ускорения вычислений и обеспечения проверки в очень большой сборе, таких как Интернет. [ 17 ]
Сопоставление строки
[ редактировать ]Сопоставление строк - это распространенный подход, используемый в информатике. При применении к проблеме обнаружения плагиата документы сравниваются для словесного текста. Были предложены многочисленные методы для решения этой задачи, некоторые из которых были адаптированы к внешнему обнаружению плагиата. Проверка подозрительного документа в этом настройке требует вычисления и хранения эффективных сопоставимых представлений для всех документов в справочной коллекции, чтобы сравнить их в паре. Как правило, модели документов суффиксов, такие как суффиксные деревья или векторы суффиксов, использовались для этой задачи. Тем не менее, соответствие подстроки остается вычислительно дорогим, что делает его неизрешенным решением для проверки больших коллекций документов. [ 20 ] [ 21 ] [ 22 ]
Пакет слов
[ редактировать ]Анализ пакета слов представляет собой принятие векторного пространства , традиционного ИК -концепции, в область обнаружения сходства контента. Документы представлены в виде одного или нескольких векторов, например, для различных частей документа, которые используются для парных расчетов сходства. Вычисление сходства может затем полагаться на традиционную меру сходства косинуса или на более сложные меры сходства. [ 23 ] [ 24 ] [ 25 ]
Анализ цитирования
[ редактировать ]Обнаружение плагиата на основе цитирования (CBPD) [ 26 ] полагается на анализ цитирования и является единственным подходом к обнаружению плагиата, который не полагается на текстовое сходство. [ 27 ] CBPD рассматривает информацию о цитировании и справочной информации в текстах, чтобы идентифицировать аналогичные шаблоны в последовательностях цитирования. Таким образом, этот подход подходит для научных текстов или других академических документов, которые содержат цитаты. Анализ цитирования для обнаружения плагиата является относительно молодой концепцией. Он не был принят коммерческим программным обеспечением, но существует первый прототип системы обнаружения плагиата на основе цитирования. [ 28 ] Подобный порядок и близость цитат в исследуемых документах являются основными критериями, используемыми для вычисления сходства шаблонов цитирования. Модели цитирования представляют последующие последующие, не эксплуативно содержащие цитаты, разделяемые по сравнению с документами. [ 27 ] [ 29 ] Факторы, в том числе абсолютное число или относительную долю общих цитат в схеме, а также вероятность того, что цитаты совместно заканчиваются в документе, также считаются количественно определять степень сходства закономерности. [ 27 ] [ 29 ] [ 30 ] [ 31 ]
Стилометрия
[ редактировать ]Статистические методы стилометрии статистические методы количественной оценки уникального стиля письма автора [ 32 ] [ 33 ] и в основном используется для атрибуции авторства или внутреннего обнаружения плагиата. [ 34 ] Обнаружение плагиата по атрибуции авторства требует проверки того, соответствует ли стиль письма подозрительного документа, который написан предположительно определенным автором, соответствует стилю корпуса документов, написанных одним и тем же автором. Внутреннее обнаружение плагиата, с другой стороны, раскрывает плагиат на основе внутренних доказательств в подозрительном документе, не сравнивая его с другими документами. Это выполняется путем построения и сравнения стилометрических моделей для различных текстовых сегментов подозрительного документа, а отрывок, которые стилистически отличаются от других, отмечены как потенциально плагиат/нарушенные. [ 8 ] Хотя они просты в извлечении, оказалось, что характерные N-граммы являются одними из лучших стилометрических особенностей для внутреннего обнаружения плагиата. [ 35 ]
Нейронные сети
[ редактировать ]Более поздние подходы к оценке сходства контента с использованием нейронных сетей достигли значительно большей точности, но составляют большие вычислительные затраты. [ 36 ] Традиционная нейронная сеть подходит к внедрению оба контента в семантические векторные встраивания, чтобы рассчитать их сходство, что часто является их сходством косинуса. Более продвинутые методы выполняют сквозное прогнозирование сходства или классификаций с использованием архитектуры трансформатора . [ 37 ] [ 38 ] Обнаружение перефразы особенно пользуется высоко параметризованными предварительно обученными моделями.
Производительность
[ редактировать ]Сравнительные оценки систем обнаружения сходства контента [ 6 ] [ 39 ] [ 40 ] [ 41 ] [ 42 ] [ 43 ] Укажите, что их производительность зависит от типа присутствующего плагиата (см. Рисунок). За исключением анализа схемы цитирования, все подходы обнаружения зависят от текстового сходства. Поэтому симптоматично, что точность обнаружения снижает, тем больше случаев плагиата запутывается.

Литеральные копии, он же копирует и вставьте плагиат или вопиющее нарушение авторских прав, или скромно замаскированные случаи плагиата могут быть обнаружены с высокой точностью с помощью текущих внешних PD, если источник доступен для программного обеспечения. В частности, процедуры соответствия подстроения обеспечивают хорошую производительность для копирования и вставки плагиата, поскольку они обычно используют модели документов без потерь, такие как суффиксные деревья . Производительность систем, использующих снятие отпечатков пальцев или анализ пакета слов при обнаружении копий, зависит от потери информации, понесенной используемой моделью документа. Применяя гибкие стратегии отбора и отбора, они более способны обнаружить умеренные формы замаскированного плагиата по сравнению с процедурами соответствия подстроки.
Внутреннее обнаружение плагиата с использованием стилометрии может преодолеть границы текстового сходства в некоторой степени, сравнивая лингвистическое сходство. Учитывая, что стилистические различия между плагиатом и оригинальными сегментами являются значительными и могут быть идентифицированы надежно, стилометрия может помочь в выявлении замаскированного и перефразированного плагиата. Стилометрические сравнения, вероятно, провалится в тех случаях, когда сегменты сильно перефразируются до такой степени, что они более похожи на личный стиль письма плагиата или если текст был составлен несколькими авторами. Результаты международных соревнований по обнаружению плагиата состоялись в 2009, 2010 и 2011 годах, [ 6 ] [ 42 ] [ 43 ] а также эксперименты, проводимые Стейном, [ 34 ] Укажите, что стилометрический анализ, по-видимому, работает надежно только для длины документов в нескольких тысячах или десятках тысяч слов, что ограничивает применимость метода к компьютерным настройкам обнаружения плагиата.
Растущее количество исследований проводится на методах и системах, способных обнаружить перевод плагиата. В настоящее время обнаружение плагиата межязыка (CLPD) не рассматривается как зрелая технология [ 44 ] и соответствующие системы не смогли достичь удовлетворительных результатов обнаружения на практике. [ 41 ]
Обнаружение плагиата на основе цитирования с использованием анализа паттернов цитирования способно идентифицировать более сильные парафразы и переводы с более высокими показателями успеха по сравнению с другими подходами обнаружения, поскольку он не зависит от текстовых характеристик. [ 27 ] [ 30 ] Однако, поскольку анализ цитирования зависит от доступности достаточной информации о цитировании, он ограничен академическими текстами. Он по-прежнему уступает текстовым подходам в обнаружении более коротких плагиатных отрывков, которые являются типичными для случаев копирования и вставки или плагиата в ск. Последнее относится к смешиванию слегка измененных фрагментов из разных источников. [ 45 ]
Программное обеспечение
[ редактировать ]Дизайн программного обеспечения для обнаружения сходства контента для использования с текстовыми документами характеризуется рядом факторов: [ 46 ]
Фактор | Описание и альтернативы |
---|---|
Объем поиска | В общедоступном Интернете, используя поисковые системы / институциональные базы данных / локальную системную базу данных. [ Цитация необходима ] |
Время анализа | Задержка между временем представлена документа и временем, когда результаты доступны. [ Цитация необходима ] |
Емкость документа / обработка партии | Количество документов, которые система может обрабатывать на единицу времени. [ Цитация необходима ] |
Проверьте интенсивность | Как часто и для каких типов фрагментов документов (параграфы, предложения, последовательности слов с фиксированной длиной) использует системные запросы внешние ресурсы, такие как поисковые системы. |
Тип алгоритма сравнения | Алгоритмы, которые определяют способ использования системы для сравнения документов друг с другом. [ Цитация необходима ] |
Точность и отзыв | Количество документов, правильно помеченных как плагиата по сравнению с общим количеством отмеченных документов, и с общим количеством документов, которые фактически были плагиатом. Высокая точность означает, что было обнаружено несколько ложных срабатываний , а высокий отзыв означает, что несколько ложных негативов остались незамеченными. [ Цитация необходима ] |
В большинстве крупномасштабных систем обнаружения плагиата используются крупные внутренние базы данных (в дополнение к другим ресурсам), которые растут с каждым дополнительным документом, представленным для анализа. Тем не менее, эта особенность рассматривается некоторыми как нарушение студенческого авторского права . [ Цитация необходима ]
В исходном коде
[ редактировать ]Плагиат в компьютерном исходном коде также часто бывает и требует отличных инструментов, чем те, которые используются для сравнения текстовых данных в документе. Значительные исследования были посвящены плагиату академического кода. [ 47 ]
Отличительным аспектом плагиата исходного кода является то, что в традиционном плагиате нет эссе , таких как можно найти. Поскольку большинство заданий по программированию ожидают, что учащиеся будут писать программы с очень конкретными требованиями, очень трудно найти существующие программы, которые их уже встречают. Поскольку интеграция внешнего кода часто сложнее, чем написание с нуля, большинство плагиатов предпочитают сделать это со своими сверстниками.
По словам Роя и Корди, [ 48 ] Алгоритмы обнаружения сходства исходного кода могут быть классифицированы как основанные на любом
- Строки-ищите точные текстовые совпадения сегментов, например, запуск с пятью слонами. Быстро, но может быть сбит с толку переименованием идентификаторов.
- Токены - как в случае с струнами, но используя лексер для преобразования программы в токены в первую очередь. Это отбрасывает пробелы, комментарии и названия идентификаторов, что делает систему более надежной против простых текстовых заменов. Большинство академических систем обнаружения плагиата работают на этом уровне, используя различные алгоритмы для измерения сходства между последовательностями токенов.
- Разбор деревьев - строить и сравнивать деревья разбора. Это позволяет обнаружить сходства более высокого уровня. Например, сравнение деревьев может нормализовать условные утверждения и обнаружить эквивалентные конструкции как аналогичные друг другу.
- Графики зависимости программы (PDG)-PDG отражает фактический поток управления в программе и позволяет располагаться гораздо более высоким уровнем эквиваленты с большими затратами по сложности и времени расчета.
- Метрики - метрики захватывают «оценки» сегментов кода в соответствии с определенными критериями; Например, «количество петлей и условных условий» или «количество используемых различных переменных». Метрики просты в расчете и могут сравниваться быстро, но также могут привести к ложным срабатыванию: два фрагмента с одинаковыми оценками на наборе метрик могут делать совершенно разные вещи.
- Гибридные подходы-например, деревья разбора + суффикс деревьев могут объединить способность обнаружения деревьев с скоростью, предоставляемой суффиксными деревьями, тип структуры данных сопоставления строк.
Предыдущая классификация была разработана для рефакторирования кода , а не для академического обнаружения плагиата (важной целью рефакторинга является избегание дублированного кода , называемого клонами кода в литературе). Вышеуказанные подходы эффективны против разных уровней сходства; Сходство низкого уровня относится к идентичному тексту, в то время как сходство высокого уровня может быть связано с аналогичными спецификациями. В академической обстановке, когда все студенты должны будут кодироваться с одинаковыми спецификациями, функционально эквивалентный код (с сходством высокого уровня) полностью ожидается, и только сходство низкого уровня рассматривается как доказательство мошенничества.
Разница между плагиатом и авторским правом
Плагиат и авторские права являются важными концепциями в академическом и творческом письме , которые должны понимать писатели, исследователи и студенты. Хотя они могут звучать одинаково, они не являются; Различные стратегии могут быть использованы для решения каждого из них. [ 49 ]
Алгоритмы
[ редактировать ]Был предложен ряд различных алгоритмов для обнаружения дубликата кода. Например:
- . Алгоритм Бейкера [ 50 ]
- Алгоритм поиска строк Rabin -KARP .
- Используя абстрактные синтаксические деревья . [ 51 ]
- Визуальное обнаружение клона. [ 52 ]
- Обнаружение клона графства. [ 53 ] [ 54 ]
- Чувствительное к местности хеширование
- Анти-объединение [ 55 ]
Осложнения с использованием программного обеспечения для сопоставления текста для обнаружения плагиата
[ редактировать ]Различные осложнения были задокументированы с использованием программного обеспечения для сопоставления текста при использовании для обнаружения плагиата. Одна из наиболее распространенных проблем задокументирована в отношении вопроса прав интеллектуальной собственности. Основной аргумент заключается в том, что материалы должны быть добавлены в базу данных, чтобы TMS могли эффективно определять совпадение, но добавление материалов пользователей в такую базу данных может нарушать их права интеллектуальной собственности. Вопрос был поднят в ряде судебных дел.
Дополнительным осложнением с использованием TMS является то, что программное обеспечение находит только точные совпадения с другим текстом. Например, он не занимается плохо перефразированной работой или практикой плагиата, используя достаточные замены слов для ускользнуния программного обеспечения для обнаружения, которое называется Rogeting .
Смотрите также
[ редактировать ]- Программное обеспечение для обнаружения искусственного интеллекта -программное обеспечение для обнаружения страниц контента, сгенерированных AI,
- Категория: детекторы плагиата
- Сравнение программного обеспечения против плагиата
- Чувствительное к местности хеширование -алгоритмическая техника с использованием хэширования
- Поиск ближайшего соседа - проблема оптимизации в информатике
- Обнаружение перефразирования - автоматическое генерация или распознавание перефразированных текстовых
- Сложность Колмогорова#Сжатие - используется для оценки сходства между последовательностями токенов в нескольких системах
- Обнаружение копии видео
Ссылки
[ редактировать ]- ^ Кулвин, Финтан; Ланкастер, Томас (2001). «Плагиат, профилактика, сдерживание и обнаружение» . Citeseerx 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 года . Получено 11 ноября 2022 года - через Академию высшего образования .
- ^ Jump up to: а беременный Bretag, T. & Mahmud, S. (2009). Модель для определения студенческого плагиата: электронное обнаружение и академическое суждение. Журнал университетской практики преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6
- ^ Macdonald, R. & Carroll, J. (2006). Плагиат - сложный вопрос, требующий целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. doi : 10.1080/02602930500262536
- ^ Foltýnek, Томаш; Мешке, Норман; Гипп, Бела (16 октября 2019 г.). «Обнаружение академического плагиата: систематический обзор литературы» . ACM вычислительные исследования . 52 (6): 1–42. doi : 10.1145/3345317 .
- ^ Стейн, Бенно; Коппель, Моше; Stamatatos, Efstathios (декабрь 2007 г.), «Анализ плагиата, идентификация авторства и почти подавляющее обнаружение Pan'07» (PDF) , Sigir Forum , 41 (2): 68, doi : 10.1145/1328964.1328976 s2cid 6379659 , Archived , Оригинал (PDF) 2 апреля 2012 года , полученная 7 октября 2011 г.
- ^ Jump up to: а беременный в Поттаст, Мартин; Стейн, Бенно; Эйзелт, Андреас; Баррон-Кеденьо, Альберто; Rosso, Paolo (2009), «Обзор 1 -й международной конкуренции по обнаружению плагиата», PAN09 - 3 -й семинар по раскрытию плагиата, авторского и социального программного обеспечения и 1 -й международной конкуренции по обнаружению плагиата (PDF) , Ceur Workshop Royings, vol. 502, с. 1–9, ISSN 1613-0073 , архивировано из оригинала (PDF) 2 апреля 2012 года
- ^ Стейн, Бенно; Мейер Зу Эйссен, Свен; PotThast, Martin (2007), «Стратегии получения плагиатированных документов», Труды 30 -й ежегодной международной конференции ACM SIGIR (PDF) , ACM, с. 825–826, doi : 10.1145/1277741.1277928 , ISBN 978-1-59593-597-7 , S2CID 3898511 , архивировано из оригинала (PDF) 2 апреля 2012 года , полученная 7 октября 2011 г.
- ^ Jump up to: а беременный Мейер Зу Эйссен, Свен; Stein, Benno (2006), «Внутреннее обнаружение плагиата», « Достижение в поиске информации» 28 -й Европейской конференции по ИК -исследованиям, ECIR 2006, Лондон, Великобритания, 10–12 апреля 2006 года (PDF) , лекционные записи в области компьютерных наук, вып. 3936, Springer, pp. 565–569, citeseerx 10.1.1.110.5366 , doi : 10.1007/11735106_66 , ISBN 978-3-540-33347-0 , архивировано из оригинала (PDF) 2 апреля 2012 года , извлечен 7 октября 2011 г.
- ^ Бенсалем, Имен (2020). «Внутреннее обнаружение плагиата: опрос». Обнаружение плагиата: акцент на внутреннем подходе и оценке на арабском языке (кандидатская диссертация) . Константин 2 Университет. doi : 10.13140/rg.2.2.25727.84641 .
- ^ Бао, Джун-Пэн; Малкольм, Джеймс А. (2006), «Сходство текста в документах по академической конференции», 2 -я Международная конференция плагиата (PDF) , издательство Университета Нортумбрии, архивировав из оригинала (PDF) 16 сентября 2018 года , полученная 7 октября 2011 г.
- ^ Clough, Paul (2000), Плагиат на языках естественных и программирования. Обзор текущих инструментов и технологий (PDF) (Технический отчет), Департамент компьютерных наук, Университет Шеффилда, архивированный из оригинала (PDF) 18 августа 2011 г.
- ^ Кулвин, Финтан; Lancaster, Thomas (2001), «Проблемы с плагиатом для высшего образования» (PDF) , Vine , 31 (2): 36–41, doi : 10.1108/03055720010804005 , архивировано из оригинала (PDF) 5 апреля 2012 г.
- ^ Lancaster, Thomas (2003), Эффективное и эффективное обнаружение плагиата (кандидатская диссертация), Школа компьютерных, информационных систем и математики Университет Южного берега
- ^ Маурер, Германн; Zaka, Bilal (2007), «Плагиат - проблема и о том, как бороться с ней», Труды Всемирной конференции по образовательной мультимедиа, гипермедиа и телекоммуникации 2007 , AACE, с. 4451–4458, ISBN 9781880094624
- ^ Юманс, Роберт Дж. (Ноябрь 2011). «Сокращает ли принятие программного обеспечения для обнаружения плагиата в высшем образовании плагиат?». Исследования в высшем образовании . 36 (7): 749–761. doi : 10.1080/03075079.2010.523457 . S2CID 144143548 .
- ^ Мешке, Норман; Gipp, Bela (2013), «Состояние искусства в обнаружении академического плагиата» (PDF) , Международный журнал по вопросам добросовестности образования , 9 (1): 50–71, doi : 10.5281/Zenodo.3482941 , Получено 15 февраля 2024
- ^ Jump up to: а беременный Хоад, Тимоти; Zobel, Justin (2003), «Методы выявления версий и плагиатизированных документов» (PDF) , журнал Американского общества для информационной науки и техники , 54 (3): 203–215, Citeseerx 10.1.1.18.2680 , doi : 10.1002 /Aasi.10170 , архивировано из оригинала (PDF) 30 апреля 2015 года , извлечен 14 октября 2014 г.
- ^ Stein, Benno (июль 2005 г.), «Нечеткие отпечатки для поиска текстовой информации», Материалы I-ЗНАЙТЕ '05, 5-я Международная конференция по управлению знаниями, Graz, Австрия (PDF) , Springer, Knite-Center, PP ..
- ^ Брин, Сергей; Дэвис, Джеймс; Garcia-Molina, Hector (1995), «Механизмы обнаружения копий для цифровых документов», Материалы Международной конференции ACM SIGMOD по управлению данными (PDF) , ACM, с. 398–409, Citeseerx 10.1.1.49.1567 , doi : 10.1145/223784.223855 , ISBN 978-1-59593-060-6 , S2CID 8652205 , архивировано из оригинала (PDF) 18 августа 2016 года , полученного 7 октября 2011 г.
- ^ Monostori, Krisztián; Заславский, Аркади; Schmidt, Heinz (2000), «Система обнаружения перекрытия документов для распределенных цифровых библиотек», Труды Пятой конференции ACM по цифровым библиотекам (PDF) , ACM, с. 226–227, DOI : 10.1145/336597.33667 , ISBN 978-1-58113-231-1 , S2CID 5796686 , архивировано из оригинала (PDF) 15 апреля 2012 года , полученного 7 октября 2011 г.
- ^ Бейкер, Бренда С. (февраль 1993 г.), о поиске дублирования в строках и программном обеспечении (Технический отчет), AT & T Bell Laboratories, NJ, архивировано из оригинала (GS) 30 октября 2007 г.
- ^ Khmelev, Dmitry v.; Teahan, William J. (2003), «Мера, основанная на повторении для проверки текстовых сборов и для категоризации текста», Sigir'03: Материалы 26 -й ежегодной Международной конференции ACM Sigir по исследованиям и разработкам в поиске информации , ACM, с. 104–110 , Citeseerx 10.1.1.9.6155 , doi : 10.1145/860435.860456 , ISBN 978-1581136463 , S2CID 7316639
- ^ Си, Антонио; Леонг, Хонг В.А.; Lau, Rynson WH (1997), «Проверка: система обнаружения плагиата в документе», SAC '97: Материалы симпозиума ACM 1997 года на прикладных вычислениях (PDF) , ACM, стр. 70–77, DOI : 10.1145/331697.335176 , ISBN : 10.1145/331697.335176 978-0-89791-850-3 , S2CID 15273799
- ^ Dreher, Heinz (2007), «Автоматический концептуальный анализ обнаружения плагиата» (PDF) , Информация и за его пределами: Журнал вопросов информирования науки и информационных технологий , 4 : 601–614, doi : 10.28945/974
- ^ Мур, Маркус; Зехнер, Марио; Керн, Роман; Granitzer, Michael (2009), «Внешнее и внутреннее обнаружение плагиата с использованием моделей векторного пространства», PAN09 - 3 -й семинар по выявлению плагиата, авторства и неправильного использования программного обеспечения и 1 -й международной конкуренции по обнаружению плагиата (PDF) , Ceur Workshop Modesporings, Vol. 502, с. 47–55, ISSN 1613-0073 , архивировано из оригинала (PDF) 2 апреля 2012 года
- ^ Gipp, Bela (2014), Обнаружение плагиата на основе цитирования , Springer Vieweg Research, ISBN 978-3-658-06393-1
- ^ Jump up to: а беременный в дюймовый Гипп, Бела; Beel, Jöran (июнь 2010 г.), «Обнаружение плагиата на основе цитирования - новый подход к выявлению плагиатизированного языка работы самостоятельно», Материалы 21 -й конференции ACM по гипертексту и гипермедиа (HT'10) (PDF) , ACM, стр. 273– 274, doi : 10.1145/1810617.1810671 , ISBN 978-1-4503-0041-4 , S2CID 2668037 , архивировано из оригинала (PDF) 25 апреля 2012 года , извлеченные 21 октября 2011 г.
- ^ Гипп, Бела; Мешке, Норман; Breitinger, Corinna; Липински, Марио; Нюрнбергер, Андреас (28 июля 2013 г.), «Демонстрация анализа схемы цитирования для обнаружения плагиата», Труды 36 -й Международной конференции ACM Sigir по исследованиям и разработке в поисках информации (PDF) , ACM, с. 1119, doi : 10.1145/2484028.2484214 , ISBN 9781450320344 , S2CID 2106222
- ^ Jump up to: а беременный Гипп, Бела; Meuschke, Norman (сентябрь 2011 г.), «Алгоритмы соответствия схемы цитирования для обнаружения плагиата на основе цитирования: жадная плитка цитирования, проклятие цитирования и самая продолжительная последовательность цитирования», « Труды 11-го симпозиума ACM по инженерному инженерии документов» (Doceng2011) (PDF) , ACM , стр. 249–258, doi : 10.1145/2034691.2034741 , ISBN 978-1-4503-0863-2 , S2CID 207190305 , архивировано из оригинала (PDF) 25 апреля 2012 года , полученная 7 октября 2011 г.
- ^ Jump up to: а беременный Гипп, Бела; Мешке, Норман; Beel, Jöran (июнь 2011 г.), «Сравнительная оценка подходов к обнаружению плагиата на основе текста и цитирования с использованием совместной конференции ACM/IEEE-CS по цифровым библиотекам (JCDL'11) (PDF) , ACM, pp И. 978-1-4503-0744-4 , S2CID 3683238 , архивировано из оригинала (PDF) 25 апреля 2012 года , полученная 7 октября 2011 г.
- ^ Гипп, Бела; Бил, Йеран (июль 2009 г.), «Анализ близости цитаты (CPA) - новый подход к определению связанных работ, основанного на анализе совместных цитирования», Материалы 12 -й Международной конференции по научной атмосферу и информации (ISSI'09) (PDF) , Международное общество по научнойме и информации, стр. 571–575, ISSN 2175-1935 , архивировано из оригинала (PDF) 13 сентября 2012 года , полученная 7 октября 2011 г.
- ^ Холмс, Дэвид И. (1998), «Эволюция стилометрии в стипендии гуманитарных наук», Литературные и лингвистические вычисления , 13 (3): 111–117, doi : 10.1093/LLC/13.3.111
- ^ Juola, Patrick (2006), «Атрибуция авторства» (PDF) , Фонды и тенденции в поиске информации , 1 (3): 233–334, Citeseerx 10.1.1.219.1605 , doi : 10.1561/1500000005 , ISSN 1554-0669 , Archied Из оригинала (PDF) 24 октября 2020 года , полученное 7 октября 2011 г.
- ^ Jump up to: а беременный Стейн, Бенно; Липка, Недим; Prettenhofer, Peter (2011), «Внутренний анализ плагиата» (PDF) , языковые ресурсы и оценка , 45 (1): 63–82, doi : 10.1007/s10579-010-9115-y , ISSN 1574-020x , S2CID 13426762 , Архивировано из оригинала (PDF) 2 апреля 2012 года , полученная 7 октября 2011 г.
- ^ Бенсалем, Имен; Россо, Паоло; Чихи, Салим (2019). «Об использовании N-грамм персонажа в качестве единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. doi : 10.1007/S10579-019-094444-W . HDL : 10251/159151 . S2CID 86630897 .
- ^ Реймерс, Нильс; Gurevych, Iryna (2019). «Приговор-Берт: встраивание предложения с использованием сиамских берт-сети». Arxiv : 1908.10084 [ Cs.cl ].
- ^ Лан, Увей; Сюй, Вей (2018). «Модели нейронной сети для идентификации перефразы, семантического текстового сходства, вывода естественного языка и ответа на вопросы» . Материалы 27 -й Международной конференции по вычислительной лингвистике . Санта -Фе, Нью -Мексико, США: Ассоциация вычислительной лингвистики: 3890–3902. Arxiv : 1806.04330 .
- ^ Wahle, Ян Филип; Руас, Терри; Foltýnek, Томаш; Мешке, Норман; Gipp, Bela (2022), Smits, Malte (ed.), «Идентификация машинного плагиата» , информация для лучшего мира: формирование глобального будущего , записи лекций в компьютерных науках, вып. 13192, CHAM: Springer International Publishing, с. 393–413, Arxiv : 2103.11909 , doi : 10.1007/978-3-030-96957-8_34 , ISBN 978-3-030-96956-1 , S2CID 232307572 , извлечен 6 октября 2022 г.
- ^ Portal Plagiat - Softwaretest 2004 (на немецком языке), HTW University of Applied Sciences Berlin, архивировав с оригинала 25 октября 2011 года , получен 6 октября 2011 г.
- ^ Portal Plagiat - Softwaretest 2008 (на немецком языке), HTW University of Applied Sciences Berlin , извлечен 6 октября 2011 г.
- ^ Jump up to: а беременный Portal Paragiat - Softwaretest 2010 (на немецком языке), HTW University of Applied Sciences Berlin , получен 6 октября 2011 г.
- ^ Jump up to: а беременный Поттаст, Мартин; Баррон-Кеденьо, Альберто; Эйзелт, Андреас; Стейн, Бенно; Rosso, Paolo (2010), «Обзор 2 -го международного конкурса по обнаружению плагиата», «Лаборатории и семинары Clef 2010», 22–23 сентября, Падуя, Италия (PDF) , архивированы из оригинала (PDF) 3 апреля. 2012 , получен 7 октября 2011 г.
- ^ Jump up to: а беременный Поттаст, Мартин; Эйзелт, Андреас; Баррон-Кеденьо, Альберто; Стейн, Бенно; Rosso, Paolo (2011), «Обзор 3 -го международного конкурса по обнаружению плагиата», «Лаборатории и семинары Clef 2011», 19–22 сентября, Амстердам, Нидерланды (PDF) , архивированы от оригинала (PDF) 2 апреля. 2012 , получен 7 октября 2011 г.
- ^ Поттаст, Мартин; Баррон-Кеденьо, Альберто; Стейн, Бенно; Rosso, Paolo (2011), «Обнаружение Plagiris Plagiris» (PDF) языковые ресурсы и оценка 45 ( ): 45–62, : 10.1007 / doi 1 , s109-009-9 , ISSN 1574-020x , S2CID 14942239 , архивировано Из оригинала (PDF) 26 ноября 2013 года , полученное 7 октября
- ^ Вебер-Вулф, Дебора (июнь 2008 г.), «О коммунальной программе для обнаружения плагиата», в трудах 3-й Международной конференции по плагиату, «Ньюкасл на Тайн» (PDF) , архивировав из первоначального (PDF) 1 октября 2013 года , извлеченные 29 Сентябрь 2013 года
- ^ Как проверить текст на плагиат
- ^ «Профилактика и обнаружение плагиата - ресурсы онлайн на плагиате исходного кода», архивировав 15 ноября 2012 года на машине Wayback . Академия высшего образования , Университет Ольстера .
- ^ Рой, Чанчал Кумар; Корди, Джеймс Р. (26 сентября 2007 г.). «Обследование по исследованию обнаружения программного клона» . Школа компьютеров, Queen's University, Канада .
- ^ Прасад, Сухани. «Плагиат и авторское право» . CheckforPlag .
{{cite web}}
: Cs1 maint: url-status ( ссылка ) - ^ Бренда С. Бейкер . Программа для определения дублированного кода. Компьютерная наука и статистика, 24: 49–57, 1992.
- ^ Ира Д. Бакстер и др. Обнаружение клонов с использованием абстрактных синтаксических деревьев
- ^ Визуальное обнаружение дублированного кода Архивировано 2006-06-29 на машине Wayback от Матиаса Ригера, Стефана Дюкасса.
- ^ Yuan, Y. and Guo, Y. CMCD: Обнаружение клонов на основе матрицы, в 2011 году 18-я Азиатско-Тихоокеанская конференция по разработке программного обеспечения. IEEE, декабрь 2011, с. 250–257.
- ^ Chen, X., Wang, Ay, & Tempor, Ed (2014). Репликация и воспроизведение исследований обнаружения клонов кода . В ACSC (стр. 105-114).
- ^ Bulychev, Peter, and Marius Minea. " Duplicate code detection using anti-unification ." Proceedings of the Spring/Summer Young Researchers’ Colloquium on Software Engineering. No. 2. Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук, 2008.
Литература
[ редактировать ]- Кэрролл, Дж. (2002). Справочник по сдерживанию плагиата в высшем образовании . Оксфорд: Оксфордский центр по развитию персонала и обучения, Оксфордский университет Брукса. (96 стр.), ISBN 1873576560
- Zeidman, B. (2011). Справочник по программному детективу . Прентис Холл. (480 с.), ISBN 0137035330