Jump to content

Состязательная стилометрия

Состязательная стилометрия — это практика изменения стиля письма, чтобы уменьшить вероятность стилометрии раскрыть личность автора или его характеристики. Эта задача также известна как запутывание авторства или анонимизация авторства . Стилометрия представляет собой серьезную проблему конфиденциальности , поскольку позволяет разоблачить анонимных авторов или связать псевдонимы с другими личностями автора, что, например, создает трудности для информаторов , активистов, а также мистификаторов и мошенников . Ожидается, что риск конфиденциальности будет расти по мере развития методов машинного обучения и текстовых корпусов .

Вся состязательная стилометрия разделяет основную идею точного перефразирования исходного текста так, чтобы смысл не менялся, но стилистические сигналы были скрыты. Такой верный парафраз является состязательным примером для стилометрического классификатора. Существует несколько широких подходов к этому, некоторые из которых частично совпадают: имитация , замена собственного стиля автора на стиль другого; перевод , применяющий машинный перевод с надеждой, что это устранит характерный стиль исходного текста; и запутывание — намеренное изменение стиля текста, чтобы он не напоминал стиль автора.

Скрыть стиль вручную возможно, но трудоемко; в некоторых обстоятельствах это предпочтительно или необходимо. Автоматизированные инструменты, полуавтоматические или полностью автоматические, могут помочь автору. Как лучше всего выполнить задачу и конструкция таких инструментов — открытый исследовательский вопрос. Хотя было показано, что некоторые подходы способны опровергнуть определенные стилометрические анализы, особенно те, которые не учитывают потенциал состязательности, обеспечение безопасности перед лицом неизвестных анализов является проблемой. Обеспечение достоверности пересказа — важнейшая задача для автоматизированных инструментов.

Неясно, можно ли обнаружить практику состязательной стилометрии саму по себе. Некоторые исследования показали, что определенные методы создают сигналы в выходном тексте, но стилиметрист, который не уверен в том, какие методы могли использоваться, возможно, не сможет их надежно обнаружить.

Рао и Рохатги (2000) , ранняя работа в области состязательной стилометрии, [1] определил машинный перевод как возможность, но отметил, что качество переводчиков, доступных в то время, представляло серьезные проблемы. [2] Качмарчик и Гамон (2006) — еще одна ранняя работа. Бреннан, Афроз и Гринштадт (2012) провели первую оценку состязательных стилометрических методов на реальных текстах. [1]

Бреннан и Гринштадт (2009) представили первый корпус текстов, написанных состязательно, специально для оценки стилометрических методов; [3] Другие организации включают Международный конкурс подражания Хемингуэю , конкурс «Фальшивый Фолкнер» и блог-мистификацию «Девушка-гей в Дамаске» . [4]

Мотивации

[ редактировать ]

Рао и Рохатги (2000) предполагают, что короткие документы без указания авторства (т. е. анонимные сообщения ) не подвергаются риску стилометрической идентификации, но авторы под псевдонимами , которые не практиковали состязательную стилометрию при создании корпусов из тысяч слов, могут быть уязвимы. [5] Нарайанан и др. (2012) предприняли крупномасштабную деанонимизацию 100 000 авторов блогов с неоднозначными результатами: идентификация была значительно лучше случайности, но точно совпадала с блогом и автором только в пятой части случаев; [6] идентификация улучшалась с увеличением количества сообщений, написанных автором в корпусе. [7] Даже если автор не указан, некоторые из его характеристик все равно можно определить стилометрически. [8] или стилометрия может достаточно сузить анонимность потенциальных авторов, чтобы другая информация могла завершить идентификацию. [7] Выявление характеристик автора (например, пола или возраста) зачастую проще, чем выявление автора среди большого, возможно, открытого набора кандидатов. [9]

Современные методы машинного обучения предлагают мощные инструменты для идентификации; [10] Дальнейшее развитие корпусов и вычислительных стилометрических методов, вероятно, повлечет за собой дальнейшие проблемы конфиденциальности. [11] Gröndahl & Asokan (2020a) говорят, что общая обоснованность гипотезы, лежащей в основе стилометрии, о том, что у авторов есть инвариантные, независимые от содержания «отпечатки стилей», неясна, но «атака деанонимизации представляет собой реальную проблему конфиденциальности». [12]

В число тех, кто заинтересован в практике состязательной стилометрии и стилистического обмана, входят разоблачители , избегающие возмездия; [13] журналисты и активисты; [10] виновники мошенничества и мистификаций ; [14] авторы фейковых отзывов ; [15] литературные фальсификаторы ; [16] преступники, скрывающие свою личность от следователей; [17] и, как правило, любой желающий сохранить анонимность или псевдоним. [13] Авторы или агенты, действующие от имени авторов, могут также попытаться удалить стилистические подсказки к характеристикам автора (например, расе или полу), чтобы знание этих характеристик не могло быть использовано для дискриминации (например, посредством алгоритмической предвзятости ). [18] [19] Другое возможное использование состязательной стилометрии — маскировка автоматически сгенерированного текста под написанный человеком. [20]

Подражая, автор пытается ввести в заблуждение стилометрию, сопоставляя свой стиль со стилем другого автора. [21] Неполная имитация, когда некоторые уникальные характеристики истинного автора проявляются рядом с чертами имитируемого автора, может быть сигналом к ​​использованию состязательной стилометрии. [22] Имитация может выполняться автоматически с помощью систем переноса стилей , хотя для этого обычно требуется большой корпус целевого стиля, чтобы система могла учиться на нем. [23]

Другой подход — это перевод, который использует машинный перевод исходного текста для устранения характерного стиля, часто с помощью нескольких переводчиков последовательно, чтобы выполнить полный перевод . Такой цепной перевод может привести к тому, что тексты будут существенно изменены, вплоть до непонятности; улучшенные инструменты перевода снижают этот риск. Тексты с более простой структурой легче переводить машинным способом, не теряя при этом исходного смысла. [21] Машинный перевод превращается в прямую стилистическую имитацию или запутывание, достигаемое за счет автоматической передачи стиля, которую можно рассматривать как «перевод» с тем же языком, что и ввод, и вывод. [24] [25] При использовании некачественных инструментов перевода автору может потребоваться вручную исправлять основные ошибки перевода, избегая при этом риска повторного введения стилистических характеристик. [2] Ван, Юола и Ридделл (2022) обнаружили, что грубые ошибки, допущенные Google Translate, были редки, но чаще встречались при нескольких промежуточных переводах, однако случайные простые или короткие предложения и орфографические ошибки в исходном тексте появлялись в выводе дословно, потенциально обеспечивая идентификацию сигнал. [26] Цепной перевод может оставить в документе характерные следы своего применения, что может позволить реконструировать используемые промежуточные языки и количество выполненных этапов перевода. [23]

Обфускация предполагает намеренное изменение стиля текста, чтобы уменьшить его сходство с другими текстами по некоторым показателям; это может быть выполнено во время написания путем сознательного изменения или как часть процесса пересмотра с обратной связью от целевой метрики в качестве входных данных для принятия решения, когда текст достаточно запутан. В отличие от перевода, сложные тексты могут предложить больше возможностей для эффективного запутывания без изменения смысла. [27] Точно так же жанры с более допустимыми вариациями допускают большую путаницу. [28] Однако более длинные тексты сложнее полностью запутать. [29] Запутывание может перерасти в имитацию, если автор разработает новый целевой стиль, отличный от исходного. [30] Что касается маскировки характеристик автора, то обфускация может быть направлена ​​на достижение объединения (добавление сигналов для имитируемых характеристик) или пересечения (удаление сигналов и нормализация) стилей других авторов. [31] Избегание собственных особенностей автора и создание «нормализованного» текста является важным шагом, запутывающим текст: у автора может быть уникальная тенденция писать с ошибками определенные слова, использовать определенные варианты или форматировать документ характерным образом. [2] [32] Стилометрические сигналы различаются по тому, насколько просто их можно замаскировать; автор может легко изменить свой словарный запас по сознательному выбору, но изменить образец грамматики или частоту букв в тексте может быть труднее, хотя Юола и Вескови (2011) сообщают, что имитация обычно позволяет замаскировать больше характеристик, чем запутывание. [33] Автоматизированная обфускация может потребовать больших объемов обучающих данных, написанных автором. [29]

Что касается автоматизированной реализации состязательной стилометрии, двумя возможными реализациями являются основанные на правилах системы перефразирования, ; и архитектуры кодировщика-декодера, где текст проходит через промежуточный формат, который (предполагается) нейтральным по стилю. [34] Еще одно разделение автоматизированных методов – есть ли обратная связь от системы идентификации или нет. [35] При такой обратной связи поиск парафразов для маскировки автора характеризуется как эвристическая задача поиска , исследующая текстовые варианты до тех пор, пока результат не окажется стилистически достаточно далеким (в случае запутывания) или близким (в случае подражания), что затем представляет собой состязательную борьбу. пример для этой системы идентификации. [36] [37]

Как лучше всего маскировать стилометрические характеристики на практике и какие задачи выполнять вручную, какие с помощью инструментов, а какие полностью автоматически, — это открытая область исследований, особенно в коротких документах с ограниченной потенциальной изменчивостью. [38] [11] Ручная состязательная стилометрия может быть предпочтительной или даже необходимой, если автор не доверяет доступным компьютерам выполнение задачи (как, например, в случае с информатором). [23] Программные средства требуют обслуживания ; Ван, Джуола и Ридделл (2022) сообщают, что не существует поддерживаемого запутывающего программного обеспечения, подходящего для общего использования. [39] Чжай и др. (2022) определяют DS-PAN ( Castro-Castro, Ortega Bueno & Muñoz 2017 ) и Mutant-X ( Mahmood et al. 2019 ) как новейшие достижения в области автоматизированной обфускации 2022 года. [40] Ручная стилистическая модуляция требует значительных усилий и имеет плохую масштабируемость ; Инструментальная помощь может в разной степени снизить нагрузку. [41] классификатора Детерминированные автоматизированные методы могут потерять эффективность против состязательно обученного , когда выходные данные программы переноса стиля используются в обучающем наборе классификатора. [42]

Potthast, Hagen & Stein (2016) приводят три критерия для использования при оценке методов состязательной стилометрии: безопасность , означающая, что стилистические характеристики надежно устраняются; обоснованность , означающая, что смысловое содержание текста не изменено недопустимым образом; и sensible , что означает, что выходные данные «хорошо сформированы и незаметны». Слишком глубокий компромисс обычно является неприемлемым результатом, и на практике эти три компромисса противоречат друг другу. [43] Поттхаст, Хаген и Штайн (2016) обнаруживают, что автоматическая оценка чувствительности, и в частности того, является ли вывод приемлемо грамматическим и правильно оформленным, затруднена; [44] Автоматическая оценка надежности несколько более перспективна, но лучшим методом является ручная проверка. [45]

Несмотря на то, что безопасность является важным свойством метода состязательной стилометрии, ею все же можно с пользой обменять, если предполагаемый потенциал стилометрической идентификации в противном случае возможен с помощью нестилометрического анализа - например, автора, обсуждающего свое собственное воспитание в Великобритании, вряд ли будет волновать, если Стилометрия может показать, что их текст типичен для британского английского языка . [46] [47]

Оценка безопасности различных подходов осложняется тем, что устойчивость к идентификации принципиально зависит от рассматриваемых методов идентификации. [48] Свойство устойчивости к неизвестному анализу называется переносимостью . [49] Gröndahl & Asokan (2020b) выделяют четыре различные модели угроз для авторов, различающиеся в зависимости от их знаний о том, как их текст будет анализироваться и какие обучающие данные будут использоваться: доступ к запросу с самым слабым аналитиком и самым сильным автором, который знает оба метода анализ и данные обучения; доступ к архитектуре , где автору известны методы анализа, но не данные обучения; доступ к данным , где автору известны данные обучения, но не методы анализа; и суррогатный доступ с самым слабым автором и самым сильным аналитиком, где автор не знает ни методов анализа, ни данных обучения. [34] Кроме того, когда автор выбирает метод, он должен полагаться на свою модель угроз и верить, что она действительна и что неизвестный анализ, способный обнаружить оставшиеся стилистические сигналы, не может или не будет выполнен, или что маскировка успешно передается; [50] Однако стилиметр, знающий, как автор пытался замаскировать свой стиль, может воспользоваться некоторыми недостатками метода и сделать его небезопасным. [51] Большая часть исследований автоматизированных методов предполагала, что у автора есть доступ к запросам, который не может распространяться на другие параметры. [52] Методы маскировки, которые внутренне используют ансамбль различных анализов в качестве модели для противника, могут лучше работать с невидимыми анализами. [35]

Полная потеря разумности противоречит цели общения, хотя некоторая степень изменения смысла может быть терпима, если основное сообщение сохраняется; Требование только текстового следования или разрешение автоматического резюмирования — это другие варианты потери некоторого смысла, возможно, приемлемым образом. [53] Переписывание входного текста для устранения стилометрии, в отличие от сознательного удаления стилистических характеристик во время композиции, создает проблемы с сохранением текстового значения. [54] Gröndahl & Asokan (2020a) оценивают проблему необоснованности как «самую важную проблему» для исследования полностью автоматических подходов. [11]

С точки зрения чувствительности, если текст настолько неграмматичен, что становится непонятным, или настолько плохо сформирован, что не может вписаться в свой жанр, то метод не сработал, но компромиссы, не доходящие до этого момента, могут быть полезны. [44] Если незаметность частично утрачена, существует вероятность того, что будут проведены более дорогие и менее масштабируемые анализы (например, консультация судебного лингвиста) для подтверждения подозрений или сбора дополнительных доказательств. [55] Последствия полной невозможности незаметности варьируются в зависимости от мотивации проведения состязательной стилометрии: для человека, просто пытающегося сохранить анонимность (например, информатора), обнаружение может не быть проблемой; однако для литературного фальсификатора обнаружение было бы катастрофой. [16] Состязательная стилометрия может оставить свидетельства своей практики, что является ошибкой незаметности. [56] [57] Было обнаружено, что в корпусе Бреннана-Гринштадта тексты имеют общий собственный «стиль». [58] Однако Gröndahl & Asokan (2020a) оценивают существующие данные как недостаточные, чтобы доказать, что состязательная стилометрия всегда поддается обнаружению, поскольку были изучены лишь ограниченные методы. [59] Улучшение плавности выходного текста может снизить обнаруживаемость автоматизированных инструментов. [60] Общая возможность выявления состязательного авторства тщательно не изучалась; если методы, доступные автору, неизвестны стилометристу, это может оказаться невозможным. [11]

Проблемы идентификации и проверки авторов в условиях состязательности сильно отличаются от проблем распознавания наивных или сотрудничающих авторов. [61] Умышленные попытки скрыть авторство описываются Юолой и Вескови (2011) как «проблема современного состояния стилометрического искусства». [62] и Бреннан, Афроз и Гринштадт (2012) заявляют, что, несмотря на высокую эффективность стилометрии в выявлении неконкурентных авторов, ручное применение состязательных методов делает ее ненадежной. [63]

Качмарчик и Гамон (2006) отмечают, что низкоразмерные стилометрические модели, которые работают с небольшим количеством признаков, менее устойчивы к состязательной стилометрии. [64] Исследования показали, что авторы различаются по тому, насколько хорошо они способны модулировать свой стиль: некоторые способны успешно выполнить задачу даже без подготовки. [39] Ван, Джуола и Ридделл (2022) , копируя и воспроизводя работы Бреннана, Афроза и Гринштадта (2012) , обнаружили, что все три аспекта — имитация, перевод и запутывание — значительно снижают эффективность установления авторства, при этом запутывание вручную оказывается несколько более эффективным, чем ручное запутывание. имитация или перевод, выполненные аналогично друг другу; оригинальное исследование показало, что имитация эффективнее. [65] Поттхаст, Хаген и Штейн (2016) сообщили, что даже простые автоматизированные методы состязательной стилометрии вызвали серьезные трудности для современных систем идентификации авторства, хотя и за счет значительных затрат на надежность и чувствительность. [66] Системы идентификации, распознающие состязательные действия, могут гораздо лучше работать против состязательной стилометрии при условии, что они знают, какие потенциальные методы запутывания использовались, даже если идентификатор допускает ошибки при анализе того, какой метод анонимизации был использован. [67]

См. также

[ редактировать ]
  1. ^ Jump up to: а б Бреннан, Афроз и Гринштадт, 2012 , с. 3-4.
  2. ^ Jump up to: а б с Качмарчик и Гамон 2006 , с. 445.
  3. ^ Юола и Вескови 2011 , с. 117.
  4. ^ Афроз, Бреннан и Гринштадт, 2012 , с. 466.
  5. ^ Рао и Рохатги 2000 , 1.3 Взносы.
  6. ^ Gröndahl & Asokan 2020a , с. 19.
  7. ^ Jump up to: а б Нарайанан и др. 2012 , с. 301 .
  8. ^ Эммери, Кадар и Хрупала 2021 , с. 2388.
  9. ^ Шетти, Шиле и Фриц 2018 , 1 Введение.
  10. ^ Jump up to: а б Махмуд и др. 2019 , с. 54.
  11. ^ Jump up to: а б с д Грёндаль и Асокан 2020a , с. 28.
  12. ^ Gröndahl & Asokan 2020a , с. 3.
  13. ^ Jump up to: а б Качмарчик и Гамон 2006 , с. 444.
  14. ^ Афроз, Бреннан и Гринштадт, 2012 , с. 461.
  15. ^ Gröndahl & Asokan 2020a , с. 4.
  16. ^ Jump up to: а б Поттаст, Хаген и Штейн, 2016 , стр. 5.
  17. ^ Юола и Вескови 2011 , с. 115.
  18. ^ Сюй и др. 2019 , с. 247.
  19. ^ Мирешгаллах и Берг-Киркпатрик, 2021 , с. 2009.
  20. ^ Ученду, Ле и Ли, 2022 , с. 1.
  21. ^ Jump up to: а б Нил и др. 2018 , с. 6.
  22. ^ Качмарчик и Гамон 2006 , с. 446.
  23. ^ Jump up to: а б с Ван, Юола и Ридделл, 2022 , с. 2.
  24. ^ Аделани и др. 2021 , с. 8687.
  25. ^ Ван, Джуола и Ридделл, 2022 , с. 8.
  26. ^ Нил и др. 2018 , с. 6-7.
  27. ^ Нил и др. 2018 , с. 26.
  28. ^ Jump up to: а б Махмуд и др. 2019 , с. 55.
  29. ^ Афроз, Бреннан и Гринштадт, 2012 , с. 471.
  30. ^ Мирешгаллах и Берг-Киркпатрик, 2021 , с. 2009-2010.
  31. ^ Рао и Рохатги 2000 , 5 направлений будущего.
  32. ^ Юола и Вескови 2011 , с. 121-123.
  33. ^ Jump up to: а б Gröndahl & Asokan 2020b , с. 177.
  34. ^ Jump up to: а б Харун и др. 2021 , с. 1.
  35. ^ Бевендорф и др. 2019 , с. 1098
  36. ^ Саеди и Драс 2020 , с. 181.
  37. ^ Нил и др. 2018 , с. 27.
  38. ^ Jump up to: а б Ван, Юола и Ридделл, 2022 , с. 3.
  39. ^ Чжай и др. 2022 , стр. 7374.
  40. ^ Gröndahl & Asokan 2020a , с. 21-22.
  41. ^ Gröndahl & Asokan 2020b , с. 176.
  42. ^ Поттаст, Хаген и Штейн, 2016 , стр. 6.
  43. ^ Jump up to: а б Поттаст, Хаген и Штейн, 2016 , стр. 12-13
  44. ^ Поттаст, Хаген и Штейн, 2016 , стр. 11.
  45. ^ Альмишари, Огуз и Цудик 2014 , с. 6.
  46. ^ Сюй и др. 2019 , с. 247-248.
  47. ^ Качмарчик и Гамон 2006 , с. 448.
  48. ^ Харун и др. 2021 , с. 3.
  49. ^ Эммери, Кадар и Хрупала 2021 , с. 2388-2389.
  50. ^ Поттаст, Хаген и Штейн, 2016 , стр. 9-10
  51. ^ Gröndahl & Asokan 2020b , с. 189.
  52. ^ Поттаст, Хаген и Штейн, 2016 , стр. 11-12.
  53. ^ Макдональд и др. 2012 , 7.1 Дальнейшая работа.
  54. ^ Поттаст, Хаген и Штейн, 2016 , стр. 13.
  55. ^ Махмуд, Шафик и Шринивасан 2020 , стр. 2235.
  56. ^ Афроз, Бреннан и Гринштадт, 2012 , с. 462.
  57. ^ Юола 2012 , стр. 93-94.
  58. ^ Gröndahl & Asokan 2020a , с. 2.
  59. ^ Махмуд, Шафик и Шринивасан 2020 , стр. 2243.
  60. ^ Афроз, Бреннан и Гринштадт, 2012 , с. 464.
  61. ^ Юола и Вескови 2011 , с. 123.
  62. ^ Бреннан, Афроз и Гринштадт 2012 , стр. 2.
  63. ^ Качмарчик и Гамон 2006 , с. 451.
  64. ^ Ван, Джуола и Ридделл, 2022 , с. 7-8.
  65. ^ Поттаст, Хаген и Штейн, 2016 , стр. 21.
  66. ^ Чжай и др. 2022 , стр. 7373.

Библиография

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b10931c3cd9a952c09ebcd536332e5ba__1713587640
URL1:https://arc.ask3.ru/arc/aa/b1/ba/b10931c3cd9a952c09ebcd536332e5ba.html
Заголовок, (Title) документа по адресу, URL1:
Adversarial stylometry - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)