Состязательная стилометрия
Состязательная стилометрия — это практика изменения стиля письма, чтобы уменьшить вероятность стилометрии раскрыть личность автора или его характеристики. Эта задача также известна как запутывание авторства или анонимизация авторства . Стилометрия представляет собой серьезную проблему конфиденциальности , поскольку позволяет разоблачить анонимных авторов или связать псевдонимы с другими личностями автора, что, например, создает трудности для информаторов , активистов, а также мистификаторов и мошенников . Ожидается, что риск конфиденциальности будет расти по мере развития методов машинного обучения и текстовых корпусов .
Вся состязательная стилометрия разделяет основную идею точного перефразирования исходного текста так, чтобы смысл не менялся, но стилистические сигналы были скрыты. Такой верный парафраз является состязательным примером для стилометрического классификатора. Существует несколько широких подходов к этому, некоторые из которых частично совпадают: имитация , замена собственного стиля автора на стиль другого; перевод , применяющий машинный перевод с надеждой, что это устранит характерный стиль исходного текста; и запутывание — намеренное изменение стиля текста, чтобы он не напоминал стиль автора.
Скрыть стиль вручную возможно, но трудоемко; в некоторых обстоятельствах это предпочтительно или необходимо. Автоматизированные инструменты, полуавтоматические или полностью автоматические, могут помочь автору. Как лучше всего выполнить задачу и конструкция таких инструментов — открытый исследовательский вопрос. Хотя было показано, что некоторые подходы способны опровергнуть определенные стилометрические анализы, особенно те, которые не учитывают потенциал состязательности, обеспечение безопасности перед лицом неизвестных анализов является проблемой. Обеспечение достоверности пересказа — важнейшая задача для автоматизированных инструментов.
Неясно, можно ли обнаружить практику состязательной стилометрии саму по себе. Некоторые исследования показали, что определенные методы создают сигналы в выходном тексте, но стилиметрист, который не уверен в том, какие методы могли использоваться, возможно, не сможет их надежно обнаружить.
История
[ редактировать ]Рао и Рохатги (2000) , ранняя работа в области состязательной стилометрии, [1] определил машинный перевод как возможность, но отметил, что качество переводчиков, доступных в то время, представляло серьезные проблемы. [2] Качмарчик и Гамон (2006) — еще одна ранняя работа. Бреннан, Афроз и Гринштадт (2012) провели первую оценку состязательных стилометрических методов на реальных текстах. [1]
Бреннан и Гринштадт (2009) представили первый корпус текстов, написанных состязательно, специально для оценки стилометрических методов; [3] Другие организации включают Международный конкурс подражания Хемингуэю , конкурс «Фальшивый Фолкнер» и блог-мистификацию «Девушка-гей в Дамаске» . [4]
Мотивации
[ редактировать ]Рао и Рохатги (2000) предполагают, что короткие документы без указания авторства (т. е. анонимные сообщения ) не подвергаются риску стилометрической идентификации, но авторы под псевдонимами , которые не практиковали состязательную стилометрию при создании корпусов из тысяч слов, могут быть уязвимы. [5] Нарайанан и др. (2012) предприняли крупномасштабную деанонимизацию 100 000 авторов блогов с неоднозначными результатами: идентификация была значительно лучше случайности, но точно совпадала с блогом и автором только в пятой части случаев; [6] идентификация улучшалась с увеличением количества сообщений, написанных автором в корпусе. [7] Даже если автор не указан, некоторые из его характеристик все равно можно определить стилометрически. [8] или стилометрия может достаточно сузить анонимность потенциальных авторов, чтобы другая информация могла завершить идентификацию. [7] Выявление характеристик автора (например, пола или возраста) зачастую проще, чем выявление автора среди большого, возможно, открытого набора кандидатов. [9]
Современные методы машинного обучения предлагают мощные инструменты для идентификации; [10] Дальнейшее развитие корпусов и вычислительных стилометрических методов, вероятно, повлечет за собой дальнейшие проблемы конфиденциальности. [11] Gröndahl & Asokan (2020a) говорят, что общая обоснованность гипотезы, лежащей в основе стилометрии, о том, что у авторов есть инвариантные, независимые от содержания «отпечатки стилей», неясна, но «атака деанонимизации представляет собой реальную проблему конфиденциальности». [12]
В число тех, кто заинтересован в практике состязательной стилометрии и стилистического обмана, входят разоблачители , избегающие возмездия; [13] журналисты и активисты; [10] виновники мошенничества и мистификаций ; [14] авторы фейковых отзывов ; [15] литературные фальсификаторы ; [16] преступники, скрывающие свою личность от следователей; [17] и, как правило, любой желающий сохранить анонимность или псевдоним. [13] Авторы или агенты, действующие от имени авторов, могут также попытаться удалить стилистические подсказки к характеристикам автора (например, расе или полу), чтобы знание этих характеристик не могло быть использовано для дискриминации (например, посредством алгоритмической предвзятости ). [18] [19] Другое возможное использование состязательной стилометрии — маскировка автоматически сгенерированного текста под написанный человеком. [20]
Методы
[ редактировать ]Подражая, автор пытается ввести в заблуждение стилометрию, сопоставляя свой стиль со стилем другого автора. [21] Неполная имитация, когда некоторые уникальные характеристики истинного автора проявляются рядом с чертами имитируемого автора, может быть сигналом к использованию состязательной стилометрии. [22] Имитация может выполняться автоматически с помощью систем переноса стилей , хотя для этого обычно требуется большой корпус целевого стиля, чтобы система могла учиться на нем. [23]
Другой подход — это перевод, который использует машинный перевод исходного текста для устранения характерного стиля, часто с помощью нескольких переводчиков последовательно, чтобы выполнить полный перевод . Такой цепной перевод может привести к тому, что тексты будут существенно изменены, вплоть до непонятности; улучшенные инструменты перевода снижают этот риск. Тексты с более простой структурой легче переводить машинным способом, не теряя при этом исходного смысла. [21] Машинный перевод превращается в прямую стилистическую имитацию или запутывание, достигаемое за счет автоматической передачи стиля, которую можно рассматривать как «перевод» с тем же языком, что и ввод, и вывод. [24] [25] При использовании некачественных инструментов перевода автору может потребоваться вручную исправлять основные ошибки перевода, избегая при этом риска повторного введения стилистических характеристик. [2] Ван, Юола и Ридделл (2022) обнаружили, что грубые ошибки, допущенные Google Translate, были редки, но чаще встречались при нескольких промежуточных переводах, однако случайные простые или короткие предложения и орфографические ошибки в исходном тексте появлялись в выводе дословно, потенциально обеспечивая идентификацию сигнал. [26] Цепной перевод может оставить в документе характерные следы своего применения, что может позволить реконструировать используемые промежуточные языки и количество выполненных этапов перевода. [23]
Обфускация предполагает намеренное изменение стиля текста, чтобы уменьшить его сходство с другими текстами по некоторым показателям; это может быть выполнено во время написания путем сознательного изменения или как часть процесса пересмотра с обратной связью от целевой метрики в качестве входных данных для принятия решения, когда текст достаточно запутан. В отличие от перевода, сложные тексты могут предложить больше возможностей для эффективного запутывания без изменения смысла. [27] Точно так же жанры с более допустимыми вариациями допускают большую путаницу. [28] Однако более длинные тексты сложнее полностью запутать. [29] Запутывание может перерасти в имитацию, если автор разработает новый целевой стиль, отличный от исходного. [30] Что касается маскировки характеристик автора, то обфускация может быть направлена на достижение объединения (добавление сигналов для имитируемых характеристик) или пересечения (удаление сигналов и нормализация) стилей других авторов. [31] Избегание собственных особенностей автора и создание «нормализованного» текста является важным шагом, запутывающим текст: у автора может быть уникальная тенденция писать с ошибками определенные слова, использовать определенные варианты или форматировать документ характерным образом. [2] [32] Стилометрические сигналы различаются по тому, насколько просто их можно замаскировать; автор может легко изменить свой словарный запас по сознательному выбору, но изменить образец грамматики или частоту букв в тексте может быть труднее, хотя Юола и Вескови (2011) сообщают, что имитация обычно позволяет замаскировать больше характеристик, чем запутывание. [33] Автоматизированная обфускация может потребовать больших объемов обучающих данных, написанных автором. [29]
Что касается автоматизированной реализации состязательной стилометрии, двумя возможными реализациями являются основанные на правилах системы перефразирования, ; и архитектуры кодировщика-декодера, где текст проходит через промежуточный формат, который (предполагается) нейтральным по стилю. [34] Еще одно разделение автоматизированных методов – есть ли обратная связь от системы идентификации или нет. [35] При такой обратной связи поиск парафразов для маскировки автора характеризуется как эвристическая задача поиска , исследующая текстовые варианты до тех пор, пока результат не окажется стилистически достаточно далеким (в случае запутывания) или близким (в случае подражания), что затем представляет собой состязательную борьбу. пример для этой системы идентификации. [36] [37]
Оценка
[ редактировать ]Как лучше всего маскировать стилометрические характеристики на практике и какие задачи выполнять вручную, какие с помощью инструментов, а какие полностью автоматически, — это открытая область исследований, особенно в коротких документах с ограниченной потенциальной изменчивостью. [38] [11] Ручная состязательная стилометрия может быть предпочтительной или даже необходимой, если автор не доверяет доступным компьютерам выполнение задачи (как, например, в случае с информатором). [23] Программные средства требуют обслуживания ; Ван, Джуола и Ридделл (2022) сообщают, что не существует поддерживаемого запутывающего программного обеспечения, подходящего для общего использования. [39] Чжай и др. (2022) определяют DS-PAN ( Castro-Castro, Ortega Bueno & Muñoz 2017 ) и Mutant-X ( Mahmood et al. 2019 ) как новейшие достижения в области автоматизированной обфускации 2022 года. [40] Ручная стилистическая модуляция требует значительных усилий и имеет плохую масштабируемость ; Инструментальная помощь может в разной степени снизить нагрузку. [41] классификатора Детерминированные автоматизированные методы могут потерять эффективность против состязательно обученного , когда выходные данные программы переноса стиля используются в обучающем наборе классификатора. [42]
Potthast, Hagen & Stein (2016) приводят три критерия для использования при оценке методов состязательной стилометрии: безопасность , означающая, что стилистические характеристики надежно устраняются; обоснованность , означающая, что смысловое содержание текста не изменено недопустимым образом; и sensible , что означает, что выходные данные «хорошо сформированы и незаметны». Слишком глубокий компромисс обычно является неприемлемым результатом, и на практике эти три компромисса противоречат друг другу. [43] Поттхаст, Хаген и Штайн (2016) обнаруживают, что автоматическая оценка чувствительности, и в частности того, является ли вывод приемлемо грамматическим и правильно оформленным, затруднена; [44] Автоматическая оценка надежности несколько более перспективна, но лучшим методом является ручная проверка. [45]
Несмотря на то, что безопасность является важным свойством метода состязательной стилометрии, ею все же можно с пользой обменять, если предполагаемый потенциал стилометрической идентификации в противном случае возможен с помощью нестилометрического анализа - например, автора, обсуждающего свое собственное воспитание в Великобритании, вряд ли будет волновать, если Стилометрия может показать, что их текст типичен для британского английского языка . [46] [47]
Оценка безопасности различных подходов осложняется тем, что устойчивость к идентификации принципиально зависит от рассматриваемых методов идентификации. [48] Свойство устойчивости к неизвестному анализу называется переносимостью . [49] Gröndahl & Asokan (2020b) выделяют четыре различные модели угроз для авторов, различающиеся в зависимости от их знаний о том, как их текст будет анализироваться и какие обучающие данные будут использоваться: доступ к запросу с самым слабым аналитиком и самым сильным автором, который знает оба метода анализ и данные обучения; доступ к архитектуре , где автору известны методы анализа, но не данные обучения; доступ к данным , где автору известны данные обучения, но не методы анализа; и суррогатный доступ с самым слабым автором и самым сильным аналитиком, где автор не знает ни методов анализа, ни данных обучения. [34] Кроме того, когда автор выбирает метод, он должен полагаться на свою модель угроз и верить, что она действительна и что неизвестный анализ, способный обнаружить оставшиеся стилистические сигналы, не может или не будет выполнен, или что маскировка успешно передается; [50] Однако стилиметр, знающий, как автор пытался замаскировать свой стиль, может воспользоваться некоторыми недостатками метода и сделать его небезопасным. [51] Большая часть исследований автоматизированных методов предполагала, что у автора есть доступ к запросам, который не может распространяться на другие параметры. [52] Методы маскировки, которые внутренне используют ансамбль различных анализов в качестве модели для противника, могут лучше работать с невидимыми анализами. [35]
Полная потеря разумности противоречит цели общения, хотя некоторая степень изменения смысла может быть терпима, если основное сообщение сохраняется; Требование только текстового следования или разрешение автоматического резюмирования — это другие варианты потери некоторого смысла, возможно, приемлемым образом. [53] Переписывание входного текста для устранения стилометрии, в отличие от сознательного удаления стилистических характеристик во время композиции, создает проблемы с сохранением текстового значения. [54] Gröndahl & Asokan (2020a) оценивают проблему необоснованности как «самую важную проблему» для исследования полностью автоматических подходов. [11]
С точки зрения чувствительности, если текст настолько неграмматичен, что становится непонятным, или настолько плохо сформирован, что не может вписаться в свой жанр, то метод не сработал, но компромиссы, не доходящие до этого момента, могут быть полезны. [44] Если незаметность частично утрачена, существует вероятность того, что будут проведены более дорогие и менее масштабируемые анализы (например, консультация судебного лингвиста) для подтверждения подозрений или сбора дополнительных доказательств. [55] Последствия полной невозможности незаметности варьируются в зависимости от мотивации проведения состязательной стилометрии: для человека, просто пытающегося сохранить анонимность (например, информатора), обнаружение может не быть проблемой; однако для литературного фальсификатора обнаружение было бы катастрофой. [16] Состязательная стилометрия может оставить свидетельства своей практики, что является ошибкой незаметности. [56] [57] Было обнаружено, что в корпусе Бреннана-Гринштадта тексты имеют общий собственный «стиль». [58] Однако Gröndahl & Asokan (2020a) оценивают существующие данные как недостаточные, чтобы доказать, что состязательная стилометрия всегда поддается обнаружению, поскольку были изучены лишь ограниченные методы. [59] Улучшение плавности выходного текста может снизить обнаруживаемость автоматизированных инструментов. [60] Общая возможность выявления состязательного авторства тщательно не изучалась; если методы, доступные автору, неизвестны стилометристу, это может оказаться невозможным. [11]
Проблемы идентификации и проверки авторов в условиях состязательности сильно отличаются от проблем распознавания наивных или сотрудничающих авторов. [61] Умышленные попытки скрыть авторство описываются Юолой и Вескови (2011) как «проблема современного состояния стилометрического искусства». [62] и Бреннан, Афроз и Гринштадт (2012) заявляют, что, несмотря на высокую эффективность стилометрии в выявлении неконкурентных авторов, ручное применение состязательных методов делает ее ненадежной. [63]
Качмарчик и Гамон (2006) отмечают, что низкоразмерные стилометрические модели, которые работают с небольшим количеством признаков, менее устойчивы к состязательной стилометрии. [64] Исследования показали, что авторы различаются по тому, насколько хорошо они способны модулировать свой стиль: некоторые способны успешно выполнить задачу даже без подготовки. [39] Ван, Джуола и Ридделл (2022) , копируя и воспроизводя работы Бреннана, Афроза и Гринштадта (2012) , обнаружили, что все три аспекта — имитация, перевод и запутывание — значительно снижают эффективность установления авторства, при этом запутывание вручную оказывается несколько более эффективным, чем ручное запутывание. имитация или перевод, выполненные аналогично друг другу; оригинальное исследование показало, что имитация эффективнее. [65] Поттхаст, Хаген и Штейн (2016) сообщили, что даже простые автоматизированные методы состязательной стилометрии вызвали серьезные трудности для современных систем идентификации авторства, хотя и за счет значительных затрат на надежность и чувствительность. [66] Системы идентификации, распознающие состязательные действия, могут гораздо лучше работать против состязательной стилометрии при условии, что они знают, какие потенциальные методы запутывания использовались, даже если идентификатор допускает ошибки при анализе того, какой метод анонимизации был использован. [67]
См. также
[ редактировать ]- Состязательное машинное обучение
- Профилирование автора
- Деидентификация
- Цифровые водяные знаки
- Онлайн-управление идентификацией
- Оперативная безопасность
- стеганография
Ссылки
[ редактировать ]- ^ Jump up to: а б Бреннан, Афроз и Гринштадт, 2012 , с. 3-4.
- ^ Jump up to: а б с Качмарчик и Гамон 2006 , с. 445.
- ^ Юола и Вескови 2011 , с. 117.
- ^ Афроз, Бреннан и Гринштадт, 2012 , с. 466.
- ^ Рао и Рохатги 2000 , 1.3 Взносы.
- ^ Gröndahl & Asokan 2020a , с. 19.
- ^ Jump up to: а б Нарайанан и др. 2012 , с. 301 .
- ^ Эммери, Кадар и Хрупала 2021 , с. 2388.
- ^ Шетти, Шиле и Фриц 2018 , 1 Введение.
- ^ Jump up to: а б Махмуд и др. 2019 , с. 54.
- ^ Jump up to: а б с д Грёндаль и Асокан 2020a , с. 28.
- ^ Gröndahl & Asokan 2020a , с. 3.
- ^ Jump up to: а б Качмарчик и Гамон 2006 , с. 444.
- ^ Афроз, Бреннан и Гринштадт, 2012 , с. 461.
- ^ Gröndahl & Asokan 2020a , с. 4.
- ^ Jump up to: а б Поттаст, Хаген и Штейн, 2016 , стр. 5.
- ^ Юола и Вескови 2011 , с. 115.
- ^ Сюй и др. 2019 , с. 247.
- ^ Мирешгаллах и Берг-Киркпатрик, 2021 , с. 2009.
- ^ Ученду, Ле и Ли, 2022 , с. 1.
- ^ Jump up to: а б Нил и др. 2018 , с. 6.
- ^ Качмарчик и Гамон 2006 , с. 446.
- ^ Jump up to: а б с Ван, Юола и Ридделл, 2022 , с. 2.
- ^ Шетти, Шиле и Фриц 2018 , 2 похожие работы.
- ^ Аделани и др. 2021 , с. 8687.
- ^ Ван, Джуола и Ридделл, 2022 , с. 8.
- ^ Нил и др. 2018 , с. 6-7.
- ^ Нил и др. 2018 , с. 26.
- ^ Jump up to: а б Махмуд и др. 2019 , с. 55.
- ^ Афроз, Бреннан и Гринштадт, 2012 , с. 471.
- ^ Мирешгаллах и Берг-Киркпатрик, 2021 , с. 2009-2010.
- ^ Рао и Рохатги 2000 , 5 направлений будущего.
- ^ Юола и Вескови 2011 , с. 121-123.
- ^ Jump up to: а б Gröndahl & Asokan 2020b , с. 177.
- ^ Jump up to: а б Харун и др. 2021 , с. 1.
- ^ Бевендорф и др. 2019 , с. 1098
- ^ Саеди и Драс 2020 , с. 181.
- ^ Нил и др. 2018 , с. 27.
- ^ Jump up to: а б Ван, Юола и Ридделл, 2022 , с. 3.
- ^ Чжай и др. 2022 , стр. 7374.
- ^ Gröndahl & Asokan 2020a , с. 21-22.
- ^ Gröndahl & Asokan 2020b , с. 176.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 6.
- ^ Jump up to: а б Поттаст, Хаген и Штейн, 2016 , стр. 12-13
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 11.
- ^ Альмишари, Огуз и Цудик 2014 , с. 6.
- ^ Сюй и др. 2019 , с. 247-248.
- ^ Качмарчик и Гамон 2006 , с. 448.
- ^ Харун и др. 2021 , с. 3.
- ^ Эммери, Кадар и Хрупала 2021 , с. 2388-2389.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 9-10
- ^ Gröndahl & Asokan 2020b , с. 189.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 11-12.
- ^ Макдональд и др. 2012 , 7.1 Дальнейшая работа.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 13.
- ^ Махмуд, Шафик и Шринивасан 2020 , стр. 2235.
- ^ Афроз, Бреннан и Гринштадт, 2012 , с. 462.
- ^ Юола 2012 , стр. 93-94.
- ^ Gröndahl & Asokan 2020a , с. 2.
- ^ Махмуд, Шафик и Шринивасан 2020 , стр. 2243.
- ^ Афроз, Бреннан и Гринштадт, 2012 , с. 464.
- ^ Юола и Вескови 2011 , с. 123.
- ^ Бреннан, Афроз и Гринштадт 2012 , стр. 2.
- ^ Качмарчик и Гамон 2006 , с. 451.
- ^ Ван, Джуола и Ридделл, 2022 , с. 7-8.
- ^ Поттаст, Хаген и Штейн, 2016 , стр. 21.
- ^ Чжай и др. 2022 , стр. 7373.
Библиография
[ редактировать ]- Аделани, Дэвид; Чжан, Миорань; Шен, Сяоюй; Даводи, Али; Кляйнбауэр, Томас; Клаков, Дитрих (2021). «Предотвращение профилирования авторов с помощью нулевого многоязычного обратного перевода». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . стр. 8687–8695. arXiv : 2109.09133 . doi : 10.18653/v1/2021.emnlp-main.684 .
- Афроз, Садия; Бреннан, Майкл; Гринштадт, Рэйчел (2012). «Обнаружение мистификаций, мошенничества и обмана в стиле письма в Интернете». Симпозиум IEEE 2012 по безопасности и конфиденциальности . стр. 461–475. дои : 10.1109/СП.2012.34 . ISBN 978-1-4673-1244-8 .
- Альмишари, Мишари; Огуз, Экин; Цудик, Джин (2014). «Борьба с связыванием авторства с помощью краудсорсинга». Материалы второй конференции ACM по социальным сетям онлайн — COSN '14 . стр. 69–82. arXiv : 1405.4918 . дои : 10.1145/2660460.2660486 . ISBN 9781450331982 . S2CID 7741036 .
- Бевендорф, Янек; Поттаст, Мартин; Хаген, Матиас; Штейн, Бенно (2019). «Эвристическое запутывание авторства». Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики . стр. 1098–1108. дои : 10.18653/v1/P19-1104 .
- Бреннан, Майкл; Афроз, Садия; Гринштадт, Рэйчел (2012). «Состязательная стилометрия: обход признания авторства для сохранения конфиденциальности и анонимности» (PDF) . Транзакции ACM по информационной и системной безопасности . 15 (3): 1–22. дои : 10.1145/2382448.2382450 . S2CID 16176436 .
- Бреннан, Майкл Роберт; Гринштадт, Рэйчел (2009). Практические меры против методов признания авторства . Инновационные применения искусственного интеллекта.
- Кастро-Кастро, Даниэль; Ортега Буэно, Рейнье; Муньос, Рафаэль (2017). «Маскировка автора путем преобразования предложений — блокнот для PAN на выставке CLEF 2017» (PDF) . Оценочные лаборатории и семинар CLEF 2017 – Рабочие заметки, 11–14 сентября, Дублин, Ирландия . ISSN 1613-0073 .
- Эммери, Крис; Кадар, Акос; Хрупала, Гжегож (2021). «Состязательная стилометрия в дикой природе: атаки переносимой лексической замены на профилирование авторов». Материалы 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . стр. 2388–2402. arXiv : 2101.11310 . doi : 10.18653/v1/2021.eacl-main.203 . S2CID 231719026 .
- Грёндаль, Томми; Асокан, Н. (2020a). «Анализ текста в состязательных условиях: оставляет ли обман стилистический след?». Обзоры вычислительной техники ACM . 52 (3): 1–36. arXiv : 1902.08939 . дои : 10.1145/3310331 . S2CID 67856540 .
- Грёндаль, Томми; Асокан, Н. (2020b). «Эффективная имитация стиля письма посредством комбинаторного перефразирования» . arXiv : 1905.13464 . дои : 10.2478/popets-2020-0068 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Харун, Мухаммед; Заффар, Фарид; Шринивасан, Падмини; Шафик, Зубайр (2021). «Ансамбль Мстителей! Улучшение переносимости запутывания авторства». arXiv : 2109.07028 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Юола, Патрик ; Вескови, Даррен (2011). «Анализ стилиметрических подходов к обфускации автора». Достижения в области цифровой криминалистики VII . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 361. С. 115–125. дои : 10.1007/978-3-642-24212-0_9 . ISBN 978-3-642-24211-3 .
- Юола, Патрик (апрель 2012 г.). «Обнаружение стилистического обмана» . Материалы семинара по вычислительным подходам к обнаружению обмана . стр. 91–96.
- Качмарчик, Гэри; Гамон, Майкл (17 июля 2006 г.). «Запутывание стилометрии документа для сохранения анонимности автора» . Материалы стендовых докладов основной конференции COLING/ACL 2006 . стр. 444–451.
- Махмуд, Асад; Ахмад, Файзан; Шафик, Зубайр; Шринивасан, Падмини; Заффар, Фарид (2019). «У девушки нет имени: автоматическое запутывание авторства с помощью Mutant-X» . Труды по технологиям повышения конфиденциальности . 2019 (4): 54–71. дои : 10.2478/popets-2019-0058 . S2CID 197621394 .
- Махмуд, Асад; Шафик, Зубайр; Шринивасан, Падмини (2020). «У девушки есть имя: обнаружение запутывания авторства». Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики . стр. 2235–2245. arXiv : 2005.00702 . doi : 10.18653/v1/2020.acl-main.203 . S2CID 218486757 .
- Макдональд, Эндрю В.Е.; Афроз, Садия; Калискан, Айлин; Столерман, Ариэль; Гринштадт, Рэйчел (2012). «Используйте меньше букв «i»: на пути к анонимизации стиля письма» (PDF) . Технологии повышения конфиденциальности . Конспекты лекций по информатике . Том. 7384. стр. 299–318. дои : 10.1007/978-3-642-31680-7_16 . ISBN 978-3-642-31679-1 . S2CID 15715170 .
- Мирешгаллах, Фатемехсадат; Берг-Киркпатрик, Тейлор (2021). «Объединение стилей: автоматическое запутывание стилей текста для повышения справедливости классификации». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . стр. 2009–2022 гг. arXiv : 2109.04624 . doi : 10.18653/v1/2021.emnlp-main.152 .
- Нарайанан, Арвинд; Пасков, Христо; Гонг, Нил Чжэньцян; Бетанкур, Джон; Стефанов, Эмиль; Шин, Юи Чул Ричард; Песня, Рассвет (2012). «О возможности идентификации авторов в масштабах Интернета». Симпозиум IEEE 2012 по безопасности и конфиденциальности . стр. 300–314. дои : 10.1109/СП.2012.46 . ISBN 978-1-4673-1244-8 . S2CID 6733582 .
- Нил, Темпестт; Сундарараджан, Калаивани; Фатима, Аниз; Ян, Имин; Сян, Инфэй; Вудард, Дэймон (2018). «Обзор методов и приложений стилометрии». Обзоры вычислительной техники ACM . 50 (6): 1–36. дои : 10.1145/3132039 . S2CID 21360798 .
- Поттаст, Мартин; Хаген, Матиас; Штейн, Бенно (2016). Запутывание автора: атака на современное состояние проверки авторства (PDF) . Конференция и лаборатории Оценочного форума.
- Рао, Джосюла Р.; Рохатги, Панкадж (2000). Может ли псевдоним действительно гарантировать конфиденциальность? . Симпозиум по безопасности USENIX.
- Саеди, Чакаве; Драс, Марк (декабрь 2020 г.). «Крупномасштабное запутывание автора с использованием сиамского вариационного автокодировщика: система SiamAO» . Материалы девятой совместной конференции по лексической и вычислительной семантике . стр. 179–189.
- Шетти, Ракшит; Шиле, Бернт; Фриц, Марио (2018). «A4NT: Анонимность атрибутов автора посредством состязательного обучения нейронного машинного перевода» . Материалы 27-го симпозиума по безопасности USENIX . ISBN 978-1-939133-04-5 .
- Ученду, Адаку; Ле, тайский; Ли, Донвон (2022). «Атрибуция и запутывание авторства нейронного текста: перспектива интеллектуального анализа данных». arXiv : 2210.10488 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Ван, Хайнин; Юола, Патрик ; Ридделл, Аллен (2022). «Воспроизведение и репликация эксперимента по состязательной стилометрии». arXiv : 2208.07395 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Сюй, Цюнкай; Цюй, Личжэнь; Сюй, Чэньчэнь; Цуй, Ран (2019). «Переписывание текста с учетом конфиденциальности». Материалы 12-й Международной конференции по генерации естественного языка . стр. 247–257. дои : 10.18653/v1/W19-8633 .
- Чжай, Ваньюэ; Русерт, Джонатан; Шафик, Зубайр; Шринивасан, Падмини (2022). «У девушки есть имя, и это… состязательное указание авторства для деобфускации». Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . стр. 7372–7384. arXiv : 2203.11849 . doi : 10.18653/v1/2022.acl-long.509 . S2CID 248780012 .