Профилирование автора

Авторское профилирование — это анализ заданного набора текстов с целью выявить различные характеристики автора по стилистическим и содержательным особенностям или идентифицировать автора. Анализируемые характеристики обычно включают возраст и пол , хотя в более поздних исследованиях рассматривались и другие характеристики, такие как черты личности и род занятий. ^[1]

Профилирование авторов является одной из трех основных областей автоматической идентификации авторства (AAI), двумя другими являются установление авторства и идентификация авторства. Процесс ААИ возник в конце 19 века. Томас Корвин Менденхолл , американский физик- самоучка и метеоролог , был первым, кто применил этот процесс к работам Фрэнсиса Бэкона , Уильяма Шекспира и Кристофера Марлоу . Из этих трех исторических фигур Менденхолл стремился выявить их количественные стилистические различия, проверяя длину слов. ^[2]

Несмотря на значительный прогресс, достигнутый в XXI веке, задача профилирования авторов остается нерешенной проблемой из-за своей сложности.

Техники

Посредством анализа текстов можно применять различные методы профилирования авторов для прогнозирования информации об авторе. Например, можно использовать служебные слова, а также анализ частей речи, чтобы определить пол автора и истинность текста. ^[3]

Процесс составления профиля автора обычно включает в себя следующие этапы: ^[4]

Определение конкретных особенностей, которые необходимо извлечь из текста.
Создание принятого стандартного представления (например, модели «Мешок слов» ) для целевого профиля.
Построение модели классификации с использованием стандартного классификатора (например, Support Vector Machines ) для целевого профиля

Алгоритмы машинного обучения для профилирования авторов со временем становятся все более сложными. Алгоритмы, используемые при профилировании авторов, включают:

Машины опорных векторов ^[5]
Наивные классификаторы Байеса ^[5]
Сети глубокого усреднения, ^[6] много слоев в цикле машинного обучения, который использует встраивание слов в текст ^[7]
Длинная кратковременная память ^[8]

В прошлом профилирование авторов ограничивалось физическими документами, часто в форме книг и газетных статей . С помощью авторского профилирования были выявлены и проанализированы различные сочетания текстовых признаков, принадлежащих авторам, включая лексические и синтаксические особенности. ^[4] Новаторские исследования в области профилирования авторов были сосредоточены в основном на одном жанре, пока не произошел сдвиг в сторону профилирования авторов в социальных сетях и Интернете. ^[9] Хотя атрибуты, такие как слова контента и POS-теги , эффективны при прогнозировании профиля автора в физических документах, их эффективность при прогнозировании профиля автора в цифровых текстах является субъективной и зависит от типа анализируемого онлайн-контента. ^[4]

С развитием технологий профилирование авторов в Интернете становится все более распространенным. цифровые тексты, такие как публикации в социальных сетях, блогах и электронные письма . Сейчас используются ^[4] Это побудило к активизации исследовательских усилий из-за преимуществ, которые анализ цифровых текстов может принести таким секторам, как маркетинг и бизнес. ^[8] Профилирование авторов цифровых текстов также позволило спрогнозировать более широкий спектр характеристик автора, таких как личность, ^[8] доход и род деятельности. ^[10]

Наиболее эффективные признаки профилирования авторов цифровых текстов включают сочетание стилистических и содержательных особенностей. ^[4] Профилирование авторов цифровых текстов фокусируется на межжанровом профилировании авторов, при котором один жанр используется для обучения данных, а другой жанр используется для тестирования данных, хотя для получения хороших результатов оба жанра должны быть относительно схожими. ^[9]

Есть некоторые проблемы ^[4] при выполнении методов авторского профилирования онлайн-текстов. Эти проблемы включают в себя:

Широкий разброс по длине используемых текстов.
Классовый дисбаланс в данных

Профилирование авторов и Интернет

Развитие Интернета в 20–21 веках катализировало рост исследований по профилированию авторов, поскольку данные можно было получать из Интернета, включая платформы социальных сетей, электронную почту и блоги. Контент из Интернета был проанализирован в задачах профилирования авторов для определения возраста, пола, географического происхождения, национальности и психометрических особенностей веб-пользователей. Полученная информация использовалась для различных приложений, включая маркетинг и судебную экспертизу .

Социальные сети

Растущая интеграция социальных сетей в повседневную жизнь людей сделала их богатым источником текстовых данных для составления профилей авторов. Это происходит главным образом потому, что пользователи часто загружают и делятся контентом для различных целей, включая самовыражение, общение и личный бизнес. Социальный бот также является частой функцией платформ социальных сетей, особенно Twitter, генерируя контент, который можно проанализировать для профилирования автора. ^[11] Хотя разные платформы содержат схожие данные, они также могут содержать разные функции в зависимости от формата и структуры конкретной платформы.

По-прежнему существуют ограничения в использовании социальных сетей в качестве источников данных для профилирования авторов, поскольку полученные данные не всегда могут быть надежными и точными. Пользователи иногда предоставляют о себе ложную информацию или скрывают информацию. ^[12] В результате обучение алгоритмов профилирования авторов может быть затруднено из-за менее точных данных. Еще одним ограничением является нерегулярность текста в социальных сетях. К особенностям нарушений относятся отклонения от обычных лингвистических стандартов, такие как орфографические ошибки, нестандартная транслитерация, например, с заменой букв цифрами, сокращения, созданные пользователем сокращения для фраз и т. д., что может затруднить составление профиля автора. ^[13] Исследователи внедрили методы преодоления этих ограничений при обучении своих алгоритмов профилирования авторов. ^[13]

Фейсбук

Facebook полезен для исследований по составлению профилей авторов в качестве службы социальной сети . Это связано с тем, как социальная сеть может быть построена, расширена и использована для социальных действий на сайте. ^[14] В таких процессах пользователи делятся личным контентом, который может быть использован для изучения профиля автора. Текстовые данные получаются из Facebook для профилирования авторов на основе личных сообщений пользователя, таких как «обновления статуса». ^[15] Они приобретаются для создания корпуса на выбранных языках для профилирования авторов, для создания двуязычной или многоязычной базы данных содержательных слов, ^[15]^[16] который затем может быть использован для профилирования авторов.

В контексте Facebook профилирование авторов в основном включает текстовые данные на английском языке, но также использует неанглийские языки, в том числе: романский урду , арабский , бразильский португальский , испанский. ^[16]^[11] В то время как исследования по профилированию авторов в Facebook в основном проводились для идентификации пола и возрастной группы, были попытки получить атрибуты, позволяющие предсказать религиозность , ИТ-подготовку пользователей и даже базовые эмоции (по определению Пола Экмана ) среди других. ^[15]^[17]

Вейбо

Sina Weibo — одна из немногих азиатских социальных сетей, содержащих тексты на азиатских языках, которые были проанализированы для составления профиля автора. Основной контент, на который обращают внимание при профилировании авторов на Weibo, включает классические китайские иероглифы, хэштеги , смайлы , каомодзи, однородную пунктуацию , латинские последовательности (из-за многоязычия текста) и даже поэтические форматы. Для профилирования авторов также отслеживаются особенно популярные китайские выражения, теги POS и типы слов. ^[18]

Для профилирования авторов контента Weibo требуются алгоритмы, отличные от тех, которые используются для других платформ социальных сетей, главным образом из-за лингвистических различий между китайским и западным языками. Например, китайские эмоции включают китайские иероглифы, описывающие жест или выражение лица в скобках, например: [哈哈] «смех», [泪] «слезы», [偷笑] «хихикать», [爱你] «любовь». , [心] 'сердце'. ^[18] Это отличается от использования символов пунктуации для смайликов в западных языках или от обычного использования смайлов Unicode на других платформах, таких как Facebook, Instagram и т. д. Кроме того, хотя существует около 161 западного смайлика, в материковом Китае для веб-контента, как, например, в Weibo, регулярно используется около 2900 смайлов. ^[19] Чтобы устранить эти различия, алгоритмы профилирования авторов были обучены на китайских смайликах и лингвистических особенностях. Например, алгоритмы профилирования авторов были разработаны для обнаружения китайских стилистических выражений, выражающих формальность и настроения , вместо алгоритмов, обнаруживающих лингвистические особенности английского языка, такие как заглавные буквы. ^[19]

По сравнению с другими, более популярными, глобальными платформами, тексты на Weibo не так часто используются для составления профиля автора. Вероятно, это связано с централизацией Weibo среди китайского населения материкового Китая, что ограничивает его использование преимущественно гражданами Китая. В исследованиях, проведенных для этой платформы, использовались боты и алгоритмы машинного обучения для определения возраста и пола авторов. Данные собираются из сообщений в микроблогах Weibo желающих участников для анализа и используются для обучения алгоритмов, которые создают концептуальные профили пользователей с определенной точностью. ^[18]

Журналы чата

Журналы чатов были изучены для составления профилей авторов, поскольку они содержат много текстового дискурса , анализ которого способствовал прикладным исследованиям, включая социальные тенденции и судебно-медицинскую экспертизу . Источниками данных для профилирования авторов из журналов чатов являются такие платформы, как Yahoo! , AIM (программное обеспечение) и WhatsApp . ^[20] Вычислительные системы были разработаны для создания концептуальных профилей, в которых перечислены темы чата, обсуждаемые в одном чате или независимыми пользователями. ^[21]

Блоги

Профилирование авторов можно использовать для определения характеристик авторов блогов, таких как их возраст, пол и географическое положение , на основе их различных стилей письма. ^[22] Это особенно полезно, когда речь идет об анонимных блогах . Для выявления характеристик автора анализируются выбор содержательных слов, стилевые особенности и тематические особенности. ^[23]

В целом, особенности, которые часто встречаются в блогах, включают большое количество глаголов в тексте и относительно частое использование местоимений . Частота глаголов, местоимений и других классов слов используется для профиля и классификации эмоций в произведениях авторов, а также их пола и возраста. ^[24] Профилирование авторов с использованием моделей классификации, которые использовались в физических документах в прошлом, таких как машины опорных векторов, также тестировалось в блогах. Однако было доказано, что для последнего он непригоден из-за своей низкой производительности. ^[22]

Алгоритмы машинного обучения, которые хорошо работают для профилирования авторов в блогах ^[22] включать:

Электронная почта

Электронная почта всегда была в центре внимания при профилировании авторов из-за большого количества текстовых данных, которые можно найти в различных разделах типичной платформы электронной почты. Эти разделы включают папки «Отправленные», «Входящие», «Спам», «Корзина» и «Архив». ^[25] Многоязычные подходы к профилированию авторов электронных писем включают, среди прочего, электронные письма на английском, испанском и арабском языках в качестве источников данных. ^[25]^[12] Посредством профилирования авторов можно идентифицировать такие сведения о пользователях электронной почты, как их возраст, пол, географическое происхождение, уровень образования, национальность и даже психометрические характеристики личности, которые включают невротизм , доброжелательность , добросовестность , экстраверсию и интроверсию из личностей «Большой пятерки». черты . ^{[ нужна ссылка ]}

При профилировании авторов электронной почты контент обрабатывается на предмет важных текстовых данных, в то время как неважные функции, такие как метаданные и другие избыточные элементы языка гипертекстовой разметки (HTML), исключаются. В анализ также включены важные части многоцелевых расширений Интернет-почты (MIME), содержащие содержимое электронных писем. Полученные данные часто разбираются на различные разделы контента, включая текст автора, текст подписи, рекламу, цитируемый текст и строки ответа. ^[25] Дальнейший анализ текстового контента электронной почты в задачах профилирования авторов включает в себя извлечение тона голоса, настроения , семантики и других лингвистических особенностей, подлежащих обработке.

Приложения

Профилирование автора находит применение в различных областях, где необходимо определить конкретные характеристики автора текста, причем все большее значение приобретают такие области, как криминалистика и маркетинг. ^[26] В зависимости от применения задача профилирования авторов может различаться по характеристикам, которые необходимо выявить, количеству изученных авторов и количеству текстов, доступных для анализа.

Хотя его применение традиционно ограничивалось письменными текстами, например литературными произведениями, с развитием компьютеров и Интернета оно распространилось и на онлайн-тексты.

Судебная лингвистика

В контексте судебной лингвистики профилирование авторов используется для выявления характеристик автора анонимного, псевдонимного или поддельного текста на основе использования автором языка. С помощью лингвистического анализа судебные лингвисты стремятся определить мотивацию и идеологию подозреваемого, а также другие классовые особенности, такие как этническая принадлежность или профессия подозреваемого. Хотя это не всегда приводит к точной идентификации автора, такая информация может помочь правоохранительным органам сузить круг подозреваемых. ^[27]

В большинстве случаев профилирование авторов в контексте судебной лингвистики включает в себя одну текстовую проблему, в которой либо нет, либо мало доступных текстов для сравнения и нет внешних доказательств, указывающих на автора. ^[28] Примеры текста, проанализированного судебными лингвистами, включают письма с шантажом, признания , завещания , предсмертные письма и плагиат. ^[29] Это также распространилось на онлайн-тексты, такие как откровенно сексуальные записи онлайн-чатов между мужчинами среднего возраста и несовершеннолетними девочками. ^[28] с ростом количества киберпреступлений, совершаемых в Интернете. ^[30]

Одним из самых ранних и наиболее известных примеров использования профилирования авторов является случай Роджера Шуя , которого попросили изучить записку о выкупе, связанную с пресловутым случаем похищения людей в 1979 году. На основе своего анализа идиолекта похитителя Шуй смог определить важные элементы личности похитителя по его орфографическим ошибкам и диалекту , то есть похититель был хорошо образован и родился в Акроне, штат Огайо . ^[31] В конечном итоге это привело к успешному аресту и признанию подозреваемого.

Однако существуют критические замечания по поводу того, что методы профилирования авторов не обладают объективностью, поскольку эти методы полагаются на субъективную идентификацию судебным лингвистом важнейших социолингвистических маркеров. Эти методы, например методы, принятые литературным критиком Дональдом Уэйном Фостером , считаются спекулятивными и полностью основаны на субъективном опыте, и поэтому не могут быть проверены эмпирически . ^[32]

Обнаружение ботов

Профилирование авторов применяется для идентификации социальных ботов, наиболее распространенными из которых являются боты Twitter . Социальные боты рассматривались как угроза, учитывая их коммерческое, политическое и идеологическое влияние, например, президентские выборы в США в 2016 году , во время которых они поляризовали политические разговоры и распространяли дезинформацию и непроверенную информацию. В контексте маркетинга социальные боты могут искусственно раздувать популярность продукта, публикуя положительные отзывы, и подрывать репутацию конкурентных продуктов неблагоприятными отзывами. ^[33] Таким образом, обнаружение ботов с точки зрения профилирования авторов является задачей первостепенной важности. ^[33]^[34]

Боты, выглядящие как человеческие учетные записи, в основном можно идентифицировать по информации в их профилях, такой как имя пользователя, фотография профиля и время публикации. ^[34] Однако задача идентификации ботов исключительно по текстовым данным (т.е. без метаданных) значительно сложнее и требует методов профилирования авторов. ^[34] Обычно это включает в себя задачу классификации, основанную на семантических и синтаксических особенностях. ^[35]^[36]

Задача ботов и гендерного профилирования была одной из четырех общих задач, организованных PAN, которая организует серию научных мероприятий и общих задач по криминалистике и стилометрии цифрового текста, в выпуске 2019 года. ^[33] Участвующие команды добились больших успехов: лучшие результаты по обнаружению ботов в твитах на английском и испанском языках составили 95,95% и 93,33% соответственно. ^[35]

Маркетинг

Профилирование авторов также полезно с точки зрения маркетинга, поскольку оно позволяет предприятиям определять демографические данные людей, которым нравятся или не нравятся их продукты, на основе анализа блогов, онлайн-обзоров продуктов и контента социальных сетей. ^[26] Это важно, поскольку большинство людей публикуют свои отзывы о продуктах анонимно. Методы профилирования авторов помогают бизнес-экспертам принимать более обоснованные стратегические решения на основе демографических данных их целевой группы. ^[37] Кроме того, компании могут ориентировать свои маркетинговые кампании на группы потребителей, которые соответствуют демографическим характеристикам и профилю текущих клиентов. ^[38]

Идентификация автора и отслеживание влияния

Методы профилирования авторов используются для изучения традиционных средств массовой информации и литературы для определения стиля письма различных авторов, а также тем их написанного содержания. Профилирование авторов литературы также проводится для определения социальных сетей авторов и их литературного влияния на основе их библиографических записей о соавторстве. В случае анонимных или псевдоэпиграфических произведений иногда этот метод использовался, чтобы попытаться идентифицировать автора или авторов или определить, какие произведения были написаны одним и тем же человеком.

Некоторые примеры исследований по профилированию авторов литературы и традиционных средств массовой информации включают исследования по следующим вопросам: ^[39]^[40]

Библия (см. Авторство Библии )
Евангелия Нового Завета
произведения Шекспира ^[41]
Документы федералиста в 1990-х и 1960-х годах
Авторские исследования литовских литературных текстов ^[40]
Основные цвета , роман 1996 года, автор которого какое-то время был анонимным.
Предупреждение , политическая книга 2019 года, автор которой какое-то время оставался анонимным.

Каталогизация библиотеки

Другое применение профилирования авторов — разработка стратегий каталогизации библиотечных ресурсов на основе стандартных атрибутов. ^[42] При таком подходе методы профилирования авторов могут повысить эффективность библиотечной каталогизации авторов , при которой библиотечные ресурсы автоматически классифицируются на основе библиографических записей . Это было серьезной проблемой в начале XXI века, когда большая часть библиотечной каталогизации все еще выполнялась вручную.

Используя профилирование авторов для каталогизации библиотек, исследователи использовали машинное обучение для автоматических процессов в библиотеке, таких как алгоритмы машины опорных векторов (SVM). С использованием SVM для профилирования авторов библиографические записи авторов в существующих базах данных можно идентифицировать, отслеживать и обновлять для идентификации автора на основе его тем литературного содержания и опыта , как указано в его или ее библиографических записях. В этом случае при профилировании авторов используются социальные структуры авторов, которые могут быть получены на основе физических копий опубликованных средств массовой информации, для каталогизации библиотечных ресурсов. ^[42]

В популярной культуре

Профилирование авторов широко распространено в популярной культуре. 2017 года Discovery Channel Мини-сериал «Охота: Унабомбер» представляет собой художественный рассказ о расследовании ФБР вокруг Унабомбера . В нем рассказывается о криминальном профилировщике, который определяет определяющие характеристики личности Унабомбера на основе своего анализа идиолекта Унабомбера в его опубликованном манифесте и письмах. Шоу подчеркнуло важность составления портретов авторов в криминальной криминалистике, поскольку это имело решающее значение для поимки настоящего преступника Унабомбера в 1996 году. ^[43]

См. также

Похожие темы

Ссылки

^ Вигманн, М., Штейн, Б. и Поттаст, М. (2019). « Обзор задачи по составлению профиля знаменитостей на PAN 2019 » . CLEF .
^ Микрос, Г.К., и Перифанос, К. (2013). « Атрибуция авторства в греческих твитах с использованием многоуровневых n-граммных профилей автора » . Серия весенних симпозиумов AAAI 2013 г.
^ Коппель М., Аргамон С. и Шимони А.Р. (2013). « Автоматическая классификация письменных текстов по полу автора ». Литературная и лингвистическая информатика, 17 , стр. 401–412.
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Лопес-Монрой, А.П., Монтес-и-Гомес, М., Эскаланте, Х.Дж., Вильясеньор-Пинеда, Л. и Стамататос, Э. (2015). «Дискриминационные представления, специфичные для подпрофилей, для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134 – 147.
^ Перейти обратно: ^а ^б Лундеквист Э. и Свенссон М. (2017). «Профилирование авторов: подход машинного обучения к определению пола, возраста и родного языка пользователей в социальных сетях». В: Департамент информационных технологий.
^ Франко-Сальвадор М., Плотникова Н., Павар Н. и Бенаджиба Ю. (2017). «Сети глубокого усреднения на основе подслов для профилирования авторов в социальных сетях». КЛЕФ .
^ Курита, К. (2018). «Раздел статьи: объяснение глубокой неупорядоченной композиции, конкурирующей с синтаксическими методами классификации текста». Объяснение машинного обучения.
^ Перейти обратно: ^а ^б ^с Бси Б. и Зриги М. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.
^ Перейти обратно: ^а ^б Билан И. и Жекова Д. (2016). «CAPS: межжанровая система профилирования авторов». КЛЮЧ.
^ Шлер Дж., Коппель М., Аргамон С. и Пеннебейкер Дж.В. (2005). «Влияние возраста и пола на ведение блога». Весенний симпозиум AAAI: Вычислительные подходы к анализу блогов.
^ Перейти обратно: ^а ^б Рангел Ф. и Руссо П. (2019). « Обзор 7-го задания по профилированию авторов на PAN 2019: Боты и гендерное профилирование в Твиттере » . CLEF.
^ Перейти обратно: ^а ^б Россо П., Ранхель Ф., Фариас И.Х., Каньина Л., Загуани В. и Чарфи А. (2018). « Опрос по профилированию авторов, обману и обнаружению иронии арабского языка». « Компас языка и лингвистики», 12 (4).
^ Перейти обратно: ^а ^б Гомес-Адорно Х., Марков И., Сидоров Г., Посадас-Дюран Ж.-П., Санчес-Перес М.А. и Чанона-Эрнандес Л. (2016). «Улучшение представления функций на основе нейронной сети для профилирования авторов в текстах социальных сетей» . В: Вычислительный интеллект и нейронаука , стр. 1–13.
^ Дам, JWV и Фельден, МВД (2015). «Онлайн-профилирование и кластеризация пользователей Facebook» . В: Системы поддержки принятия решений, 70 , 60–72.
^ Перейти обратно: ^а ^б ^с Се, ФК, Сандрони, РФ, и Парабони, И. (2018). « Профиль автора от Facebook Corpora ». ЛРЭК.
^ Перейти обратно: ^а ^б Фатима М., Хасан К., Анвар С. и Наваб RMA (2017). «Многоязычный профиль автора на Facebook» . В: Обработка информации и управление, 53 (4) , 886–904.
^ Рангель Ф. и Россо П. (2013). « Использование языка и составление профиля автора: определение пола и возраста » .
^ Перейти обратно: ^а ^б ^с Чжан В., Кейнс А., Аликаниотис Д. и Баттери П. (2015). «Предсказание возраста автора по сообщениям в микроблогах Weibo». ЛРЭК.
^ Перейти обратно: ^а ^б Чен Л., Цянь Т., Ван Ф., Ю З., Пэн К. и Чжун М. (2015). « Определение возраста китайских пользователей в Weibo ». ВАИМ 2015, LNCS 9098 , 83–95.
^ Лин, Дж. (2007). « Автоматическое профилирование авторов журналов онлайн-чатов »
^ Бенгель Дж., Гауч С., Миттур Э., Виджаярагаван Р. (2004) ChatTrack: « Обнаружение тем чата с использованием классификации ». В: Чен Х., Мур Р., Цзэн Д.Д., Ливитт Дж. (ред.) Информатика разведки и безопасности. ISI 2004. Конспекты лекций по информатике, 3073. Springer, Berlin, Heidelberg.
^ Перейти обратно: ^а ^б ^с Фам, Д.Д., Тран, ГБ, и Фам, С.Б. (2009). Профилирование авторов вьетнамских блогов. ^{[ мертвая ссылка ]} Международная конференция 2009 г. по обработке азиатских языков, 190–194.
^ Сантош К., Бансал Р., Шекхар М. и Варма В. (2013). Профилирование авторов: прогнозирование возраста и пола на основе блокнота блогов для PAN на выставке CLEF 2013. CLEF.
^ Рангель, Ф. и Россо, П. (2013). Использование языка и профилирование авторов: определение пола и возраста. Обработка естественного языка и когнитивная наука, 2013.
^ Перейти обратно: ^а ^б ^с Эстиваль Д., Гаустад Т., Фам С.Б., Рэдфорд В. и Хатчинсон Б. (2007). Профилирование авторов для электронных писем на английском языке .
^ Перейти обратно: ^а ^б Профиль автора 2018 . (без даты).
^ Фостер, Д. (2000). Автор неизвестен: По следам анонима . Генри Холт и компания
^ Перейти обратно: ^а ^б Грант, Т.Д. (2008). « Подход к вопросам судебной экспертизы авторства ». В Гиббонс, Дж. и Турелл, М.Т. (ред.). Размеры судебной лингвистики. Джон Бенджаминс.
^ Коце, EF (2010). « Идентификация автора с противоположных точек зрения в судебной лингвистике ». Южноафриканская лингвистика и прикладные языкознания . 28(2). 185–197
^ Ян, М. и Чоу, К.П. (2014) « Утверждение авторства в судебно-медицинских расследованиях с участием тысяч авторов ». В: Куппенс-Булахия Н., Куппенс Ф., Джаджодиа С., Абу Эль Калам А., Санс Т. (ред.) Безопасность и защита конфиденциальности систем ИКТ. SEC 2014. Достижения ИФИП в области информационных и коммуникационных технологий , том 428. Springer, Берлин, Гейдельберг.
^ Леонард, РА (2005). « Применение научных принципов языкового анализа к вопросам права ». Международный гуманитарный журнал. 3. 1–9
^ Часки, CE (2001). « Эмпирические оценки методов идентификации автора на основе языка ». Судебная лингвистика , 8, 1–65.
^ Перейти обратно: ^а ^б ^с « Боты и гендерное профилирование 2019 ». (без даты).
^ Перейти обратно: ^а ^б ^с Губен, Режис и Лефевр, Дориан и Альхамзе, Алаа и Митрович, Елена и Эдьед-Жигмонд, Эль и Фосси, Леопольд. (2019). « Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на выставке CLEF 2019 ».
^ Перейти обратно: ^а ^б Далеманс В. и др. (2019) « Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, междоменная атрибуция авторства и обнаружение изменения стиля ». В: Крестани Ф. и др. (ред.) Экспериментальный МО сочетает многоязычность, мультимодальность и взаимодействие. CLEF 2019. Конспекты лекций по информатике , том 11696. Springer, Cham.
^ Ковач Г., Балог В., Мехта П., Шридхар К., Алонсо П. и Ливицкий М. (2019). « Профилирование авторов с использованием семантических и синтаксических функций: блокнот для PAN на выставке CLEF 2019 ».
^ Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Саи Прасад К., Амарнатх Редди Э. (2019) « Новый подход к представлению документов для прогнозирования пола с использованием профилей авторов ». В: Бапи Р., Рао К., Прасад М. (редакторы) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в области интеллектуальных систем и вычислений , том 815. Спрингер, Сингапур.
^ Махарджан, Сурадж и Шреста, Праша и Солорио, Тамар и Хасан, Рагиб. (2014). « Простой подход к профилированию авторов в MapReduce ». ЛНКС (ЛНАИ).
^ Компания, JS, и Ваннер, Л. (2017). « О значимости синтаксических и дискурсивных особенностей для профилирования и идентификации авторов ». Материалы 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики , 2, 681–687.
^ Перейти обратно: ^а ^б Дзикене. Дж. К., Утка А. и Шаркуте Л. (2015). « Атрибуция авторства и авторское описание литовских литературных текстов », 96–105.
^ Леджер, Г. (1994). « Шекспир, Флетчер и два благородных родственника ». Литературная и лингвистическая информатика, 9 (3) , 235–247.
^ Перейти обратно: ^а ^б Номото, Т. (2009). « Классификация библиотечных каталогов по авторскому профилю ». В: Материалы 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска – SIGIR 09 .
↑ Дэвис, Д. (22 августа 2017 г.). « Профайлер ФБР говорит, что лингвистическая работа сыграла решающую роль в поимке Унабомбера ».

[1] Вигманн, М., Штейн, Б. и Поттаст, М. (2019). « Обзор задачи по составлению профиля знаменитостей на PAN 2019 » . CLEF .

[2] Микрос, Г.К., и Перифанос, К. (2013). « Атрибуция авторства в греческих твитах с использованием многоуровневых n-граммных профилей автора » . Серия весенних симпозиумов AAAI 2013 г.

[3] Коппель М., Аргамон С. и Шимони А.Р. (2013). « Автоматическая классификация письменных текстов по полу автора ». Литературная и лингвистическая информатика, 17 , стр. 401–412.

[doi.org-4] Перейти обратно: ^а ^б ^с ^д ^и ^ж Лопес-Монрой, А.П., Монтес-и-Гомес, М., Эскаланте, Х.Дж., Вильясеньор-Пинеда, Л. и Стамататос, Э. (2015). «Дискриминационные представления, специфичные для подпрофилей, для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134 – 147.

[pdfs.semanticscholar.org-5] Перейти обратно: ^а ^б Лундеквист Э. и Свенссон М. (2017). «Профилирование авторов: подход машинного обучения к определению пола, возраста и родного языка пользователей в социальных сетях». В: Департамент информационных технологий.

[6] Франко-Сальвадор М., Плотникова Н., Павар Н. и Бенаджиба Ю. (2017). «Сети глубокого усреднения на основе подслов для профилирования авторов в социальных сетях». КЛЕФ .

[7] Курита, К. (2018). «Раздел статьи: объяснение глубокой неупорядоченной композиции, конкурирующей с синтаксическими методами классификации текста». Объяснение машинного обучения.

[ibima.org-8] Перейти обратно: ^а ^б ^с Бси Б. и Зриги М. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.

[CAPS-9] Перейти обратно: ^а ^б Билан И. и Жекова Д. (2016). «CAPS: межжанровая система профилирования авторов». КЛЮЧ.

[10] Шлер Дж., Коппель М., Аргамон С. и Пеннебейкер Дж.В. (2005). «Влияние возраста и пола на ведение блога». Весенний симпозиум AAAI: Вычислительные подходы к анализу блогов.

[Rangel-11] Перейти обратно: ^а ^б Рангел Ф. и Руссо П. (2019). « Обзор 7-го задания по профилированию авторов на PAN 2019: Боты и гендерное профилирование в Твиттере » . CLEF.

[Rosso-12] Перейти обратно: ^а ^б Россо П., Ранхель Ф., Фариас И.Х., Каньина Л., Загуани В. и Чарфи А. (2018). « Опрос по профилированию авторов, обману и обнаружению иронии арабского языка». « Компас языка и лингвистики», 12 (4).

[Gómez-Adorno-13] Перейти обратно: ^а ^б Гомес-Адорно Х., Марков И., Сидоров Г., Посадас-Дюран Ж.-П., Санчес-Перес М.А. и Чанона-Эрнандес Л. (2016). «Улучшение представления функций на основе нейронной сети для профилирования авторов в текстах социальных сетей» . В: Вычислительный интеллект и нейронаука , стр. 1–13.

[14] Дам, JWV и Фельден, МВД (2015). «Онлайн-профилирование и кластеризация пользователей Facebook» . В: Системы поддержки принятия решений, 70 , 60–72.

[Hsieh_et_al-15] Перейти обратно: ^а ^б ^с Се, ФК, Сандрони, РФ, и Парабони, И. (2018). « Профиль автора от Facebook Corpora ». ЛРЭК.

[Fatima_et_al-16] Перейти обратно: ^а ^б Фатима М., Хасан К., Анвар С. и Наваб RMA (2017). «Многоязычный профиль автора на Facebook» . В: Обработка информации и управление, 53 (4) , 886–904.

[Rangel_&_Rosso-17] Рангель Ф. и Россо П. (2013). « Использование языка и составление профиля автора: определение пола и возраста » .

[Zhang-18] Перейти обратно: ^а ^б ^с Чжан В., Кейнс А., Аликаниотис Д. и Баттери П. (2015). «Предсказание возраста автора по сообщениям в микроблогах Weibo». ЛРЭК.

[Chen-19] Перейти обратно: ^а ^б Чен Л., Цянь Т., Ван Ф., Ю З., Пэн К. и Чжун М. (2015). « Определение возраста китайских пользователей в Weibo ». ВАИМ 2015, LNCS 9098 , 83–95.

[20] Лин, Дж. (2007). « Автоматическое профилирование авторов журналов онлайн-чатов »

[21] Бенгель Дж., Гауч С., Миттур Э., Виджаярагаван Р. (2004) ChatTrack: « Обнаружение тем чата с использованием классификации ». В: Чен Х., Мур Р., Цзэн Д.Д., Ливитт Дж. (ред.) Информатика разведки и безопасности. ISI 2004. Конспекты лекций по информатике, 3073. Springer, Berlin, Heidelberg.

[ieeexplore.ieee.org.remotexs.ntu.edu.sg-22] Перейти обратно: ^а ^б ^с Фам, Д.Д., Тран, ГБ, и Фам, С.Б. (2009). Профилирование авторов вьетнамских блогов. ^{[ мертвая ссылка ]} Международная конференция 2009 г. по обработке азиатских языков, 190–194.

[23] Сантош К., Бансал Р., Шекхар М. и Варма В. (2013). Профилирование авторов: прогнозирование возраста и пола на основе блокнота блогов для PAN на выставке CLEF 2013. CLEF.

[24] Рангель, Ф. и Россо, П. (2013). Использование языка и профилирование авторов: определение пола и возраста. Обработка естественного языка и когнитивная наука, 2013.

[Estival-25] Перейти обратно: ^а ^б ^с Эстиваль Д., Гаустад Т., Фам С.Б., Рэдфорд В. и Хатчинсон Б. (2007). Профилирование авторов для электронных писем на английском языке .

[pan.webis.de-26] Перейти обратно: ^а ^б Профиль автора 2018 . (без даты).

[27] Фостер, Д. (2000). Автор неизвестен: По следам анонима . Генри Холт и компания

[Grant_2008-28] Перейти обратно: ^а ^б Грант, Т.Д. (2008). « Подход к вопросам судебной экспертизы авторства ». В Гиббонс, Дж. и Турелл, М.Т. (ред.). Размеры судебной лингвистики. Джон Бенджаминс.

[29] Коце, EF (2010). « Идентификация автора с противоположных точек зрения в судебной лингвистике ». Южноафриканская лингвистика и прикладные языкознания . 28(2). 185–197

[30] Ян, М. и Чоу, К.П. (2014) « Утверждение авторства в судебно-медицинских расследованиях с участием тысяч авторов ». В: Куппенс-Булахия Н., Куппенс Ф., Джаджодиа С., Абу Эль Калам А., Санс Т. (ред.) Безопасность и защита конфиденциальности систем ИКТ. SEC 2014. Достижения ИФИП в области информационных и коммуникационных технологий , том 428. Springer, Берлин, Гейдельберг.

[31] Леонард, РА (2005). « Применение научных принципов языкового анализа к вопросам права ». Международный гуманитарный журнал. 3. 1–9

[32] Часки, CE (2001). « Эмпирические оценки методов идентификации автора на основе языка ». Судебная лингвистика , 8, 1–65.

[Bots_and_Gender_Profiling_2019-33] Перейти обратно: ^а ^б ^с « Боты и гендерное профилирование 2019 ». (без даты).

[Goubin_et_al_Notebook-34] Перейти обратно: ^а ^б ^с Губен, Режис и Лефевр, Дориан и Альхамзе, Алаа и Митрович, Елена и Эдьед-Жигмонд, Эль и Фосси, Леопольд. (2019). « Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на выставке CLEF 2019 ».

[Daelmans_2019-35] Перейти обратно: ^а ^б Далеманс В. и др. (2019) « Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, междоменная атрибуция авторства и обнаружение изменения стиля ». В: Крестани Ф. и др. (ред.) Экспериментальный МО сочетает многоязычность, мультимодальность и взаимодействие. CLEF 2019. Конспекты лекций по информатике , том 11696. Springer, Cham.

[36] Ковач Г., Балог В., Мехта П., Шридхар К., Алонсо П. и Ливицкий М. (2019). « Профилирование авторов с использованием семантических и синтаксических функций: блокнот для PAN на выставке CLEF 2019 ».

[37] Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Саи Прасад К., Амарнатх Редди Э. (2019) « Новый подход к представлению документов для прогнозирования пола с использованием профилей авторов ». В: Бапи Р., Рао К., Прасад М. (редакторы) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в области интеллектуальных систем и вычислений , том 815. Спрингер, Сингапур.

[38] Махарджан, Сурадж и Шреста, Праша и Солорио, Тамар и Хасан, Рагиб. (2014). « Простой подход к профилированию авторов в MapReduce ». ЛНКС (ЛНАИ).

[39] Компания, JS, и Ваннер, Л. (2017). « О значимости синтаксических и дискурсивных особенностей для профилирования и идентификации авторов ». Материалы 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики , 2, 681–687.

[Dzikiene_et._al-40] Перейти обратно: ^а ^б Дзикене. Дж. К., Утка А. и Шаркуте Л. (2015). « Атрибуция авторства и авторское описание литовских литературных текстов », 96–105.

[41] Леджер, Г. (1994). « Шекспир, Флетчер и два благородных родственника ». Литературная и лингвистическая информатика, 9 (3) , 235–247.

[Nomoto-42] Перейти обратно: ^а ^б Номото, Т. (2009). « Классификация библиотечных каталогов по авторскому профилю ». В: Материалы 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска – SIGIR 09 .

[43] Дэвис, Д. (22 августа 2017 г.). « Профайлер ФБР говорит, что лингвистическая работа сыграла решающую роль в поимке Унабомбера ».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]