Профилирование авторов - Author profiling

PSM V37 D594 Томас Корвин Менденхолл

Профилирование авторов представляет собой анализ данного набора текстов в попытке раскрыть различные характеристики автора на основе стилистических и содержательных особенностей. Анализируемые характеристики обычно включают: возраст и Пол, хотя в более поздних исследованиях рассматривались и другие характеристики, такие как личность черты характера и род занятий [1]

Профилирование авторов - одно из трех основных направлений автоматической идентификации авторства (AAI), двумя другими являются указание авторства и идентификация авторства. Процесс AAI возник в конце 19 века. Томас Корвин Менденхолл, американец самоучка физик и метеоролог, был первым, кто применил этот процесс к работам Френсис Бэкон, Уильям Шекспир, и Кристофер Марлоу. Из этих трех исторических фигур Менденхолл стремился выявить их количественные стилистические различия, исследуя длину слов. [2]

Хотя в 21 веке был достигнут значительный прогресс, задача профилирования авторов остается нерешенной проблемой из-за своей сложности.

Методы

На основе анализа текстов можно применять различные методы профилирования авторов для прогнозирования информации об авторе. Например, служебные слова, а также анализ части речи могут быть использованы для определения пола автора и истинности текста.[3]

Процесс профилирования авторов обычно включает следующие этапы:[4]

  1. Определение конкретных функций, которые нужно извлечь из текста
  2. Создание принятого стандартного представления (например,Модель Bag-of-Words ) для целевого профиля
  3. Построение модели классификации с использованием стандартного классификатора (например, Машины опорных векторов ) для целевого профиля

Алгоритмы машинного обучения профилирование авторов со временем становится все более сложным. Алгоритмы, используемые при профилировании авторов, включают:

В прошлом профилирование авторов ограничивалось физическими документами, часто в форме книги и газетные статьи. Различные комбинации текстовых атрибутов, принадлежащих авторам, были идентифицированы и проанализированы с использованием профилирования авторов, включая лексический и синтаксический Особенности.[4] Новаторские исследования в области профилирования авторов были сосредоточены в основном на одном жанре, пока не произошел сдвиг в сторону профилирования авторов. социальные сети и Интернет.[9] Хотя атрибуты, такие как содержательные слова и POS-теги, эффективны при прогнозировании профиля автора на физических документах, их эффективность при прогнозировании профиля автора на цифровых текстах субъективна и зависит от типа анализируемого онлайн-контента.[4]

С развитием технологий профилирование авторов в Интернете становится все более распространенным явлением. Цифровые тексты, например сообщения в социальных сетях, блог сообщения и электронные письма, сейчас используются.[4] Это вызвало большие исследовательские усилия, поскольку анализ цифровых текстов может дать такие преимущества, как маркетинг и бизнес.[8] Профилирование авторов цифровых текстов также позволило прогнозировать более широкий спектр характеристик автора, таких как личность,[8] доход и род занятий.[10]

Наиболее эффективные атрибуты для профилирования авторов цифровых текстов включают сочетание стилистический и особенности содержания.[4] Профилирование авторов цифровых текстов сосредоточено на межжанровом профилировании авторов, при котором один жанр используется для обучающих данных, а другой - для тестирования данных, хотя оба должны быть относительно схожими для получения хороших результатов.[9]

Есть некоторые проблемы[4] при выполнении техник профилирования авторов в онлайн-текстах. Эти проблемы включают:

  • Широкий выбор длины используемых текстов
  • Классовый дисбаланс в данных

Профилирование авторов и Интернет

Рост Интернета в 20–21 веках стал катализатором роста исследований профилей авторов, поскольку данные можно было добывать из Интернета, включая платформы социальных сетей, электронную почту и блоги. Контент из Интернета был проанализирован в задачах профилирования авторов для определения возраста, пола, географического происхождения, национальности и психометрических характеристик пользователей сети. Полученная информация использовалась для обслуживания различных приложений, в том числе маркетинг и криминалистика.

Социальные сети

Растущая интеграция социальных сетей в повседневную жизнь людей сделала их богатым источником текстовых данных для профилирования авторов. Это происходит главным образом потому, что пользователи часто загружают и обмениваются контентом для различных целей, включая самовыражение, общение и личный бизнес. В Социальный бот также часто встречается на платформах социальных сетей, особенно Twitter, генерируя контент, который можно анализировать для профилирования автора.[11] Хотя разные платформы содержат похожие данные, они также могут содержать разные функции в зависимости от формата и структуры конкретной платформы.

По-прежнему существуют ограничения в использовании социальных сетей в качестве источников данных для профилирования авторов, поскольку полученные данные не всегда могут быть надежными или точными. Пользователи иногда предоставляют ложную информацию о себе или скрывают информацию.[12] В результате обучению алгоритмов профилирования авторов могут препятствовать менее точные данные. Еще одно ограничение - нерегулярность текста в социальных сетях. Особенности неправильности включают отклонение от нормальных лингвистических стандартов, таких как орфографические ошибки, нестандартная транслитерация, например, с заменой букв цифрами, сокращениями, пользовательскими сокращениями для фраз и т. Д., Что может создать проблему для профилирования авторов.[13] Исследователи использовали методы для преодоления этих ограничений при обучении своих алгоритмов профилирования авторов.[13]

Facebook

Facebook полезно для профилирования авторов в качестве социальная сеть. Это из-за того, как социальная сеть могут быть построены, расширены и использованы для социальных действий на сайте.[14] В таких процессах пользователи обмениваются личным контентом, который может использоваться для профилирования авторов. Текстовые данные получаются из Facebook для профилирования авторов из личных сообщений пользователя, таких как «обновления статуса».[15] Они приобретаются для создания корпуса на выбранном языке (ах) для профилирования авторов, для создания двуязычной или многоязычной базы данных слов содержания,[15][16] которые затем можно использовать для профилирования авторов.

В контексте Facebook профилирование авторов в основном включает английский текстовые данные, но также используются неанглийские языки, в том числе: Римский урду, арабский, бразильский португальский, испанский.[16][11] В то время как исследования профилей авторов в Facebook были преимущественно для определения пола и возрастной группы, были попытки получить атрибуты для прогнозирования религиозность, ИТ-опыт пользователей и даже основные эмоции (согласно определению Пол Экман ) среди других.[15][17]

Weibo

Сина Weibo один из немногих Азиатский платформы социальных сетей, содержащие тексты на азиатских языках, которые должны быть проанализированы для профилирования авторов. Основное внимание для профилирования авторов контента Weibo включает классические Китайский символы, хэштеги, смайлики, каомодзи, однородный пунктуация, латинский последовательности (из-за многоязычия текста) и даже поэтические форматы. Особо популярные китайские выражения, теги POS и типы слов также отслеживаются для профилирования авторов.[18]

Профилирование авторов контента Weibo требует алгоритмов, отличных от алгоритмов, используемых для других платформ социальных сетей, в основном из-за лингвистических различий между Мандаринский китайский и западные языки. Например, китайские эмоции включают китайские иероглифы, описывающие жест или выражение лица в скобках, например: [哈哈] «смех», [泪] «слезы», [偷笑] «хихиканье», [爱 你] «любовь», [心] «сердце».[18] Это отличается от использования знаков препинания для смайлов на западных языках или от обычного использования смайликов Unicode на других платформах, таких как Facebook, Instagram и так далее. Кроме того, хотя существует около 161 смайлика западного происхождения, в материковом Китае, как и в Weibo, регулярно используется около 2900 смайлов для веб-контента.[19] Чтобы устранить эти различия, алгоритмы профилирования авторов были обучены на китайских смайликах и лингвистических особенностях. Например, алгоритмы профилирования авторов были разработаны для выявления китайских стилистических выражений, выражающих формальность и настроение, вместо алгоритмов, определяющих лингвистические особенности английского языка, такие как заглавные буквы.[19]

По сравнению с другими, более популярными, глобализированными платформами, тексты на Weibo не так часто используются для профилирования авторов. Вероятно, это связано с централизацией Weibo среди китайского населения Материковый Китай, ограничивая его использование преимущественно гражданами Китая. Исследования, проведенные для этой платформы, использовали боты, алгоритмы машинного обучения для определения возраста и пола авторов. Данные собираются из сообщений микроблогов Weibo желающих проанализировать участников и используются для обучения алгоритмов, которые создают профили пользователей на основе концепций с определенной точностью.[18]

Журналы чата

Журналы чатов были изучены для профилирования авторов, поскольку они содержат много текстовых дискурс, анализ которых способствовал прикладным исследованиям, включая социальные тенденции и Криминалистика. Источники данных для профилирования авторов из журналы чата включать такие платформы, как Yahoo!, AIM (программное обеспечение) и WhatsApp.[20] Вычислительные системы были разработаны для создания профилей на основе концепций, перечисляющих темы чата, обсуждаемые в едином чат-комната или независимыми пользователями.[21]

Блоги

Профилирование авторов можно использовать для определения характеристик авторов блогов, таких как их возраст, пол и географическое положение, основанные на их разных стилях письма,[22] Это особенно полезно, когда дело касается анонимные блоги. Выбор слов содержания, особенности стиля и особенности темы анализируются с целью выявления характеристик автора.[23]

В целом, функции, которые часто встречаются в блогах, включают большое количество глаголы за письмо и относительно высокое использование местоимения. Частота употребления глаголов, местоимений и других классов слов используется для профилирования и классификации эмоций в трудах авторов, а также их пола и возраста.[24] Профилирование авторов с использованием моделей классификации, которые использовались в прошлом для физических документов, таких как Support Vector Machines, также было протестировано в блогах. Однако оказалось, что он не подходит для последнего из-за его низкой производительности.[22]

Алгоритмы машинного обучения, которые хорошо подходят для профилирования авторов в блогах[22] включают:

Эл. адрес

Электронная почта всегда была в центре внимания при профилировании авторов благодаря богатым текстовым данным, которые можно найти в различных разделах типичной платформы электронной почты. Эти разделы включают папки «Отправленные», «Входящие», «Спам», «Корзина» и «Заархивированные».[25] Многоязычные подходы к профилированию авторов для электронных писем включают, среди прочего, электронные письма на английском, испанском и арабском языках в качестве источников данных.[25][12] С помощью профилирования авторов можно идентифицировать данные пользователей электронной почты, такие как их возраст, пол, географическое происхождение, уровень образование, Национальность и даже психометрия черты личности, в том числе невротизм, приятность, добросовестность и экстраверсия и интроверсия от Черты характера Большой Пятерки.[26]

При профилировании авторов для электронной почты содержимое обрабатывается для важных текстовых данные, в то время как неважные функции, такие как метаданные и другие Язык гипертекстовой разметки (HTML) дублирование исключено. Важные части Многоцелевые расширения почты Интернета (MIME), которые содержат содержимое электронных писем, также включаются в анализ. Полученные данные часто разбираются на различные разделы контента, в том числе автор текст, подпись текст, Реклама, цитируемый текст и Ответить линий.[25] Дальнейший анализ текстового содержания электронной почты в задачах профилирования авторов включает извлечение тон голоса, настроение, семантика и другие лингвистический функции, подлежащие обработке.

Приложения

Профилирование авторов имеет приложения в различных областях, где необходимо определить конкретные характеристики автора текста, что приобретает все большее значение в таких областях, как судебная экспертиза и маркетинг.[27] В зависимости от применения задача профилирования авторов может варьироваться в зависимости от идентифицируемых характеристик, количества изученных авторов и количества текстов, доступных для анализа.

Хотя его приложения традиционно ограничивались письменными текстами, такими как литературные произведения, с развитием компьютеров и Интернета это распространилось на онлайн-тексты.

Судебная лингвистика

В контексте судебная лингвистика, профилирование автора используется для определения характеристик автора анонимного, псевдоним или кованый текст, основанный на использовании автором языка. Путем лингвистического анализа судебные лингвисты стремятся определить мотивацию и идеологию подозреваемого, а также другие классовые особенности, такие как этническая принадлежность или профессия подозреваемого. Хотя это не всегда приводит к окончательной идентификации автора, такая информация может помочь правоохранительные органы сузить круг подозреваемых.[28]

В большинстве случаев профилирование авторов в контексте судебной лингвистики связано с единственной текстовой проблемой, в которой либо нет, либо мало доступных сравнительных текстов, а также отсутствуют внешние свидетельства, указывающие на автора.[29] Примеры текста, проанализированного судебными лингвистами, включают: шантаж письма, признания, завещания, письма о самоубийстве и плагиат письмо.[30] Это также распространилось на онлайн-тексты, такие как журналы онлайн-чатов откровенно сексуального характера между мужчинами среднего возраста и несовершеннолетними девушками,[29] с увеличением числа киберпреступления совершено в Интернете.[31]

Один из самых ранних и наиболее известных примеров использования профилирования авторов - это Роджер Шай, которого попросили изучить записку о выкупе, связанную с печально известным делом о похищении людей в 1979 году. На основе его анализа сведений о похитителях идиолект, Шай смог идентифицировать важные элементы личности похитителей по его орфографическим ошибкам и диалект пункт, то есть похититель был хорошо образован и из Акрон, Огайо.[32] В конечном итоге это привело к успешному задержанию и признанию подозреваемого.

Однако есть критика в отношении того, что методы профилирования авторов не объективны, поскольку эти методы зависят от субъективного определения криминалистом критически важных социолингвистический маркеры. Эти методы, например, принятые литературным критиком Дональд Уэйн Фостер, считаются спекулятивными и полностью основанными на субъективном опыте, и поэтому не могут быть проверены эмпирически.[33]

Обнаружение ботов

Профилирование авторов используется при идентификации социальных ботов, наиболее распространенным из которых является Twitter-боты. Социальные боты считаются угрозой с учетом их коммерческого, политического и идеологического влияния, например, Президентские выборы в США в 2016 г., во время которого они поляризованный политические разговоры, а также распространение дезинформации и непроверенной информации. В контексте маркетинга социальные боты могут искусственно завышать популярность продукта, публикуя положительные отзывы, и негативными отзывами подрывать репутацию конкурентных продуктов.[34] Следовательно, обнаружение ботов с точки зрения профилирования авторов является очень важной задачей.[34][35]

Ботов, созданных так, чтобы они выглядели как человеческие учетные записи, в основном можно идентифицировать по информации в их профилях, такой как имя пользователя, фотография профиля и время публикации.[35] Однако задача идентификации ботов исключительно по текстовым данным (т. Е. Без метаданных) значительно сложнее, требуя методов профилирования авторов.[35] Обычно это включает задачу классификации, основанную на семантических и синтаксических характеристиках.[36][37]

Задача бота и гендерного профилирования была одной из четырех общих задач, организованных PAN, которая в своей редакции 2019 года организует серию научных мероприятий и общих задач судебной экспертизы цифрового текста и стилометрии.[34] Участвующие команды добились большого успеха: лучшие результаты по обнаружению ботов для английских и испанских твитов - 95,95% и 93,33% соответственно.[36]

Маркетинг

Профилирование авторов также полезно с точки зрения маркетинга, поскольку позволяет компаниям определять демография людей, которым нравятся или не нравятся их продукты, на основании анализа блогов, онлайн-обзоров продуктов и контента социальных сетей.[27] Это важно, поскольку большинство людей публикуют отзывы о товарах анонимно. Методы профилирования авторов помогают бизнес-экспертам принимать более обоснованные стратегические решения на основе демографических характеристик своей целевой группы.[38] Кроме того, предприятия могут нацеливать свои маркетинговые кампании на группы потребителей, соответствующие демографическим характеристикам и профилю текущих клиентов.[39]

Литературные произведения

Распятие, Розарий и Библия с апокрифом NRSV

Методы профилирования авторов используются для изучения традиционные СМИ и литература определить Стиль письма различных авторов, а также их письменные темы содержания. Профилирование авторов по литературе также проводится с целью выявления социальных сетей авторов и их литературного влияния на основе их библиографических записей о соавторстве.

Некоторые примеры профильных исследований авторов по литературе и традиционным СМИ включают исследования по следующим темам:[40][41]

Каталогизация библиотеки

Еще одно применение профилирования авторов - разработка стратегий каталогизации библиотечных ресурсов на основе стандартных атрибутов.[43] При таком подходе методы профилирования авторов могут повысить эффективность каталогизация библиотеки в котором ресурсы библиотеки автоматически классифицируются на основе авторских библиографические записи. Это было серьезной проблемой в начале 21 века, когда большая часть библиотечной каталогизации все еще выполнялась вручную.

Используя профилирование авторов для каталогизации библиотек, исследователи использовали машинное обучение для автоматических процессов в библиотеке, таких как опорные векторные машинные алгоритмы (SVM). С использованием SVM для профилирования авторов библиографические записи авторов в существующих базы данных могут быть идентифицированы, отслежены и обновлены для идентификации автора на основе его тем литературного содержания и экспертиза как указано в его или ее библиографических записях. В этом случае профилирование авторов использует социальные структуры авторов, которые могут быть получены из физических копий опубликованных носителей в каталог библиотечных ресурсов.[43]

В популярной культуре

Профилирование авторов широко используется в массовой культуре. 2017 год Канал Дискавери мини-сериал Охота на Унабомбера это беллетризованный рассказ о ФБР расследование вокруг Унабомбер. В нем содержится криминальный профиль, который определяет определяющие характеристики личности Унабомбера на основе его анализа идиолекта Унабомбера в его письмах и опубликованных манифест. Шоу подчеркнуло важность профилирования авторов в криминалистической криминалистике, поскольку это имело решающее значение для поимки настоящего виновника Унабомбера в 1996 году. [44]

Смотрите также

Связанные темы

использованная литература

  1. ^ Вигманн М., Штейн Б. и Поттхаст М. (2019). "Обзор задачи профилирования знаменитостей на PAN 2019. " КЛЮЧ.
  2. ^ Микрос, Г.К., и Перифанос, К. (2013). "Указание авторства в греческих твитах с использованием многоуровневых профилей авторов в n-граммах. " Серия весенних симпозиумов AAAI 2013.
  3. ^ Коппел М., Аргамон С., Шимони А. (2013). "Автоматическая категоризация письменных текстов по полу автора." Литературно-лингвистические вычисления, 17, стр. 401–412.
  4. ^ а б c d е ж Лопес-Монрой, А. П., Монтес-и-Гомес, М., Эскаланте, Х. Дж., Вилласеньор-Пинеда, Л. и Стамататос, Э. (2015). «Дискриминационные репрезентации субпрофиля для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134 - 147.
  5. ^ а б Лундеквист, Э. и Свенссон, М. (2017). «Профилирование авторов: подход машинного обучения для определения пола, возраста и родного языка пользователей в социальных сетях». В: Кафедра информационных технологий.
  6. ^ Франко-Сальвадор, М., Плотникова, Н., Павар, Н., и Бенаджиба, Ю. (2017). «Сети глубокого усреднения на основе подслов для профилирования авторов в социальных сетях». КЛЮЧ.
  7. ^ Курита, К. (2018). «Анализ статьи: глубокая неупорядоченная композиция соперничает с синтаксическими методами классификации текста». Объяснение машинного обучения.
  8. ^ а б c Би Си, Б. и Зригуи, М. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.
  9. ^ а б Билан И. и Жекова Д. (2016). «CAPS: кросс-жанровая система профилирования авторов». КЛЮЧ.
  10. ^ Шлер Дж., Коппель М., Аргамон С. и Пеннебейкер Дж. У. (2005). «Влияние возраста и пола на ведение блога». Весенний симпозиум AAAI: вычислительные подходы к анализу веб-журналов.
  11. ^ а б Рангель Ф. и Руссо П. (2019). "Обзор седьмой задачи профилирования авторов на PAN 2019: боты и гендерное профилирование в Twitter. " КЛЮЧ.
  12. ^ а б Россо П., Рангель Ф., Фариас И. Х., Каньина Л., Загуани В. и Чарфи А. (2018). "Опрос о профилировании авторов, обмане и обнаружении иронии для арабского языка. " Язык и лингвистический компас, 12 (4).
  13. ^ а б Гомес-Адорно, Х., Марков, И., Сидоров, Г., Посадас-Дуран, Ж.-П., Санчес-Перес, М.А., и Чанона-Эрнандес, Л. (2016). «Улучшение представления функций на основе нейронной сети для профилирования авторов в текстах социальных сетей». В: Вычислительный интеллект и нейробиология., стр. 1–13.
  14. ^ Дам, Дж. В. В., и Велден, М. В. Д. (2015). «Онлайн-профилирование и кластеризация пользователей Facebook». В: Системы поддержки принятия решений, 70., 60–72.
  15. ^ а б c Хси, Ф. К., Сандрони, Р. Ф., и Парабони, И. (2018). "Профилирование авторов из Facebook Corpora ". LREC.
  16. ^ а б Фатима, М., Хасан, К., Анвар, С., и Наваб, Р. М. А. (2017). «Многоязычное профилирование авторов на Facebook». В: Обработка информации и управление, 53 (4), 886–904.
  17. ^ Ранжел Ф. и Россо П. (2013). "Профилирование использования языка и авторов: определение пола и возраста. "
  18. ^ а б c Чжан В., Кейнс А., Аликаниотис Д. и Баттери П. (2015). «Прогнозирование возраста автора по сообщениям в микроблоге Weibo». LREC.
  19. ^ а б Чен, Л., Цянь, Т., Ван, Ф., Ю, З., Пэн, К., и Чжун, М. (2015). "Определение возраста для китайских пользователей в Weibo." WAIM 2015, LNCS 9098, 83–95.
  20. ^ Лин, Дж. (2007). "Автоматическое профилирование авторов журналов онлайн-чата "
  21. ^ Бенгел Дж., Гауч С., Миттур Э., Виджаярагхаван Р. (2004) ChatTrack: "Обнаружение тем в чате с использованием классификации." В: Chen H., Moore R., Zeng D.D., Leavitt J. (eds) Intelligence and Security Informatics. ISI 2004. Конспект лекций по информатике, 3073. Шпрингер, Берлин, Гейдельберг
  22. ^ а б c Фам Д.Д., Тран Дж. Б. и Фам С. Б. (2009). Профилирование авторов вьетнамских блогов. 2009 Международная конференция по обработке азиатских языков, 190-194.
  23. ^ Сантош К., Бансал Р., Шекхар М. и Варма В. (2013). Профилирование авторов: прогнозирование возраста и пола из блокнота блогов для PAN на CLEF 2013. КЛЮЧ.
  24. ^ Рангель Ф. и Россо П. (2013). Профилирование использования языка и авторов: определение пола и возраста. Обработка естественного языка и когнитивная наука, 2013 г.
  25. ^ а б c Эстиваль, Д., Гаустад, Т., Фам, С. Б., Рэдфорд, В., и Хатчинсон, Б. (2007). Профиль авторов для английских писем.
  26. ^ Рагхунадха, Т. Р., Гопи, М. К., и Хеманатх, К. (2017). "Предсказание местоположения анонимного текста с использованием метода профилирования авторов." В: Международный журнал гражданского строительства и технологий (IJCIET) , 8(12), 339–345.
  27. ^ а б Профилирование авторов 2018. (нет данных).
  28. ^ Фостер, Д. (2000). Автор неизвестен: по следам анонима. Генри Холт и компания
  29. ^ а б Грант, Т. Д. (2008). "Подходящие вопросы в судебно-медицинской экспертизе авторства." В Гиббонс, Дж. И Турелл, М. Т. (ред.). Измерения судебной лингвистики. Джон Бенджаминс.
  30. ^ Коце, Э. Ф. (2010). "Идентификация автора с противоположных точек зрения в судебной лингвистике ". Южноафриканская лингвистика и прикладные языковые исследования. 28(2). 185-197
  31. ^ Ян М. и Чоу К. П. (2014) "Установление авторства для судебных расследований с участием тысяч авторов." В: Cuppens-Boulahia N., Cuppens F., Jajodia S., Abou El Kalam A., Sans T. (eds) Безопасность систем ИКТ и защита конфиденциальности. SEC 2014. Достижения ИФИП в области информационных и коммуникационных технологий, vol 428. Springer, Berlin, Heidelberg.
  32. ^ Леонард, Р. А. (2005). "Применение научных принципов языкового анализа к вопросам права." Международный гуманитарный журнал. 3. 1-9
  33. ^ Часки, К. Э. (2001). "Эмпирическая оценка языковых методов идентификации авторов." Судебная лингвистика, 8, 1-65.
  34. ^ а б c "Боты и гендерное профилирование 2019 ". (нет данных).
  35. ^ а б c Губен, Режис и Лефевр, Дориан и Альхамзех, Алаа и Митрович, Елена и Эгид-Зигмонд, Элу и Фосси, Леопольд. (2019). "Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на CLEF 2019 ".
  36. ^ а б Daelemans W. et al. (2019) "Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, междоменная атрибуция авторства и обнаружение изменения стиля." В: Crestani F. et al. (ред.) Экспериментальный IR встречает многоязычность, мультимодальность и взаимодействие. CLEF 2019. Конспект лекций по информатике, vol 11696. Springer, Cham.
  37. ^ Ковач, Г., Балог, В., Мехта, П., Шридхар, К., Алонсо, П., и Ливицки, М. (2019). "Профилирование авторов с использованием семантических и синтаксических функций: Блокнот для PAN на CLEF 2019."
  38. ^ Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Саи Прасад К., Амарнатх Редди Э. (2019) "Новый подход к представлению документов для гендерного прогнозирования с использованием профилей авторов." В: Бапи Р., Рао К., Прасад М. (ред.) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в интеллектуальных системах и вычислениях, vol 815. Springer, Singapore
  39. ^ Махарджан, Сурадж и Шреста, Праш и Солорио, Тамар и Хасан, Рагиб. (2014). "Простой подход к профилированию авторов в MapReduce." LNCS (LNAI).
  40. ^ Компания, J.С., и Ваннер, Л. (2017). "О релевантности синтаксических и дискурсивных характеристик для профилирования и идентификации авторов." Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики, 2, 681–687.
  41. ^ а б Дзикиене. Я. К., Утка, А., & Шаркуте, Л. (2015). "Указание авторства и профилирование авторов литовских художественных текстов ", 96–105.
  42. ^ Леджер, Г. (1994). "Шекспир, Флетчер и двое благородных родственников." Литературные и лингвистические вычисления, 9 (3), 235–247.
  43. ^ а б Номото, Т. (2009). "Классификация библиотечных каталогов по профилированию авторов." В: Материалы 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR 09.
  44. ^ Дэвис, Д. (2017, 22 августа). "Специалист ФБР утверждает, что лингвистическая работа сыграла решающую роль в поимке Унабомбера."