Enron Corpus - Википедия - Enron Corpus

В Enron Corpus это база данных, содержащая более 600 000 электронные письма создано 158 сотрудников[1] из Enron Corporation в годы, предшествовавшие крах компании в декабре 2001 года. Корпус был создан с серверов электронной почты Enron Федеральная комиссия по регулированию энергетики (FERC) во время его последующего расследования.[2] Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллум, ученый-компьютерщик из Массачусетский университет в Амхерсте.[3] Он предоставил эту копию исследователям, предоставив массу данных, которые были использованы для исследований социальная сеть и компьютерное общение.

Творчество

В судебном расследовании краха Enron открытие процесс требовал сбора и сохранения огромных объемов данных, для чего FERC наняла Aspen Systems (теперь часть Локхид Мартин ). Электронные письма были собраны в штаб-квартире корпорации Enron в г. Хьюстон в течение двух недель в мае 2002 года Джо Бартлинг,[4] подрядчик по поддержке судебных разбирательств и анализа данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron,[5] размещен в Базы данных Oracle на Sun Microsystems серверов, были захвачены и сохранены, в том числе онлайн торговля энергией Платформа, EnronOnline.

После сбора электронные письма Enron обрабатывались и размещались в собственных электронное открытие платформы (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссия по торговле товарными фьючерсами, и Департамент правосудия. По завершении расследования и выдаче отчета сотрудникам FERC,[6] электронные письма и собранная информация считались всеобщее достояние, который будет использоваться для историческое исследование и академические цели. Архив электронной почты стал общедоступным и доступным для поиска через Интернет с помощью iCONECT 24/7, но из-за того, что объем электронной почты превышал 160 ГБ, его использование было непрактичным. Копии собранных электронных писем и баз данных были доступны на жесткие диски.

Джитеш Шетти и Джафар Адиби из Университет Южной Калифорнии обработал данные в 2004 г. и выпустил MySQL версия.[7] В 2010 году EDRM.net опубликовал исправленную и расширенную версию 2 корпуса,[8] содержащий более 1,7 миллиона сообщений, которые были доступны на Amazon S3 для легкого доступа к исследователям.

Эксплуатации

Корпус оценивается как одна из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и юридическими ограничениями, которые затрудняют доступ к ним, например соглашения о неразглашении и дезинфекция данных.[3] Шетти и Адиби на основе своей версии MySQL опубликовали несколько анализ ссылок какие учетные записи пользователей отправили по электронной почте.[9] Лингвистическое сравнение с более поздним электронным письмом корпус показывает изменения в электронном письме регистр английского. Он также используется как данные тестирования или обучения для исследований в обработка естественного языка и машинное обучение.[10]

Рекомендации

  1. ^ Климт, Брайан; Иминь Ян (2004). «Корпус Enron: новый набор данных для исследования классификации электронной почты»: 217–226. CiteSeerX  10.1.1.61.1645. Цитировать журнал требует | журнал = (помощь)
  2. ^ "Электронная почта Enron В архиве 2011-03-08 на Wayback Machine "Проверено 5 марта 2011 г..
  3. ^ а б Марков, Джон. "Армии дорогих юристов заменены более дешевым программным обеспечением ". Нью-Йорк Таймс 5 марта 2011 г. стр. A1.
  4. ^ Бартлинг, Джо (3 сентября 2015 г.). «Набор данных Enron - откуда он взялся?». Bartling Forensic and Advisory. Получено 3 сентября, 2015.
  5. ^ «FERC: Industries - бизнес-процессы и базы данных Enron по торговле энергией». www.ferc.gov. Получено 2015-09-02.
  6. ^ Отчет персонала FERC - Манипулирование ценами на западных рынках - Краткий обзор результатов (3-26-2003)
  7. ^ "Обработанная база данных Enron "
  8. ^ Соха, Джордж. «Доступен набор данных электронной почты EDRM Enron v2». EDRM.net. Архивировано из оригинал на 2011-09-04. Получено 2012-09-03.
  9. ^ Шетти, Джитеш; Адиби, Джафар (2005). «Обнаружение важных узлов с помощью энтропии графа в случае базы данных электронной почты Enron». Материалы 3-го международного семинара по обнаружению ссылок - LinkKDD '05. С. 74–81. Дои:10.1145/1134271.1134282. ISBN  978-1595932150.
  10. ^ Фригинал, Эрик; Харди, Джек (2013). Корпусная социолингвистика: руководство для студентов. Рутледж. п. 167. ISBN  978-1-136-29277-4. Получено 29 мая 2020.

внешняя ссылка