Enron Corpus - Википедия - Enron Corpus
В Enron Corpus это база данных, содержащая более 600 000 электронные письма создано 158 сотрудников[1] из Enron Corporation в годы, предшествовавшие крах компании в декабре 2001 года. Корпус был создан с серверов электронной почты Enron Федеральная комиссия по регулированию энергетики (FERC) во время его последующего расследования.[2] Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллум, ученый-компьютерщик из Массачусетский университет в Амхерсте.[3] Он предоставил эту копию исследователям, предоставив массу данных, которые были использованы для исследований социальная сеть и компьютерное общение.
Творчество
В судебном расследовании краха Enron открытие процесс требовал сбора и сохранения огромных объемов данных, для чего FERC наняла Aspen Systems (теперь часть Локхид Мартин ). Электронные письма были собраны в штаб-квартире корпорации Enron в г. Хьюстон в течение двух недель в мае 2002 года Джо Бартлинг,[4] подрядчик по поддержке судебных разбирательств и анализа данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron,[5] размещен в Базы данных Oracle на Sun Microsystems серверов, были захвачены и сохранены, в том числе онлайн торговля энергией Платформа, EnronOnline.
После сбора электронные письма Enron обрабатывались и размещались в собственных электронное открытие платформы (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссия по торговле товарными фьючерсами, и Департамент правосудия. По завершении расследования и выдаче отчета сотрудникам FERC,[6] электронные письма и собранная информация считались всеобщее достояние, который будет использоваться для историческое исследование и академические цели. Архив электронной почты стал общедоступным и доступным для поиска через Интернет с помощью iCONECT 24/7, но из-за того, что объем электронной почты превышал 160 ГБ, его использование было непрактичным. Копии собранных электронных писем и баз данных были доступны на жесткие диски.
Джитеш Шетти и Джафар Адиби из Университет Южной Калифорнии обработал данные в 2004 г. и выпустил MySQL версия.[7] В 2010 году EDRM.net опубликовал исправленную и расширенную версию 2 корпуса,[8] содержащий более 1,7 миллиона сообщений, которые были доступны на Amazon S3 для легкого доступа к исследователям.
Эксплуатации
Корпус оценивается как одна из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и юридическими ограничениями, которые затрудняют доступ к ним, например соглашения о неразглашении и дезинфекция данных.[3] Шетти и Адиби на основе своей версии MySQL опубликовали несколько анализ ссылок какие учетные записи пользователей отправили по электронной почте.[9] Лингвистическое сравнение с более поздним электронным письмом корпус показывает изменения в электронном письме регистр английского. Он также используется как данные тестирования или обучения для исследований в обработка естественного языка и машинное обучение.[10]
Рекомендации
- ^ Климт, Брайан; Иминь Ян (2004). «Корпус Enron: новый набор данных для исследования классификации электронной почты»: 217–226. CiteSeerX 10.1.1.61.1645. Цитировать журнал требует
| журнал =
(помощь) - ^ "Электронная почта Enron В архиве 2011-03-08 на Wayback Machine "Проверено 5 марта 2011 г..
- ^ а б Марков, Джон. "Армии дорогих юристов заменены более дешевым программным обеспечением ". Нью-Йорк Таймс 5 марта 2011 г. стр. A1.
- ^ Бартлинг, Джо (3 сентября 2015 г.). «Набор данных Enron - откуда он взялся?». Bartling Forensic and Advisory. Получено 3 сентября, 2015.
- ^ «FERC: Industries - бизнес-процессы и базы данных Enron по торговле энергией». www.ferc.gov. Получено 2015-09-02.
- ^ Отчет персонала FERC - Манипулирование ценами на западных рынках - Краткий обзор результатов (3-26-2003)
- ^ "Обработанная база данных Enron "
- ^ Соха, Джордж. «Доступен набор данных электронной почты EDRM Enron v2». EDRM.net. Архивировано из оригинал на 2011-09-04. Получено 2012-09-03.
- ^ Шетти, Джитеш; Адиби, Джафар (2005). «Обнаружение важных узлов с помощью энтропии графа в случае базы данных электронной почты Enron». Материалы 3-го международного семинара по обнаружению ссылок - LinkKDD '05. С. 74–81. Дои:10.1145/1134271.1134282. ISBN 978-1595932150.
- ^ Фригинал, Эрик; Харди, Джек (2013). Корпусная социолингвистика: руководство для студентов. Рутледж. п. 167. ISBN 978-1-136-29277-4. Получено 29 мая 2020.
внешняя ссылка
- Набор данных Nuix очищен от PII (требуется регистрация)
- Учебное пособие по моделированию данных с помощью Enron Corpus
- Загрузка набора данных электронной почты Шетти и Адиби enron на S3 (178 МБ)
- Натан Хеллер: Что о нас говорят электронные письма Enron The New Yorker, 24 июля 2017 г.
- База данных электронной почты Enron с возможностью поиска (требуется регистрация)
- Открыть тестовый поиск Доступный для поиска корпус всех вложений электронной почты, используемый для сравнения различных поисковых систем предприятия.