Энрон Корпус
Enron Corpus — это база данных , содержащая более 600 000 электронных писем , созданных 158 сотрудниками. [1] Корпорации Enron в годы, предшествовавшие краху компании в декабре 2001 года. Корпус был создан на основе серверов электронной почты Enron Федеральной комиссией по регулированию энергетики (FERC) в ходе последующего расследования. [2] Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллумом , ученым-компьютерщиком из Массачусетского университета в Амхерсте . [3] Он предоставил эту копию исследователям, предоставив массу данных, которые были использованы для исследований социальных сетей и компьютерной коммуникации .
Создание
[ редактировать ]В ходе юридического расследования краха Enron процесс открытия потребовал сбора и сохранения огромных объемов данных, для чего FERC наняла компанию Aspen Systems (теперь часть Lockheed Martin ). Электронные письма были собраны в штаб-квартире корпорации Enron в Хьюстоне в течение двух недель в мае 2002 года Джо Бартлингом. [4] подрядчик по поддержке судебных разбирательств и анализу данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron, [5] размещенные в базах данных Oracle на серверах Sun Microsystems , были зафиксированы и сохранены, включая ее онлайн- платформу торговли энергией EnronOnline.
После сбора электронные письма Enron обрабатывались и размещались на собственных платформах электронного обнаружения (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссии по торговле товарными фьючерсами и Министерства юстиции . По завершении расследования и после публикации отчета сотрудников FERC, [6] Собранные электронные письма и информация считались общедоступными и могли использоваться в исторических исследованиях и академических целях. Архив электронной почты был открыт для общего доступа и доступен для поиска в Интернете с помощью iCONECT 24/7, но огромный объем электронной почты, превышающий 160 ГБ, сделал его непрактичным. Копии собранных электронных писем и баз данных были размещены на жестких дисках .
Джитеш Шетти и Джафар Адиби из Университета Южной Калифорнии обработали данные в 2004 году и выпустили версию MySQL . [7] В 2010 году EDRM.net опубликовал пересмотренную и расширенную версию 2 корпуса, [8] содержащий более 1,7 миллиона сообщений, который был доступен на Amazon S3 для облегчения доступа исследователей.
Эксплуатация
[ редактировать ]
Корпус ценится как один из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и правовыми ограничениями, которые делают к ним непомерно трудным доступ, например, соглашения о неразглашении и очистка данных . [3] Шетти и Адиби, основываясь на своей версии MySQL, опубликовали анализ ссылок того, какие учетные записи пользователей кому отправляли электронные письма. [9] Лингвистическое сравнение с более поздними корпусами электронной почты показывает изменения в регистре электронной почты на английском языке. Они также используются в качестве тестовых или обучающих данных для исследований в области обработки естественного языка и машинного обучения . [10]
Ссылки
[ редактировать ]- ^ Климт, Брайан; Имин Ян (2004). «Корпус Enron: новый набор данных для исследования классификации электронной почты». стр. 217–226. CiteSeerX 10.1.1.61.1645 .
- ^ « Корпус электронной почты Enron , заархивированный 8 марта 2011 г. в Wayback Machine » Проверено 5 марта 2011 г.
- ^ Jump up to: а б Марков, Джон. « Армии дорогих юристов заменены более дешевым программным обеспечением ». New York Times , 5 марта 2011 г., стр. A1.
- ^ Бартлинг, Джо (3 сентября 2015 г.). «Набор данных Enron – откуда он взялся?» . Бартлинг Судебная экспертиза и консультирование . Проверено 3 сентября 2015 г.
- ^ «FERC: Отрасли промышленности — бизнес-процессы и базы данных Enron по торговле энергией» . www.ferc.gov . Архивировано из оригинала 5 января 2020 г. Проверено 2 сентября 2015 г.
- ^ Отчет персонала FERC - Манипулирование ценами на западных рынках - краткий обзор результатов. Архивировано 21 февраля 2006 г. в Wayback Machine (26 марта 2003 г.).
- ^ " База данных, обработанная Enron "
- ^ Соча, Джордж. «Набор данных электронной почты EDRM Enron v2 теперь доступен» . ЕДРМ.net. Архивировано из оригинала 4 сентября 2011 г. Проверено 3 сентября 2012 г.
- ^ Шетти, Джитеш; Адиби, Джафар (2005). «Обнаружение важных узлов с помощью энтропии графа на примере базы данных электронной почты Enron». Материалы 3-го международного семинара по обнаружению ссылок — LinkKDD '05 . стр. 74–81. дои : 10.1145/1134271.1134282 . ISBN 978-1595932150 . S2CID 10122735 .
- ^ Фриджинал, Эрик; Харди, Джек (2013). Корпусная социолингвистика: Руководство для студентов . Рутледж. п. 167. ИСБН 978-1-136-29277-4 . Проверено 29 мая 2020 г.
Внешние ссылки
[ редактировать ]- Учебное пособие по моделированию данных с помощью Enron Corpus
- Загрузка набора данных электронной почты Enron Шетти и Адиби на S3 (178 МБ)
- Натан Хеллер: что о нас говорят электронные письма Enron The New Yorker, 24 июля 2017 г.
- База данных электронной почты Enron с возможностью поиска (требуется регистрация)