Jump to content

Энрон Корпус

Enron Corpus — это база данных , содержащая более 600 000 электронных писем , созданных 158 сотрудниками. [1] Корпорации Enron в годы, предшествовавшие краху компании в декабре 2001 года. Корпус был создан на основе серверов электронной почты Enron Федеральной комиссией по регулированию энергетики (FERC) в ходе последующего расследования. [2] Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллумом , ученым-компьютерщиком из Массачусетского университета в Амхерсте . [3] Он предоставил эту копию исследователям, предоставив массу данных, которые были использованы для исследований социальных сетей и компьютерной коммуникации .

Создание

[ редактировать ]

В ходе юридического расследования краха Enron процесс открытия потребовал сбора и сохранения огромных объемов данных, для чего FERC наняла компанию Aspen Systems (теперь часть Lockheed Martin ). Электронные письма были собраны в штаб-квартире корпорации Enron в Хьюстоне в течение двух недель в мае 2002 года Джо Бартлингом. [4] подрядчик по поддержке судебных разбирательств и анализу данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron, [5] размещенные в базах данных Oracle на серверах Sun Microsystems , были зафиксированы и сохранены, включая ее онлайн- платформу торговли энергией EnronOnline.

После сбора электронные письма Enron обрабатывались и размещались на собственных платформах электронного обнаружения (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссии по торговле товарными фьючерсами и Министерства юстиции . По завершении расследования и после публикации отчета сотрудников FERC, [6] Собранные электронные письма и информация считались общедоступными и могли использоваться в исторических исследованиях и академических целях. Архив электронной почты был открыт для общего доступа и доступен для поиска в Интернете с помощью iCONECT 24/7, но огромный объем электронной почты, превышающий 160 ГБ, сделал его непрактичным. Копии собранных электронных писем и баз данных были размещены на жестких дисках .

Джитеш Шетти и Джафар Адиби из Университета Южной Калифорнии обработали данные в 2004 году и выпустили версию MySQL . [7] В 2010 году EDRM.net опубликовал пересмотренную и расширенную версию 2 корпуса, [8] содержащий более 1,7 миллиона сообщений, который был доступен на Amazon S3 для облегчения доступа исследователей.

Эксплуатация

[ редактировать ]
Визуализация сети электронной почты в корпусе Enron с раскраской, обозначающей восемь сообществ.

Корпус ценится как один из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и правовыми ограничениями, которые делают к ним непомерно трудным доступ, например, соглашения о неразглашении и очистка данных . [3] Шетти и Адиби, основываясь на своей версии MySQL, опубликовали анализ ссылок того, какие учетные записи пользователей кому отправляли электронные письма. [9] Лингвистическое сравнение с более поздними корпусами электронной почты показывает изменения в регистре электронной почты на английском языке. Они также используются в качестве тестовых или обучающих данных для исследований в области обработки естественного языка и машинного обучения . [10]

  1. ^ Климт, Брайан; Имин Ян (2004). «Корпус Enron: новый набор данных для исследования классификации электронной почты». стр. 217–226. CiteSeerX   10.1.1.61.1645 .
  2. ^ « Корпус электронной почты Enron , заархивированный 8 марта 2011 г. в Wayback Machine » Проверено 5 марта 2011 г.
  3. ^ Jump up to: а б Марков, Джон. « Армии дорогих юристов заменены более дешевым программным обеспечением ». New York Times , 5 марта 2011 г., стр. A1.
  4. ^ Бартлинг, Джо (3 сентября 2015 г.). «Набор данных Enron – откуда он взялся?» . Бартлинг Судебная экспертиза и консультирование . Проверено 3 сентября 2015 г.
  5. ^ «FERC: Отрасли промышленности — бизнес-процессы и базы данных Enron по торговле энергией» . www.ferc.gov . Архивировано из оригинала 5 января 2020 г. Проверено 2 сентября 2015 г.
  6. ^ Отчет персонала FERC - Манипулирование ценами на западных рынках - краткий обзор результатов. Архивировано 21 февраля 2006 г. в Wayback Machine (26 марта 2003 г.).
  7. ^ " База данных, обработанная Enron "
  8. ^ Соча, Джордж. «Набор данных электронной почты EDRM Enron v2 теперь доступен» . ЕДРМ.net. Архивировано из оригинала 4 сентября 2011 г. Проверено 3 сентября 2012 г.
  9. ^ Шетти, Джитеш; Адиби, Джафар (2005). «Обнаружение важных узлов с помощью энтропии графа на примере базы данных электронной почты Enron». Материалы 3-го международного семинара по обнаружению ссылок — LinkKDD '05 . стр. 74–81. дои : 10.1145/1134271.1134282 . ISBN  978-1595932150 . S2CID   10122735 .
  10. ^ Фриджинал, Эрик; Харди, Джек (2013). Корпусная социолингвистика: Руководство для студентов . Рутледж. п. 167. ИСБН  978-1-136-29277-4 . Проверено 29 мая 2020 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e626f330ddfb8c7ebd0e0b745bee49d6__1716211260
URL1:https://arc.ask3.ru/arc/aa/e6/d6/e626f330ddfb8c7ebd0e0b745bee49d6.html
Заголовок, (Title) документа по адресу, URL1:
Enron Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)