Корпус Енрон — це база даних із понад 600 000 електронних листів, створених 158 співробітниками корпорації Енрон за роки, що передували краху компанії в грудні 2001 року. Корпус був створений із серверів електронних листів Енрон Федеральною комісією з регулювання енергетики (ФКРЕ) під час його подальшого розслідування.[1]. Копію бази даних електронних листів згодом придбав за 10 000 доларів Ендрю МакКаллум, спеціаліст з інформатики з Массачусетського університету Амхерста[2] . Він надав цю копію дослідникам, надавши величезну кількість даних, які використовувалися для досліджень соціальних мереж та комунікації за допомогою комп'ютера.

Створення ред.

Під час юридичного розслідування краху Енрон, процес відкриття вимагав збору та збереження величезної кількості даних, для чого ФКРЕ найняв Aspen Systems (нині входить до Lockheed Martin). Листи були зібрані в штаб-квартирі Енрон в Х'юстоні протягом двох тижнів у травні 2002 року Джо Бартлінгом[3], підрядником із підтримки судових процесів та аналізу даних для Aspen. На додаток до електронних листів співробітників Енрон, усі корпоративні системи баз даних Енрон[4], розміщені в базах даних Oracle на серверах Sun Microsystems, були перехоплені та збережені, включно з його онлайн-платформою для торгівлі енергією EnronOnline.

Після збору електронних листів Енрон були оброблені та розміщені на власних електронних платформах виявлення (спочатку Concordance, потім iCONECT) для перегляду слідчим з ФКРЕ, комісії з торгівлі товарними ф'ючерсами та Міністерства юстиції США. Після завершення розслідування та після опублікування звіту співробітників ФКРЕ[5], зібрані електронні листи та інформація вважалися загальнодоступними та використовувалися для історичних досліджень та академічних цілей. Архів електронних листів був загальнодоступним і доступним для пошуку в Інтернеті за допомогою iCONECT 24/7, але величезний обсяг електронних листів понад 160 ГБ зробив його непрактичним для використання. Копії зібраних електронних листів і баз даних були доступні на жорстких дисках.

Джитеш Шетті і Джафар Адібі з Університету Південної Каліфорнії обробили дані в 2004 році і випустили версію MySQL[6]. У 2010 році EDRM.net опублікував переглянуту та розширену версію 2 корпусу[7], що містить понад 1,7 мільйона повідомлень, яка була доступна на Amazon S3 для легкого доступу дослідникам.

Експлуатація ред.

 
Візуалізація мережі електронної пошти в Enron Corpus з розбарвленням, що представляють вісім спільнот

Корпус оцінюється як один з небагатьох загальнодоступних масових колекцій справжніх електронних листів, легко доступних для вивчення; такі колекції, як правило, пов'язані численними обмеженнями щодо конфіденційності та юридичними обмеженнями, які роблять до них надзвичайно складним доступ, наприклад угоди про нерозголошення та очищення даних[2]. Шетті та Адібі, на основі їхньої версії MySQL, опублікували деякий аналіз посилань щодо того, які облікові записи користувачів надіслали електронною поштою. Лінгвістичне порівняння з новішими корпусами електронних листів показує зміни в реєстрі електронних листів англійською мовою. Він також використовується як тренувальні або випробувальні набори для досліджень в обробці природної мови та машинному навчанні[8].

Примітки ред.

  1. «The Enron Email Corpus [Архівовано 2011-03-08 у Wayback Machine.]» Retrieved March 5, 2011.
  2. а б Markoff, John. «Armies of Expensive Lawyers, Replaced by Cheaper Software [Архівовано 28 квітня 2022 у Wayback Machine.]». New York Times March 5, 2011. p A1.
  3. Bartling, Joe (3 вересня 2015). The Enron Data Set - Where Did It Come From?. Bartling Forensic and Advisory. Процитовано 3 вересня 2015.{{cite web}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  4. FERC: Industries - Enron's Energy Trading Business Process and Databases. www.ferc.gov. Архів оригіналу за 5 січня 2020. Процитовано 2 вересня 2015.
  5. FERC Staff Report — Price Manipulation in Western Markets — Findings at a Glance [Архівовано 21 лютого 2006 у Wayback Machine.] (3-26-2003)
  6. «Enron processed database [Архівовано 2 квітня 2022 у Wayback Machine.]»
  7. Socha, George. EDRM Enron Email Data Set v2 Now Available. EDRM.net. Архів оригіналу за 4 вересня 2011. Процитовано 3 вересня 2012.
  8. Friginal, Eric; Hardy, Jack (2013). Corpus-Based Sociolinguistics: A Guide for Students (англ.). Routledge. с. 167. ISBN 978-1-136-29277-4. Архів оригіналу за 28 квітня 2022. Процитовано 29 травня 2020.

Посилання ред.