Enron Corpus - Enron Corpus

Der Enron Corpus ist eine Datenbank mit über 600.000 E-Mails, die von 158 Mitarbeitern der Enron Corporation in den Jahren vor dem Zusammenbruch des Unternehmens im Dezember 2001 erstellt wurden. Der Korpus wurde von der Federal Energy Regulatory Commission (FERC) während der E-Mail-Server von Enron generiert anschließende Untersuchung. Eine Kopie der E-Mail-Datenbank wurde anschließend von Andrew McCallum , einem Informatiker an der University of Massachusetts Amherst, für 10.000 US-Dollar gekauft . Er gab diese Kopie an Forscher weiter und stellte eine Fülle von Daten zur Verfügung, die für Studien zu sozialen Netzwerken und computergestützter Kommunikation verwendet wurden .

Schaffung

Bei der rechtlichen Untersuchung des Zusammenbruchs von Enron erforderte der Entdeckungsprozess das Sammeln und Speichern großer Datenmengen, für die der FERC Aspen Systems (jetzt Teil von Lockheed Martin ) engagierte. Die E-Mails wurden im Mai 2002 zwei Wochen lang am Hauptsitz der Enron Corporation in Houston von Joe Bartling, einem Auftragnehmer für Prozessunterstützung und Datenanalyse bei Aspen, gesammelt . Zusätzlich zu den Mitarbeiter - E - Mails Enron, die alle Systeme Enrons Enterprise - Datenbank, gehostet in Oracle - Datenbanken auf Sun Microsystems - Servern, wurden gefangen genommen und konserviert, einschließlich der Online - Energiehandelsplattform, EnronOnline .

Nach dem Sammeln wurden die Enron-E-Mails verarbeitet und auf proprietären elektronischen Entdeckungsplattformen (zuerst Concordance, dann iCONECT) gehostet, um von Ermittlern des FERC, der Commodity Futures Trading Commission und des Justizministeriums überprüft zu werden . Nach Abschluss der Untersuchung und nach Veröffentlichung des FERC-Mitarbeiterberichts wurden die gesammelten E-Mails und Informationen als gemeinfrei angesehen und für historische Forschungszwecke und akademische Zwecke verwendet. Das E-Mail-Archiv wurde mit iCONECT 24/7 über das Internet öffentlich zugänglich und durchsuchbar gemacht, aber das schiere E-Mail-Volumen von über 160 GB machte es unpraktisch, es zu verwenden. Kopien der gesammelten E-Mails und Datenbanken wurden auf Festplatten zur Verfügung gestellt .

Jitesh Shetty und Jafar Adibi von der University of Southern California verarbeiteten die Daten im Jahr 2004 und veröffentlichten eine MySQL- Version. Im Jahr 2010 veröffentlichte EDRM.net eine überarbeitete und erweiterte Version 2 des Korpus mit über 1,7 Millionen Nachrichten, die auf Amazon S3 für den einfachen Zugriff auf die Forscher verfügbar gemacht wurde .

Ausbeutung

Der Korpus gilt als eine der wenigen öffentlich zugänglichen Massensammlungen realer E-Mails, die leicht zu studieren sind. Solche Sammlungen sind in der Regel an zahlreiche Datenschutz- und gesetzliche Beschränkungen gebunden, die den Zugriff auf sie unerschwinglich machen, wie z. B. Geheimhaltungsvereinbarungen und Datenbereinigung . Shetty und Adibi haben basierend auf ihrer MySQL-Version eine Linkanalyse veröffentlicht, welche Benutzerkonten welche per E-Mail gesendet haben . Der sprachliche Vergleich mit neueren E-Mail- Korpora zeigt Änderungen im E-Mail- Register von Englisch. Es wird auch als Test- oder Trainingsdaten für die Erforschung der Verarbeitung natürlicher Sprache und des maschinellen Lernens verwendet .

Verweise

Externe Links