[dataset] Enron Dataset 분석
I. enron_dataset
1. 배경 및 역사
- Enron 사건 개요: Enron은 2001년 파산한 미국의 에너지 거래 대기업으로, 기업 내부의 회계 부정과 부정행위가 드러나며 사회 전반에 큰 충격을 주었습니다. 이 사건은 기업 거버넌스, 회계 기준, 그리고 규제 시스템에 큰 변화를 야기하였고, 법적 절차 중에 방대한 이메일 기록들이 증거로 사용되었습니다.
- 데이터셋의 출처: Enron 사건 조사 과정에서 수집된 이메일 자료들이 공개되면서, 이 데이터셋은 법원 문서 및 정부 기관(예: 미국 연방에너지규제위원회)과 관련 연구 기관에서 정리되어 학술 연구용으로 배포되었습니다. 대표적으로 카네기 멜론 대학(Carnegie Mellon University) 등이 이 자료를 정리하고 보관해 왔습니다.
2. 데이터셋의 구성 및 특징
-
자료 규모 및 구성:
- 약 50만 통 이상의 이메일이 수집되어 있으며, Enron 내부 임원과 직원들이 주고받은 이메일이 포함되어 있습니다.
- 여러 이메일 계정에서 추출되었고, 각 이메일에는 송/수신자, 날짜, 제목, 그리고 본문 등의 메타데이터가 포함되어 있습니다.
-
구조와 형식:
- 이메일 텍스트, 첨부파일 정보(첨부파일 자체가 아닌 메타데이터 형태) 등을 포함하고 있으나, 원본 이메일이 모두 완전한 형태로 보존된 것은 아닙니다.
- 데이터 정제 과정 중에 중복 제거, 비정형 데이터의 표준화 등이 이루어졌으며, 연구자들이 텍스트 마이닝, 네트워크 분석, 이상 행동 탐지 등 다양한 목적으로 활용할 수 있도록 구성되었습니다.
-
시간적 범위:
- 이메일 기록은 Enron의 경영이 활발했던 1990년대 후반부터 2001년의 파산 전까지의 기간을 다루고 있어, 해당 기간의 기업 문화, 의사소통 방식, 그리고 내부 관리 시스템 등을 이해하는 데 도움을 줍니다.
II. 데이터 분석
1. Enron dataset 헤더 분석
- Enron data는 이메일 data이므로 헤더와 내용으로 구분된다.
- 헤더는 아래의 표와 같이 구성되어 있다.
헤더 | 설명 |
---|---|
Message-ID | 이메일 시스템 고유 식별자 |
Date | 이메일 발송 날짜 및 시간 정보 |
To | 주요 수신자 목록 |
From | 이메일 발신자 주소 및 이름 정보 |
Subject | 이메일 제목 및 주제 |
Cc | 참조 수신자 목록 |
Mime-Version | MIME 버전 정보 |
Content-Type | 이메일 본문 콘텐츠 유형 및 문자 인코딩 |
Content-Transfer-Encoding | 이메일 본문 전송 인코딩 방식 |
Bcc | 숨은 참조 수신자 목록 |
X-From | 추가 발신자 정보 |
X-To | 추가 수신자 정보 |
X-cc | 추가 참조 수신자 정보 |
X-bcc | 추가 숨은 참조 수신자 정보 |
X-Folder | 이메일 클라이언트 저장 폴더 경로 |
X-Origin | 이메일 작성 원본 시스템 또는 작성자 정보 |
X-FileName | 이메일 클라이언트 파일 이름 정 |
2. 개인정보가 포함된 이메일
- 아래 표는 개인정보가 포함된 이메일의 수를 나타내는 표이다.
- 이메일은 헤더에 보낸 사람의 메일 주소와 받는 사람의 메일 주소가 포함되어 있으므로 전체 데이터에 포함되어 있다.
항목 | 개수(개) |
---|---|
전체 데이터 | 517,407 |
이메일 주소가 포함된 이메일 | 517,407 |
이름이 포함된 이메일 | 517,407 |
전화번호가 포함된 이메일 | 74,287 |
3. 전화번호가 포함된 이메일
-
전화번호는 이메일의 헤더에 포함되어 있지 않고, 내용에 포함되어 있으므로 전체 데이터를 순회하면서 찾을 필요성이 있다.
-
정규표현식을 이용하여 미국 전화번호
000-000-0000
형식의 전화번호를 찾는다. -
사용한 정규표현식을 아래와 같다.
phone_regex = re.compile(r"\b\d{3}-\d{3}-\d{4}\b")
-
전화번호 예시
- 011-612-9229
- 713-853-7107
- 212-299-4164