[dataset] Enron Dataset 분석

I. enron_dataset

1. 배경 및 역사

Enron 사건 개요: Enron은 2001년 파산한 미국의 에너지 거래 대기업으로, 기업 내부의 회계 부정과 부정행위가 드러나며 사회 전반에 큰 충격을 주었습니다. 이 사건은 기업 거버넌스, 회계 기준, 그리고 규제 시스템에 큰 변화를 야기하였고, 법적 절차 중에 방대한 이메일 기록들이 증거로 사용되었습니다.
데이터셋의 출처: Enron 사건 조사 과정에서 수집된 이메일 자료들이 공개되면서, 이 데이터셋은 법원 문서 및 정부 기관(예: 미국 연방에너지규제위원회)과 관련 연구 기관에서 정리되어 학술 연구용으로 배포되었습니다. 대표적으로 카네기 멜론 대학(Carnegie Mellon University) 등이 이 자료를 정리하고 보관해 왔습니다.

2. 데이터셋의 구성 및 특징

자료 규모 및 구성:
- 약 50만 통 이상의 이메일이 수집되어 있으며, Enron 내부 임원과 직원들이 주고받은 이메일이 포함되어 있습니다.
- 여러 이메일 계정에서 추출되었고, 각 이메일에는 송/수신자, 날짜, 제목, 그리고 본문 등의 메타데이터가 포함되어 있습니다.
구조와 형식:
- 이메일 텍스트, 첨부파일 정보(첨부파일 자체가 아닌 메타데이터 형태) 등을 포함하고 있으나, 원본 이메일이 모두 완전한 형태로 보존된 것은 아닙니다.
- 데이터 정제 과정 중에 중복 제거, 비정형 데이터의 표준화 등이 이루어졌으며, 연구자들이 텍스트 마이닝, 네트워크 분석, 이상 행동 탐지 등 다양한 목적으로 활용할 수 있도록 구성되었습니다.
시간적 범위:
- 이메일 기록은 Enron의 경영이 활발했던 1990년대 후반부터 2001년의 파산 전까지의 기간을 다루고 있어, 해당 기간의 기업 문화, 의사소통 방식, 그리고 내부 관리 시스템 등을 이해하는 데 도움을 줍니다.

II. 데이터 분석

1. Enron dataset 헤더 분석

Enron data는 이메일 data이므로 헤더와 내용으로 구분된다.
헤더는 아래의 표와 같이 구성되어 있다.

헤더	설명
Message-ID	이메일 시스템 고유 식별자
Date	이메일 발송 날짜 및 시간 정보
To	주요 수신자 목록
From	이메일 발신자 주소 및 이름 정보
Subject	이메일 제목 및 주제
Cc	참조 수신자 목록
Mime-Version	MIME 버전 정보
Content-Type	이메일 본문 콘텐츠 유형 및 문자 인코딩
Content-Transfer-Encoding	이메일 본문 전송 인코딩 방식
Bcc	숨은 참조 수신자 목록
X-From	추가 발신자 정보
X-To	추가 수신자 정보
X-cc	추가 참조 수신자 정보
X-bcc	추가 숨은 참조 수신자 정보
X-Folder	이메일 클라이언트 저장 폴더 경로
X-Origin	이메일 작성 원본 시스템 또는 작성자 정보
X-FileName	이메일 클라이언트 파일 이름 정

2. 개인정보가 포함된 이메일

아래 표는 개인정보가 포함된 이메일의 수를 나타내는 표이다.
이메일은 헤더에 보낸 사람의 메일 주소와 받는 사람의 메일 주소가 포함되어 있으므로 전체 데이터에 포함되어 있다.

항목	개수(개)
전체 데이터	517,407
이메일 주소가 포함된 이메일	517,407
이름이 포함된 이메일	517,407
전화번호가 포함된 이메일	74,287

3. 전화번호가 포함된 이메일

전화번호는 이메일의 헤더에 포함되어 있지 않고, 내용에 포함되어 있으므로 전체 데이터를 순회하면서 찾을 필요성이 있다.
정규표현식을 이용하여 미국 전화번호 000-000-0000형식의 전화번호를 찾는다.

사용한 정규표현식을 아래와 같다.

phone_regex = re.compile(r"\b\d{3}-\d{3}-\d{4}\b")

전화번호 예시
- 011-612-9229
- 713-853-7107
- 212-299-4164

# I. enron_dataset

### 1. 배경 및 역사

- **Enron 사건 개요:**
  Enron은 2001년 파산한 미국의 에너지 거래 대기업으로, 기업 내부의 회계 부정과 부정행위가 드러나며 사회 전반에 큰 충격을 주었습니다. 이 사건은 기업 거버넌스, 회계 기준, 그리고 규제 시스템에 큰 변화를 야기하였고, 법적 절차 중에 방대한 이메일 기록들이 증거로 사용되었습니다.
- **데이터셋의 출처:**
  Enron 사건 조사 과정에서 수집된 이메일 자료들이 공개되면서, 이 데이터셋은 법원 문서 및 정부 기관(예: 미국 연방에너지규제위원회)과 관련 연구 기관에서 정리되어 학술 연구용으로 배포되었습니다. 대표적으로 카네기 멜론 대학(Carnegie Mellon University) 등이 이 자료를 정리하고 보관해 왔습니다.

------

### 2. 데이터셋의 구성 및 특징

- **자료 규모 및 구성:**
  - 약 50만 통 이상의 이메일이 수집되어 있으며, Enron 내부 임원과 직원들이 주고받은 이메일이 포함되어 있습니다.
  - 여러 이메일 계정에서 추출되었고, 각 이메일에는 송/수신자, 날짜, 제목, 그리고 본문 등의 메타데이터가 포함되어 있습니다.
- **구조와 형식:**
  - 이메일 텍스트, 첨부파일 정보(첨부파일 자체가 아닌 메타데이터 형태) 등을 포함하고 있으나, 원본 이메일이 모두 완전한 형태로 보존된 것은 아닙니다.
  - 데이터 정제 과정 중에 중복 제거, 비정형 데이터의 표준화 등이 이루어졌으며, 연구자들이 텍스트 마이닝, 네트워크 분석, 이상 행동 탐지 등 다양한 목적으로 활용할 수 있도록 구성되었습니다.
- **시간적 범위:**
  - 이메일 기록은 Enron의 경영이 활발했던 1990년대 후반부터 2001년의 파산 전까지의 기간을 다루고 있어, 해당 기간의 기업 문화, 의사소통 방식, 그리고 내부 관리 시스템 등을 이해하는 데 도움을 줍니다.

# II. 데이터 분석

## 1. Enron dataset 헤더 분석

- Enron data는 이메일 data이므로 헤더와 내용으로 구분된다.
- 헤더는 아래의 표와 같이 구성되어 있다.

| 헤더                      | 설명                                     |
| :------------------------ | ---------------------------------------- |
| Message-ID                | 이메일 시스템 고유 식별자                |
| Date                      | 이메일 발송 날짜 및 시간 정보            |
| To                        | 주요 수신자 목록                         |
| From                      | 이메일 발신자 주소 및 이름 정보          |
| Subject                   | 이메일 제목 및 주제                      |
| Cc                        | 참조 수신자 목록                         |
| Mime-Version              | MIME 버전 정보                           |
| Content-Type              | 이메일 본문 콘텐츠 유형 및 문자 인코딩   |
| Content-Transfer-Encoding | 이메일 본문 전송 인코딩 방식             |
| Bcc                       | 숨은 참조 수신자 목록                    |
| X-From                    | 추가 발신자 정보                         |
| X-To                      | 추가 수신자 정보                         |
| X-cc                      | 추가 참조 수신자 정보                    |
| X-bcc                     | 추가 숨은 참조 수신자 정보               |
| X-Folder                  | 이메일 클라이언트 저장 폴더 경로         |
| X-Origin                  | 이메일 작성 원본 시스템 또는 작성자 정보 |
| X-FileName                | 이메일 클라이언트 파일 이름 정           |

### 2. 개인정보가 포함된 이메일

- 아래 표는 개인정보가 포함된 이메일의 수를 나타내는 표이다.
- 이메일은 헤더에 보낸 사람의 메일 주소와 받는 사람의 메일 주소가 포함되어 있으므로 전체 데이터에 포함되어 있다.

| 항목                        | 개수(개) |
| --------------------------- | -------- |
| 전체 데이터                 | 517,407  |
| 이메일 주소가 포함된 이메일 | 517,407  |
| 이름이 포함된 이메일        | 517,407  |
| 전화번호가 포함된 이메일    | 74,287   |

### 3. 전화번호가 포함된 이메일

- 전화번호는 이메일의 헤더에 포함되어 있지 않고, 내용에 포함되어 있으므로 전체 데이터를 순회하면서 찾을 필요성이 있다.

- 정규표현식을 이용하여 미국 전화번호  `000-000-0000`형식의 전화번호를 찾는다.

- 사용한 정규표현식을 아래와 같다.

~~~python
  phone_regex = re.compile(r"\b\d{3}-\d{3}-\d{4}\b")
  ~~~

- 전화번호 예시

- 011-612-9229
  - 713-853-7107
  - 212-299-4164