초판발행 2026. 01. 05
머리말
이 책을 집필한 필자는 한국도로공사에 몸담고 있는 구성원으로서, 고속도로라는 특수한 공간과 밀접한 관계 속에서 살아가고 있다. 이로 인해 자연스럽게 고속도로를 중심으로 한 이야기와 데이터를 다룰 수밖에 없었다. 다행히 고속도로는 필자뿐만 아니라 많은 이들의 일상에 깊숙이 자리한, 친숙하면서도 중요한 공간이다.
사전적으로 고속도로는 차량의 고속 주행을 위해 설계된 도로이지만, 그 본질은 단순한 교통 인프라에 머물지 않으며, 사람과 사람, 지역과 지역, 문화와 문화를 연결하는 중요한 매개체이다.
이는 한국도로공사의 기업이념인 “우리는 길을 열어 사람과 문화를 연결하고 새로운 세상을 넓혀간다”라는 문장에서 잘 드러난다. 이 책 또한 이와 같은 ‘연결’의 가치를 중심에 두고 기획하고 집필하였다.
책의 집필 과정에서 필자가 주목한 연결의 관점은 3가지로 요약될 수 있다.
첫째, 이론과 현장의 연결이다.
이 책은 고속도로와 관련된 실생활 데이터를 활용하여 이론을 설명하고자 하였다. 이러한 접근은 독자가 개념을 보다 생생하게 이해하는 데 도움이 되며, 교육현장은 물론 산업현장에서도 폭넓게 활용될 수 있을 것이다.
둘째, 도구와 도구의 연결이다.
데이터 분석에서 널리 사용되는 R과 Python 두 언어를 병행하여 설명하였다. 마치 영어와 스페인어처럼 서로 다른 문법을 지니고 있지만, 공통된 의미를 전달하는 두 언어를 함께 학습함으로써 독자들은 분석 도구에 대한 폭넓은 이해와 실전 감각을 함께 익힐 수 있을 것이다.
셋째, 단계와 범위의 연결이다.
이 책은 데이터 과학의 기초개념부터 심화기법까지 아우르며, 학부 수준은 물론 대학원 수준까지 연결될 수 있도록 구성하였다. 데이터 분석을 처음 접하는 입문자부터 이를 연구·실무에 적용하고자 하는 전문가까지 두루 도움이 되기를 기대한다.
전체적인 구성은 독자의 학습 흐름을 고려해 기초부터 실전까지 점진적으로 나아갈 수 있도록 설계하였다.
특히 이 책은 고속도로에서 수집된 실제 데이터를 바탕으로, R과 Python이라는 2가지 주요 프로그래밍 언어를 병행하여 데이터 분석과 머신러닝의 핵심기법을 설명하고 있다. 실무 기반 데이터를 다루며 두 언어를 함께 익히는 과정은, 독자에게 더욱 풍부한 학습 경험을 제공할 것이다.
책은 먼저 분석 환경을 설정하는 방법을 소개하며 시작한다. 이어서 데이터를 다루기 위해 꼭 필요한 전처리 과정과 탐색적 분석 기법을 다루고, 이후에는 통계학의 기본개념과 확률분포, 통계적 추론 등의 핵심이론을 정리한 뒤, 이를 바탕으로 t검정, 분산분석, 회귀분석 등 전통적인 통계 기반 분석 기법을 실습할 수 있도록 구성하였다.
마지막으로는 머신러닝의 세계로 넘어가 전통적 모델, 앙상블 모델, 신경망 모델 등과 같은 다양한 머신러닝 기반 분석 기법을 소개하며, 데이터 분석의 확장된 가능성을 제시하고자 했다.
다만, 아쉬운 점도 있다. 머신러닝 기법 중 비지도 학습과 합성곱신경망이나 순환신경망 등은 포함하지 못했다. 이는 앞으로 꼭 보완하고 싶은 과제로 남겨두며, 향후 개정판 또는 후속 작업을 통해 독자 여러분께 선보일 것을 약속드린다.
이 책을 통해 독자 여러분이 데이터라는 도구를 통해 새로운 세상과 연결되고, 그 속에서 자신만의 길을 넓혀 가시기를 진심으로 응원한다.
2026년 겨울
저자 드림
저자소개
조희수
경희대학교에서 경영정보시스템을 전공하며 박사학위를 취득하였다. 한국도로공사 ICT센터, 스마트톨링추진단, 영업시스템처 등에서 근무하면서 공공서비스 분야의 IT 혁신을 주도해 왔으며, 현재는 산업 현장에서 데이터 기반 의사결정 지원과 기술 적용 확산에 기여하고 있다.
아울러 국립창원대학교 빅데이터자산관리학과와 김천대학교 스마트물류시스템공학과에서 겸임교수로 재직하며 빅데이터, 통계, 머신러닝, 인공지능 과목을 강의하고 있으며, 풍부한 실무 경험을 바탕으로 실용적이고 문제 해결 중심의 인재 양성에 힘쓰고 있다.
Chapter 01 분석 환경 구축
제1절 분석 환경 이해 3
제2절 R과 R Studio 설치(Windows 기준) 4
1. R 설치 4
2. R Studio 설치 5
3. 프로젝트 생성 8
제3절 Python과 아나콘다 설치(Windows 기준) 10
1. 아나콘다 설치 10
2. 주피터 노트북 활용 12
제4절 프로그래밍 기초 문법 15
1. 변수 17
2. 함수 18
3. 패키지 18
4. 연산자 24
Chapter 02 데이터 전처리와 탐색적 분석
제1절 데이터 유형과 구조 29
1. 데이터 유형 29
2. 데이터 프레임 구조 30
제2절 데이터 탐색 31
1. 데이터 로딩 31
2. 데이터 파악 33
제3절 데이터 정제 37
1. 이상치와 결측치 처리 37
2. 데이터 스케일링 49
Chapter 03 통계이론
제1절 통계의 기본개념 57
1. 통계 개요 57
2. 전수조사와 표본조사 59
3. 집단 특성 지표 60
제2절 주요 확률분포 68
1. 정규분포 69
2. t분포 73
3. χ²분포 74
4. F분포 75
제3절 통계적 추론 76
1. 추정 76
2. 가설검정 77
Chapter 04 전통적 통계 기반 분석 기법
제1절 빈도의 비율 차이 분석 91
1. 교차분석 91
2. Fisher의 정확성 검정 100
제2절 평균 차이 분석Ⅰ: t검정 106
1. 단일표본 t검정 108
2. 대응표본 t검정 116
3. 독립표본 t검정 124
제3절 평균 차이 분석Ⅱ: 분산분석 136
1. 일원 분산분석 137
2. 이원 분산분석 151
3. 반복측정 분산분석 166
제4절 상관분석 180
1. 데이터 불러와 확인 181
2. 상관분석 실시 184
3. 상관분석 결과 표현 187
제5절 회귀분석 189
1. 단순 선형회귀 191
2. 다중 선형회귀 218
3. 로지스틱 회귀 243
Chapter 05 머신러닝 기반 분석 기법
제1절 머신러닝 개요 261
1. 개념 261
2. 활용 방식 262
3. 주요 기법 263
4. 분석 절차 265
5. 데이터 분할 방법 266
6. 모델 성능 평가 269
7. 예제 데이터 274
제2절 전통적 모델 277
1. K-최근접 이웃 277
2. 결정 트리 291
3. 서포트 벡터 머신 300
제3절 앙상블 모델 311
1. 배깅 결정 트리 311
2. 랜덤 포레스트 323
3. Gradient Boosting Machine 332
4. XGBoost 345
제4절 신경망 모델 361
1. 인공신경망 361
2. 심층신경망 375
제5절 성능 평가 결과 410