박영사

SITEMAP
전체메뉴닫기
박영사/박영스토리 분야별 도서
닫기
데이터 시각화와 자료분석
신간
데이터 시각화와 자료분석
저자
고길곤
역자
-
분야
통계/연구방법
출판사
박영사
발행일
2019.04.30
개정 출간예정일
페이지
456P
판형
사륙배판
ISBN
979-11-303-0747-3
부가기호
93310
강의자료다운
정가
28,000원

 이 책은 저자가 구상해왔던 방법론 시리즈의 일환으로 기획되었다. 사회과학 분야의 방법론은 빠르게 발전해왔기 때문에 특정 방법론만을 가지고 연구를 수행하는 것은 더이상 유효하지 않다. 회귀분석 정도를 알아도 충분하다는 시절이 있었고, 계량경제학이 방법론의 전부인 것처럼 오해되던 시절도 있었다. 최근에는 설명 중심의 분석 모형을 넘어서 예측모형인 기계학습(machine learning)이라는 영역이 큰 관심을 끌고 있다. 새로운 방법론이라고 불리는 것도 사실은 고전적인 모형의 논리구조를 확장하는 과정이기 때문에 방법론 발전의 맥락을 이해하면서 연구문제에 적합한 방법론을 선택하는 것이 중요하다. 이를 위해 저자는 『통계학의 이해와 활용』(문우사), 『범주형 자료분석』 (문우사), 『효율성 분석』(문우사) 등을 저술해왔다.『데이터 시각화와 자료분석』은 각종 방법론을 활용할 때 기본이 되는 시각화 방법론을 체계적으로 소개하기 위한 책이다.

  데이터 분석의 경험이 풍부한 사람일수록 자료가 갖고 있는 정보를 쉽게 요약 ? 정리해서제공하는 것이 어렵다는 것을 많이 느낀다. 『데이터 시각화』 책을 쓰게 된 가장 큰 동기는 계속 축적해나아가고 있는 공공데이터 자료들을 분석하고 정리하는 과정에서 시각화 모듈의 필요성을 절감했기 때문이다. 또한 자료 분석 방법론이 발전함에 따라 복잡한 통계모형의 결과를 이해하기 쉽게 제공하기 위해서는 시각화 방법이 효율적이지만 이를 구현하는 방법론에 대한 논의가 그동안 체계적으로 제시되지 못해왔다. 이것은 통계프로그램이 기본으로 출력해주는 표와 그래프를 별다른 고민 없이 그대로 사용하는 경향이 강했기 때문이다. 사실 저저가 통계 프로그램을 이용한 데이터 시각화를 가르치다보면 “왜 손쉬운 엑셀을 놔두고 어려운 프로그램을 사용해서 시각화를 해야 하는가”라는 질문을 자주 받는다. 이 질문이 나오는 이유는 많은 변수를 반복적으로 분석해야 하는 작업을 수행한 경험이 없기 때문이다. 또한 사회과학 연구 결과를 소통할 때 원자료와 분석파일을 의무적으로 제공하는 관행이 정착되지 않았기 때문에 굳이 프로그램 코딩을 통해 시각화를 할 필요성을 느끼지 못하기 때문일 수도 있다. 하지만 분석해야 할 변수의 수가 늘어나고, 다수의 연구자가 협업을 통해 자료 분석을 수행해야 하는 상황이 많아질수록 대화식 방식보다는 프로그램 방식의 시각화는 필수적이다.

  이미 국내에도 R이나 Python과 같은 프로그램을 이용한 데이터 시각화 방법론을 소개한 책들이 많이 출판되기 시작하였다. 이들 중 상당 부분은 해외 원서를 번역한 경우가 많고 주로 시각화 패키지의 기능을 소개하는 경우가 많았다. 이 책이 기존 책과 차별되는 점은 시각화 자체에 초점을 맞추기보다는 시각화에 적합한 자료형태를 만들기 위한 자료처리의 과정, 시각화에 사용되는 다양한 그래프의 유형, 기술통계분석/상관분석/분산분석/회귀분석/로지스틱 회귀분석/시계열 분석 등의 통계분석 결과를 시각화하는 방법, 그리고 공간분석을 위한 시각화 방법들을 통합하여 소개하고자 했다는 점이다.

  저자는 Jupyter Notebook 환경하에서 SAS, R, Python 등의 프로그램을 통합하여 자료분석에 사용하고 있지만 어느 프로그램을 사용할 것인가는 큰 문제가 되지 않는다는 것을 느낀다. 저자가 익숙한 SAS 환경하에서 대부분의 시각화는 구현될 수 있으며, 이는 Python이나 R에서도 마찬가지다. 중요한 것은 시각화를 하는 패키지나 함수가 아니라 어떤 논리를 가지고 시각화를 해야 한다는 것이다. 이 책에서는 SAS를 활용한 시각화를 제시하고 있지만 독자들이 원한다면 R이나 Python을 이용한 시각화 책도 동일한 논리구조를 활용하여 향후 출판을 할 의향은 있다.

  이 책의 구성은 다음과 같다. 2장과 3장 부분은 SAS를 이용한 자료처리 부분을 설명하고 있기 때문에 SAS에 익숙한 독자는 크게 신경을 쓰지 않아도 된다. 다만 자료 처리과정에서 직면하는 다양한 상황을 예제를 통해 설명하고자 했으므로 빠르게 일독을 권한다. 4장은 여러 유형의 그래프를 소개하면서 독자들이 그래프의 유형에 친숙하도록 하고자 했다. 가능하면 SAS가 제공하는 다양한 옵션을 나열하기보다는 기본 그래프를 이해하고 상황에 맞게 옵션들을 이용할 수 있도록 시각화 수준을 조금씩 높여가며 설명하였다. 5~8장은 통계분석 결과를 시각화하는 방법을 제시하였다. 사회과학 연구에서는 주로 표를 이용하여 분석 결과를 제공하지만 이 책에서는 시각화 방법을 이용하여 통계분석 결과를 제시하는 방법을 소개하고자 하였다. 그리고 마지막 9장과 10장은 공간정보의 시각화 문제를 다루었다. 공간정보 시각화는 빠르게 발전하고 있는 분야로, 과거에는 GIS에 특화된 프로그램을 이용한 시각화가 일반적이었지만 SAS에서도 다양한 시각화와 분석 기능을 제공하고 있기 때문에 이를 소개하였다. 마지막으로 11장은 자료 시각화의 발전 방향을 제시하였다. 이 책에 사용된 코드와 자료는 kilkon@gmail.com으로 연락을 주면 공유할 수 있도록 하겠다.

  객체지향프로그래밍(object-oriented programming)은 컴퓨터 프로그래밍 패러다임의 핵심적인 위치를 차지하고 있다. 템플릿 방식으로 다양한 시각화 방법을 모듈화하고, 그래프위에 통계분석 값들 정보를 함께 제공하는 모듈들은 앞으로 빠르게 발전할 것이다. 데이터시각화를 단지 그림 그리는 것쯤으로 폄하할 수 있지만 데이터 시각화는 통계분석의 모듈화 작업의 일부로 이해할 수 있다. 통계분석을 수행하면 기본값으로 다양한 시각화 결과가 나오는 것도 템플릿 모듈을 이용한 분석 결과라고 할 수 있기 때문이다. 앞으로 많은 연구자들이 다양한 시각화 모듈을 개발하여 공유하면서 방법론 발전에 기여하기를 소망한다. 저자 역시 앞으로 데이터 시각화 방법론을 더욱 발전시켜 새로운 개정판을 통해 부족한 부분을 보완하도록 하겠다. 

  이 책이 나오기 까지는 많은 분들의 도움을 받았다. 학문의 길을 이끌어준 서울대 행정대학원 노화준 명예교수님, University of Pittsburgh의 John Mendeloff 교수님의 가르침이 없었다면 이 책은 불가능했다. 이 책의 초고가 나왔을 때 서울대 행정대학원 박사과정 김경동, 신가영, 이시영, 김란 학생과 석사과정의 정다원, 이민아 학생은 오탈자 교정에 큰 도움을 주었다. 매주 연구실 세미나를 하면서 고생을 하는 학생들이 고마울 따름이다. 박영사 손준호 과장님은 무한한 인내로 늦어지는 원고작업을 기다려주셨으며 편집부는 멋진 편집으로 전혀 다른 원고로 만들어주셨다. 어려운 출판 환경에서도 책의 출판을 지원해주신 박영사에 깊은 감사를 표한다.

  한 권의 책이 나올 때마다 가족에 대한 미안함은 커지는 것 같다. 남편을 믿고 묵묵히 이해해주는 아내 강금화, 힘겨운 고3의 시간을 아빠의 도움 없이 혼자 잘 이겨낸 딸 희경, 그리고 한국의 잔인한 교육환경에서도 자신의 길을 개척하려고 애쓰는 아들 석찬에게 어떻게 고마움을 표해야 할지 모르겠다. 평생 농사를 지으며 성실함과 정직함을 가르쳐주신 부모님께 이 부족한 책이 조그마한 보답이 되기를 바란다. 마지막으로, 고등학교 때부터 대학원 때까지 어려운 가정환경에도 불구하고 동생의 뒷바라지를 해주면서 격려해주고 믿어준 누나의 헌신이 없었다면 나는 학자의 길을 포기했을 것이다. 감사의 마음을 담아 이 책을 누나 고은주에게 바치고자 한다.


관악 연구실에서

고 길 곤

고 길 곤 교수는 연세대학교 응용통계학과를 나와 서울대 행정대학원 석사, 미국 Pittsburgh 대학 정책학 박사를 마쳤다.

National University of Singapore 정치학과에서 교수로 재직하다가 2011년부터 서울대 행정대학원에서 정책 분석 및 평가, 계량분석, 행정윤리 등을 가르치고 있다.

[통계학의 이해와 활용], [효율성 분석 이론], [범주형 자료분석] 등을 비롯하여 다수의 저서와 논문이 있으며,

현재 Asian Journal of Political Science 편집장이며, International Review of Administrative Sciences를 비롯한 여러 학술지 편집위원으로 활동하고 있다. 


제 1 부 자료의 시각화

제 1 장 자료의 시각화 ······························································································· 3

1. 왜 자료의 시각화인가? ·········································································· 4

2. 자료의 시각화의 목적은 무엇인가? ·················································· 11

3. 자료의 시각화 방법과 오류 ································································ 21

4. 자료의 시각화를 위한 그래프에는 어떤 것들이 있는가? ············· 27


제 2 장 SAS의 소개 ································································································· 33

1. SAS를 이용한 자료 시각화의 접근방법 ··········································· 34

2. SAS에 대한 오해와 SAS의 장점 ······················································· 39

3. SAS 프로그램의 기본 구조: DATA 스텝과 PROC 스텝 ············· 43


제 3 장 SAS에서의 자료 입출력 및 자료운영 ················································· 53

1. 자료의 입출력 ······················································································ 54

2. 교차표 형식의 자료 입력 ···································································· 68

3. 변수변환 ·································································································· 77

4. 변수 및 변수 값에 레이블 붙이기 ···················································· 86

5. 횡형 자료와 종형 자료 간의 변형 ·················································· 103

6. 축차변수 만들기 ·················································································· 126

7. 자료의 정렬과 결합 ············································································ 130


제 2 부 자료 시각화를 위한 기본 그래프 유형

제 4 장 시각화를 위한 기본 그래프 ·································································· 141

1. SAS의 통계 그래프의 기본 유형 ··················································· 142

2. 기본 그래프의 구현과 응용 ······························································ 151

3. PROC SGPANEL을 이용한 시각화 ················································· 195

4. PROC SGSCATTER를 이용한 시각화 ············································ 197

5. GTL을 이용한 시각화 ········································································ 199

6. 다양한 자료 시각화 예시들 ······························································ 217


제 3 부 통계분석의 시각화

제 5 장 기술통계분석을 위한 시각화 ································································· 231

1. 범주형 변수 분포의 시각화 ······························································ 233

2. 연속형 변수 분포의 시각화 ······························································ 260


제 6 장 그룹 간 차이분석과 분산분석 결과의 시각화 ································· 283

1. 두 집단 간의 차이 검정의 시각화 ·················································· 285

2. 분산분석을 이용한 집단 간의 평균 차이 분석 ····························· 288

3. 그룹 간 평균 차이의 시각화 ···························································· 292


제 7 장 회귀분석 결과의 시각화 ········································································· 303

1. 산점도 분석을 통한 독립변수와 종속변수의 특성 파악하기 ······ 305

2. 모형적합도의 판단을 위한 시각화 ··················································· 311

3. 회귀계수의 시각화 ·············································································· 312

4. 회귀가정 검토를 위한 시각화 ·························································· 320


제 8 장 로지스틱 회귀분석 결과의 시각화 ······················································ 329

1. 분석 예제 자료 ···················································································· 330

2. 모형적합도 ···························································································· 332

3. 추정된 회귀계수의 시각화 ································································ 337

4. 한계효과를 이용한 확률 변화의 크기 해석 ··································· 342

5. 로지스틱 회귀분석에서의 상호작용 효과 ······································· 345


제 4 부 공간정보의 시각화

제 9 장 공간정보의 시각화 개요 ······································································· 359

1. 왜 공간정보 시각화인가? ·································································· 361

2. 공간좌표 구하기 ················································································ 362

3. 지리정보 가져오기 ·············································································· 366

4. GEOCODING의 개념 ·········································································· 370


제10장 공간정보를 이용한 시각화 ···································································· 373

1. GMAP을 이용한 시각화 ···································································· 374

2. 엑셀에 저장된 속성자료와 SAS 공간자료를 이용한 분석 ·········· 390

3. 외부 공간정보 자료를 가져와 지도 그리기 ··································· 392

4. 인터넷상의 지리정보를 직접 활용하기 ··········································· 408


제11장 자료 시각화의 발전 방향 ······································································ 415