초판발행 2025.09.30
책을 내면서
통계학을 한 학기 동안 배우면서, 또는 가르치면서, 통계적 추론의 기초가 되는 개념과 이론을 모두 다룰 수 있을까? 통계학 이론을 바탕으로 자료를 관리하고 분석하는 실습도 함께 할 수 있을까? 가상의 자료가 아니라, 실제로 누군가 관찰하여 기록한 자료를 이용하여, 이론을 배워야 하는 맥락을 설명하고, 실습을 통해 자료로부터 배우는 경험을 전달할 수 있을까?
지난 5년 동안 통계를 배우고 가르치면서 이러한 물음을 끊임없이 되뇌었다. 아마 정답은 없겠지만, 경험과 시행착오로부터 다음과 같이 깨달았다. 한 학기 동안 통계의 기초를 공부하면서 실습까지 다루려면, 이론을 10주 이내로 배워야 한다. 이 정도의 기간에 통계적 추론의 기초를 다지려면, 정말 중요한 것에만 집중해야 한다. 통계량, 선형 회귀, 최소자승법, 표본분포, 유의성 검정에 집중한다. 통계학, 계량경제학 전공자라면 여러 학기 동안 중요하게 다뤘을 확률론, 분포함수, 변수변환, 행렬연산, 표본추출 등까지 모두 다룰 여유가 우리에게는 없다. 이러한 내용은 필요한 경우에만 직관적으로 소개한다.
표본 추출 과정이나 자료의 대표성 문제를 크게 고민하지 않으면서 자료를 이용하려면, 공신력이 있는 자료를 이용해야 한다. 국세청에서 제공하는 행정자료인 소득세 표본자료를 이용한다. 실제로 사람들이 선택하고 행동한 결과를 소득금액, 납세액 등으로 자료에서 관찰할 수 있다. 소득세 신고로부터 자료를 추출하기 때문에, 사람들의 기억이나 상상에 의존하는 자료가 아니며, 완전히 가상적으로 컴퓨터가 만들어낸 자료는 더욱 아니다. 나중에 이야기하겠지만, 소득세 표본자료에도 가상의 관측치가 아주 일부 포함되어 있다. 자료 구조와 변수 정의에 아쉬운 점이 전혀 없는 것도 아니다. 그럼에도 불구하고, 통계의 기초 개념을 설명하고, 자료 분석을 실습하는 데, 이만한 자료를 찾기는 어렵다.
학부와 대학원에서 번갈아 가며 조세통계라는 과목을 강의하였다. 처음에는 경제학 전공 과목 중 경제통계, 또는 경영학 전공 과목 중 경영통계와 비슷한 과목이라 여기고 시작하였는데, 나중에 보니 두 가지 중요한 차이점이 있었다. 조세통계 다음에 이어서 배울, 고급 통계를 다루는 전공 과목이 없고, 세무학과와 세무전문대학원의 복합적인 전공 구성을 고려할 때 조세통계를 굳이 수강할 이유도 없다는 것이다. 그래서 한 학기 동안 통계학의 기초를 모두 훑으면서도, 수강생들이 힘들거나 지루하지 않도록 틈틈이 학습의 동기를 부여할 필요가 있었다. 그래서 가능하면 조세 제도 및 정책과 관련된 예를 제시하려고 노력하였다. 그리고 국세청 소득세 표본자료를 비롯한 실제 자료를 이용하고, Python, R, Stata 등의 프로그램에 코딩하면서 학습하도록 계획하였다.
조세통계의 강의노트를 준비하고, 학기마다 강의하며 내용을 더하여, 이 책을 쓰기에 이르렀다. 처음 강의노트를 준비하면서 서울대 류근관 교수님의 통계학 교과서를 참고하였고, 학창 시절을 거치며 쌓아둔 여러 은사님들의 강의노트에서도 영감을 받았다. 조세통계 수업에서 학생들은 질문을 하거나 지루한 표정을 짓거나 시험 문제에 오답을 쓰면서 내가 무엇을 더 설명해야 하고 그만 설명해야 하는지 알 수 있도록 도왔다. 박영사 장규식 팀장님과 탁종민 과장님은 졸고가 멋진 책으로 탈바꿈하도록 출판 과정에서 도움을 주었다. 이 책을 쓰면서 2023년도 서울시립대학교 기초·보호학문 및 융복합 분야 R&D 기반 조성 사업에 의하여 지원을 받았다. 집필하는 과정에서 도움을 받은 모든 분들께 감사하다는 말씀을 드리고 싶다.
2025년 8월
홍성훈
목차
CHAPTER 01 통계를 배우는 이유
1 통계학을 공부하는 목적 11
2 통계학의 종류 13
3 모집단과 표본 14
4 자료의 종류 16
5 실험 연구와 경험 연구 17
연습 문제 20
CHAPTER 02 변수, 분포, 히스토그램
1 변수의 종류 23
2 분포와 히스토그램 25
3 소득세 표본자료를 이용한 히스토그램 26
연습 문제 31
CHAPTER 03 통계량
1 평균 35
2 표준편차 38
3 표준편차 계산할 때 로 나누는 이유 39
4 분위수 40
5 소득세 표본자료의 통계량 42
연습 문제 45
CHAPTER 04 확률변수와 정규분포
1 확률변수 49
2 정규분포 51
3 정규분포곡선의 특징 53
4 소득세 표본자료와 정규분포 54
연습 문제 57
CHAPTER 05 상관관계
1 결합분포와 산포도 61
2 상관계수 65
3 상관계수의 특징과 한계 69
4 소득세 표본자료와 상관계수 71
연습 문제 73
CHAPTER 06 회귀분석
1 조건부 평균의 변화 77
2 선형 근사 79
3 최소자승법 81
4 표준오차 85
5 결정계수 87
6 소득세 표본자료에서 소득과 세액의 선형 관련성 89
연습 문제 91
CHAPTER 07 기댓값과 표준오차
1 확률과정 95
2 기댓값과 표준오차 97
3 추출횟수와 시행횟수 99
연습 문제 101
CHAPTER 08 표본분포
1 표본분포 105
2 모평균의 신뢰구간 109
3 여론조사 신뢰구간 110
연습 문제 114
CHAPTER 09 유의성 검정
1 검정의 논리 119
2 가설 설정 121
3 검정통계량과 p-값 122
4 제1종 오류와 제2종 오류 124
5 복수표본 -통계량 126
6 회귀분석과 -통계량 126
7 유의성 검정 131
연습 문제 133
참고문헌 136
부록 138