박영사

SITEMAP
전체메뉴닫기
닫기
즐거운 R 코딩, 풀리는 R Commander 확률 통계
신간
즐거운 R 코딩, 풀리는 R Commander 확률 통계
저자
김준우
역자
-
분야
사회학/미디어/언론
출판사
박영사
발행일
2023.03.17
개정 출간예정일
페이지
304P
판형
사륙배판
ISBN
979-11-303-1724-3
부가기호
93310
강의자료다운
-
정가
23,000원

초판발행 2023.03.17


이 책 목차만 보아도, R과 확률통계 둘 다 이해가 꽤나 된다. 목차만 보아도 공부가 되는 것은, 그렇게 설계되었기 때문이다. 문과생 대상 수업을 통한 진화 결과물이 이 책이다. 

중요한 것은 수업방식이다. 의욕이 가득한 학생들이 자유롭게 질문하고 실습하다 보면, 잡다한 것을 접고 본질로 나아간다. 그래서 기본 단위 벡터vector 그 실질적 작동을 반복적으로 다룬다. 단위가 하나 하나의 숫자나 문자가 아니기에, 벡터 계산에서 재활용recycling 현상이 일어난다. 

더 쉽게도 진화가 이루어진다. R 코딩에서 함수function 이해가 중요하다. 이해하려면 이름 원래 의미를 알아야 한다. 영어 단어 뜻과 발음, 때로는 어원도 설명한다. 흔히들 영어로 쭉 적고 그대로 코딩하라는 얘기을 한다. 『영어재미붙이기: 어원과 동사』, 『어원+어원=영단어』 두 권을 추천한다. 마음에 여유가 없으면, 『어원+어원=영단어』 부록 ‘앞에 붙는 어원’을 읽어보자. 

수업에서 늘 대화형 언어라는 R 특징을 활용한다. 벡터 구성요소를 매번 보여준다. 책 분량이 길어지지만, 이해는 쉬워진다. 함수 세부사항도 생략하지 않고 보여준다. 

수업에서의 이런 저런 과정을 그대로 담아두는 것도, 하나의 진화이다. 모로 가도 서울만 가면 된다고 코딩하는 사람들은 이야기한다. 중위수 미만 평균 만들기 같은 수업 실습 내용을, 책에서는 그대로 담고 있다. 

이 책은 혼자서 해도 재미를 붙일 수 있다. 수업에서와 마찬가지로, 하루 10분씩 교재 내용을 컴퓨터 실습하자.

책 내용 구성이 특별하다는 것을 강조하고 싶다. R 언어와 확률통계를 연결한다. 특히나 손쉬운 프로그램인 R Commander를 연결시킨다. 

이런 접근으로 통찰적 이해가 가능하다. 요인factor 개념에서 이러한 점이 잘 드러난다. 백과사전식 설명을 하지 않는다. 책 전반에서 먼저 측정수준을 전체를 연결하는 고리로서 진행한다. 이런 식으로 숫자가 가지는 의미 차이에서 요인이 나온다는 것을 드러낸다. 그리고는 R Commander 실습을 통해 요인이라는 것이 실체가 있다는 것을 보여준다. R 코딩에서의 요인 만들기 실습을 해보면서 자신감을 가진다.

이러한 지향은 앞으로 나아갈 발판도 제공한다. R 코딩과 확률통계 공부는, 인공지능 한 분야인 머신러닝machine learning 공부의 기초이다. 조건부 확률은 머신러닝으로 나아가는 중요한 기초인 것 같아, 그 원리를 자세히 풀어 설명한다.

사실 책 전체에서 수학 기초를 다루고 있다. 수학에 재미를 붙여야, 코딩 실력이 쭉 나아갈 수 있다. 단순히 R 삼각함수 명령어를 다루지 않고, R 각도 단위인 라디안radian 설명을 한다. 행렬 곱셈도 일단 이해되게 얘기한다. 확률 개념에 대해서도 그래서 더 쉽고 상세하게 풀어 놓는다. 이 정도 수학만 알아도, 수학 때문에 코딩 못 한다는 공포는 일단 접어둘 수 있다.

이 책 그리고 『즐거운 SPSS 풀리는 통계학』, 이 두 권은 상호보완적이다. 즐거운 SPSS에서 이미 충분히 설명이 된 부분에 대해서는, 이 책에서는 다른 각도에서 간단히 설명한다. 이 책에서는 확률 부분이 더 보강되고, R 코딩을 통한 시뮬레이션에 집중한다.

이쯤에서 R 코딩과 R Commander 차이를 궁금해 할 수 있다. 흔히 이야기하는 버스와 자가용 비유로 이해할 수 있다. 몇 개의 주어진 통계분석을 반복적으로 쓰려고 하면, R Commander를 먼저 배우면 된다. 버스 노선을 이용하는 셈이다. 편하고 쉽다는 장점이 있다. 

R 코딩을 익히면 더 좋다. 버스가 가지 않는 곳을 내가 내 차로 갈 수 있다. 교재에 나오는 중위수 미만 평균이 하나의 예이다. 만약 각국 소득을 이 새 지표로 측정한다면, 평균이나 중위수 값과는 다르게, 잘난 구석이 별로 없는 평범한 사람의 현실에 더 가까운 숫자가 나타날 것이다. 

책을 끝내는 이 시점에서는, 어머니 간병해주신 이무순 이모와 기도해주신 최상준 유스티노 신부님이 먼저 생각난다. 아주대 경제학과 김동근 교수님은 조건부 확률 장을 읽어 주셨다. 같은 사회대에서 챙겨주신 이정록 교수님과 김용철 교수님, 문화전문대학원에서 같이 고생한 조인숙 김동문 선생님, 부산연구원 시절부터 도와주신 금성근 황영우 박사님에게 감사드린다. 고마움을 고향친구(구진만, 김중모, 박재영, 신현덕, 안준모, 유영준, 정우철, 정유인)에게 전한다.

마지막으로 초판이 나오기까지 적극적으로 지원해주신 박영사의 안종만·안상준 대표님, 기획을 적극적으로 추진해주신 박부하·이후근 님, 편집을 진행해주신 탁종민 님께 감사의 마음을 전한다.


2023년 저자

김준우

미시간주립대 사회학-도시학 박사

싱가포르국립대 박사 후 과정

부산발전연구원 부연구위원

전남대 사회학과 교수


저․역서

『사회과학의 현대통계학』(김영채 공저), 박영사.

『즐거운 SPSS, 풀리는 통계학』, 박영사.

『국가와 도시』, 전남대학교출판부, 2008년 문화체육관광부 선정 우수학술도서.

『선집으로 읽는 한국의 도시와 지역』(안영진 공편), 박영사.

『공간이론과 한국도시의 현실』, 전남대학교 출판부.

『황금도시: 장소의 정치경제학』, 전남대학교 출판부.

John R. Logan & Harvey L. Molotch(2007), Urban Fortunes: The Political Economy of Place, The University of California.

『새로운 지역격차와 새로운 처방: 철근/콘크리트에서 지역발전유발 지식서비스로』(안영진 공저), 박영사.

『서울권의 등장과 나머지의 쇠퇴』, 전남대학교 출판부.

『미국이라는 공간: 부동산 투기·노예제·인종 차별·인디언 제거·뺏기는 삶의 터전』, 박영사.

『어원+어원=영단어』, 박영사.

『영어재미붙이기 어원과 동사』, 전남대학교 출판부.

『20세기 공간이론』, 전남대학교 출판부.


1. R 설치 1

2. 명령문 실행하는 R 콘솔을 계산기로 써보기 8

3. 최소단위 벡터vector 그리고 구성요소 묶는 c 함수 10

4. 1:5 하면 1 간격으로 이렇게 1 2 3 4 5 12

5. 문자 벡터 구성요소에 "" 없으면 R이 객체를 찾는다 13

6. 벡터가 최소단위라서 재활용recycling 15

7. 맞다TRUE 아니다FALSE 논리 벡터 19

8. 그리고& 혹은| 아니다! 21

9. ==대신 = 쓰면 보통은 벡터가 지정된다 26

10. 벡터 구성요소 가져오는 대괄호 [] 27

11. 제곱근sqrt 절대값abs 반올림round 올림ceiling 내림floor 소수버림trunc 29

12. R에서는 은행 반올림banker’s rounding 쓴다 32

13. R 각도는 라디안radian 34

14. log 함수와 자연상수 36

15. 중심을 표현하는 함수 mean median 38

16. R 자체 함수 안 쓰고 버티기와 length 함수 39

17. 결측값NA 그리고 결측값 없애는 na.rm 함수 41

18. 규칙적 벡터 그리고 벡터 규칙적으로 정리하기 seq rep sort 42

19. 벡터 구성요소 하나 하나 한꺼번에 따지는 ifelse 함수 45

20. 중위수 미만 평균이라는 새로운 시도 47

21. 대괄호 [ ] 써서 중위수 미만 평균 구하기 48

22. ifelse 써서 중위수 미만 평균 구하기 49

23. subset 써서 중위수 미만 평균 구하기 50

24. 자신만의 함수 만들기 51

25. if 함수를 잘 안 쓰고 대신 ifelse 쓰는 이유 54

26. 벡터로 데이터프레임 만들기 56

27. 열 행 묶어 데이터프레임 그리고 벡터 재활용 rbind cbind 57

28. 중간에 $ 넣어서 데이터프레임에서 벡터 가져오기 60

29. 벡터를 그냥 표처럼 정리하면 메트릭스 61

30. 메트릭스 다르게 만들기 rbind cbind 63

31. 메트릭스에서 행과 열 이름 붙이기 64

32. 메트릭스에서 apply 함수 65

33. apply 함수와 배열array 68

34. 메트릭스 계산 69

35. R Studio 72

36. source script 라고 부르는 이유와 print 함수 paste 함수 77

37. 만들고 실행한 결과물인 작업공간 저장하지는 말자 78

38. 좌표 찍기 plot 80

39. 데이터프레임 plot 85

40. 좌표 실제 나오는 방식 type 86

41. polygon 비어있는 좌표를 만든 이후에 다각형 그리기 90

42. 도박하면 망한다는 큰수 법칙, R Studio 편집창으로 실습 91

43. 각 자리에 다른 걸 늘어놓는 경우의 수 팩토리얼factorial 94

44. 조합combination 공식없이 이해하기 98

45. 조합과 파스칼 삼각형 102

46. 기댓값, 이항분포 기댓값, 이항분포 확률 계산 107

47. t값이나 표준점수로 비교가 가능하다 111

48. 표준정규분포와 정규분포 112

49. R commander 설치 118

50. R Commander 데이터 입력 121

51. R Commander 중심경향 산포도 126

52. R Commander 편집하고 분석하고 다시 저장하기 131

53. 목록이 있어야 무작위 표본추출이다. 그래야 확률통계이다 135

54. 가설제기는 검사의 유죄 기소이다. 가설검정은 재판이다 136

55. 생사람 잡을 확률이 유의확률이다 137

56. 숫자화된 정보의 네 가지 측정수준은 이름 순서 점수 비율 137

57. 통계분석 본질은 변수간 관계 여부  통계분석 실제는 측정수준 138

58. 평균비교  남녀차별  비연속∾연속 140

59. 교차분석  R Commander에서 text 파일 열기 145

60. 교차분석  남녀차별 비연속∾비연속 148

61. 교차분석  기댓값 원리  생각해보기 149

62. 재판에서는 증거늘면 유죄  가설검증은 표본크기 늘면 입증 152

63. 비연속∾연속  평균비교 대신 분산분석을 쓰는 경우 156

64. R 자체 파일 가져오기 158

65. 상자그림  본격적 분석 이전에 살펴보기 161

66. 히스토그램  본격적 분석 이전에 살펴보기 163

67. 정규성 검정  전제조건으로서 정규분포 여부 확인 165

68. 등분산 가정  비교하는 집단내 값이 흩어진 정도가 동일 167

69. 분산분석  세 집단 연봉 차이  비연속∾연속 168

70. pf 함수로 분산분석 F 유의확률 구하기 171

71. F 값 직접 계산해보기 175

72. 상관분석 남녀차별 연속∾연속 179

73. 상관분석  r 계산 직접 해보기 183

74. 회귀분석 남녀차별 연속 ∾ 연속 185

75. 요인분석에서의 요인이 아닌 측정수준 관련된 요인factor 188

76. factor 함수와 명목nominal 측정수준 193

77. factor 함수와 순서ordianal 측정수준 195

78. 이런 저런 R Commander  국가별 기대수명 표준점수 196

79. 이런 저런 R Commander  기대수명을 기대 노년으로 바꾸기 202

80. 이런 저런 R Commander  지역 비교 결과물 그리고 요인 204

81. 이런 저런 R Commander  가난한 순서대로 늘어놓기 208

82. 새우깡 무게 90g  R Commander 평균추정 210

83. 관계있는 표본 관계 찾기로서 이전 이후 평균 비교 paired t test 214

84. 정권 바뀔 때마다 1% 줄어드는 성장률  R Commander 선도표 218

85. 시각화에 절대적인 것은 없다. 시간 흐름에 산점도 쓰기 221

86. 다양한 것을 묶는 list 함수 224

87. list 함수에서 [ ] [ [ ] ] 225

88. 리스트list 내어놓는 apply 비슷한 함수 lapply 228

89. 문자벡터 length nchar 차이점 229

90. 글자 나누는 strsplit 함수는 벡터에서 리스트로 바꾼다 230

91. 벡터를 쪼개어서 벡터로 만드는 방법은 없을까? 232

92. 문자벡터 합치고 또 재활용recycling 하는 paste 함수 234

93. 벡터 정렬은 sort 함수 236

94. [ ] 활용해서 벡터와 데이터프레임에서 구성요소 골라내기 238

95. 데이터프레임 정렬은 order 함수 240

96. 만능패 만들기 grep 함수 242

97. 이메일 주소 grep으로 찾으려면 무슨 기호  . @ 둘 중 정답은 247

98. 광범위하지만 공간을 지정하는 마침표 . 248

99. 마침표 . 써서 이메일 주소 찾는 방법 253

100. grep 함수와 대괄호 [ ] 253

101. 가난과 비극  Kaggle  일인당GDP 영아사망률 산점도 259

102. 우리는 기후변화 가해자 혹은 피해자 data.go.kr 가정용 전기 사용 270

103. 남녀차별 SNS 연관어 썸트렌드 272

104. 머신러닝machine learning 기초 그리고 조건부 확률 273

105. 지금부터 조금씩 나아갈 방향 285