초판발행 2024.08.30
머리말
Excel, Python, R 활용 비즈니스 데이터 분석
Hands-On Business Data Analysis with Excel, Python, and R:
Workbook for Students
박철우, 2024
기업이나 개인의 업무 영역에 컴퓨터로 상징되는 정보 기술과 정보 시스템이 접목되기 시작한 이래 그 사용 범위와 용도가 급진적으로 발전하고 있는 것은 주지의 사실이다. 또한, 일부 전문가의 영역에 있던 활용 능력이 사용자 친화적인 인터페이스나 보편적인 기능, 관련 하드웨어나 소프트웨어의 저변화로 일반인들에게도 요구되는 시점이 되었다.
특히, 경영 환경에서 IT 인력(IT People)과 현업 인력(Business People)의 명확한 구분이 있던 과거와 달리, 많은 업무에서 고유 영역의 구분이 애매모호해지고 있다. 이런 환경적 요인의 변화 속에서 정보 기술 활용 측면에서, ‘현업 인력’으로 구분되던 일반 사용자들의 역할이 이제는 거의 ‘개발자’ 수준으로 요구되고 있기도 하다.
최종 사용자 컴퓨팅(EUC: End User Computing)이라는 말이 수십 년 전부터 있어 왔던 점을 생각하면 지금도 늦은 감이 없지 않으나, 데이터 마이닝, 빅 데이터, 인공 지능과 같은 고도의 전문 영역이 데스크톱 생산성 도구의 활용 수준으로 보편화하고 있어, 굳이 IT 인력이 아니더라도 일정 수준 관련 지식과 자질을 갖출 필요가 있다.
이런 맥락에서, 본서에서는 데이터 분석과 관련한 다양한 소프트웨어와 도구를 연습할 수 있도록, 특히, 학생들이 교실에서 쉽게 접근하여 기본 개념부터 응용 방법을 공부할 수 있는 Excel과 같은 기본 소프트웨어에 더하여 오픈 소스 소프트웨어를 중심으로 현시점 가장 주목을 받고 있고, 대중적으로 사용하고 있는 두 개의 프로그래밍 언어인 파이썬(Python)과 R까지 다루게 된다. 중복되는 기능과 용도도 있지만, 현업에서 이 두 언어가 동시에 또는 선별적으로 사용되고 있는 점을 감안하여 기초적인 수준에서 익힐 수 있도록 구성된다. 또한, 추가적인 학습과 경험을 위해 오픈 소스 분석 도구인 jamovi, Orange, PSPP를 부록으로 다룬다.
무엇보다 경영 환경에서 데이터를 다루고, 정리하고, 분석하여, 의사 결정에 활용할 수 있도록 변환하고 준비하는 작업이 주가 되는 만큼, 이러한 일을 해내는 것을 목표로 이에 필요한 기능들을 공부할 수 있도록 한다.
혼자 공부하거나, 학교 등에서 교재로 활용할 때, 학습의 방향을 설정해 단계적으로 공부해 나가고, 필요한 용도 등을 확인해 나가는 형식이므로 세세하고 자질구레한 설명은 될 수 있는 대로 생략하고, 단기간에 핵심적인 내용을 파악할 수 있도록 하였다.
Software
¨ Microsoft Excel: Microsoft 스프레드시트 프로그램으로, 데이터 조직, 분석, 시각화 등을 수행한다. https://www.microsoft.com/ko-kr/microsoft-365/excel
Real Statistics Using Excel: Excel에서 통계 분석을 돕는 무료 추가 도구(add-in 또는 add-on)이다. Windows와 macOS 지원. https://real-statistics.com/
¨ Python: 범용 프로그래밍 언어로 데이터 과학, 웹 개발 등에 사용되는 오픈 소스이며 무료로 사용할 수 있다. https://www.python.org/
¨ R: 통계 계산과 그래픽 작성을 위한 오픈 소스이며 무료 프로그래밍 언어와 환경이다. https://www.r-project.org/
RStudio: R을 위한 통합 개발 환경(IDE: Integrated Development Environment)으로, 개인 개발자나 학계에서 무료로 사용할 수 있는 RStudio Desktop 버전이 있다. https://posit.co/products/open-source/rstudio
¨ Visual Studio Code: Microsoft에서 개발하고 배포하는 것으로 다양한 프로그래밍 언어를 지원하는 오픈 소스이며 무료 코드 에디터이다. Windows와 macOS 지원. https://code.visualstudio.com/
¨ JupyterLab: Jupyter 노트북을 위한 오픈 소스이며 무료 웹 기반 인터페이스로, 데이터 과학 및 연구 작업에 유용하다. https://jupyter.org/
¨ jamovi: R 언어를 기반으로 하는 사용하기 쉬운 통계 패키지로, 통계 모델링을 위한 다양한 방법을 제공한다. 오픈 소스이며 무료 통계 패키지이다. Windows와 macOS 지원. https://www.jamovi.org/
¨ Orange: 데이터 마이닝 및 시각화를 위한 오픈 소스 도구로, 데이터 분석을 직관적으로 수행할 수 있다. Windows와 macOS 지원. https://orangedatamining.com/
¨ PSPP: 유명 통계 패키지인 SPSS와 유사한 인터페이스를 제공하는 오픈 소스 프로그램으로, 통계 분석을 위해 사용된다. Windows와 macOS 지원. https://www.gnu.org/software/pspp/
본서에서 실습에 사용하는 각종 샘플 파일은 다음 경로에서 내려받을 수 있다.
https://p.cantips.com/dasamples (비밀번호: cantips)
박 철 우
서울대학교에서 경영학 석사와 박사 학위를 취득하였고, 현재 이화여자대학교 경영대학 겸임교수로 재직 중이다. 《Mobile Business in Korea. In Trends in Mobile Technology & Business in the Asia- Pacific Region》, 《경영을 위한 정보 통신 기술 입문》, 《인터넷과 전자 상거래》, 《모바일 비즈니스의 수용 요인과 신뢰의 역할》, 《유비쿼터스 컴퓨팅》, 《e-비즈니스 기술 체계》, 《스테이블 디퓨전 마스터북》, 《경영 정보 시스템》 등의 저술 활동을 통해 학문적 연구와 실용적 경험을 결합하기 위해 노력하고 있다. 최근에는 조직 내 업무 능력 향상을 위한 인공 지능 및 데이터 분석 기술의 활용에 큰 관심을 가지고 있다.
강의 홈페이지: ilovemis.com
블로그: cantips.com
유튜브: youtube.com/@cantips
PART 1 EXCEL: 데이터 분석
Mission 1 Excel 사용을 위한 준비 Excel 3
Mission 2 Excel 기초와 활용 Excel 8
Mission 3 우리나라 지도 블록 맵 작성 Excel 60
Mission 4 통계 분석 도구의 이해 Excel 121
Mission 5 기술 통계법 Excel 126
Mission 6 히스토그램 Excel 130
Mission 7 순위와 백분율 분석 Excel 136
Mission 8 이동 평균법 및 예측 워크시트 Excel 142
Mission 9 회귀 분석 Excel 176
Mission 10 분산 분석: 일원 배치법 Excel 190
Mission 11 분산 분석: 반복 없는 이원 배치법 Excel 193
Mission 12 분산 분석: 반복 있는 이원 배치법 Excel 195
Mission 13 공분산 분석 Excel 198
Mission 14 상관 분석 Excel 200
Mission 15 카이 제곱 검정 Excel 202
Mission 16 로지스틱 회귀 분석 Excel 204
Mission 17 컨조인트 분석 Excel 208
Mission 18 클러스터 분석 Excel 209
Mission 19 감성 분석 Excel 212
PART 2 Python․R
Mission 20 Python 및 R 개발 환경 구축 Python&R 217
Mission 21 연산과 변수 Python&R 219
Mission 22 데이터 유형 Python&R 229
Mission 23 패키지 Python&R 236
Mission 24 예약어 Python&R 239
Mission 25 반복문 Python&R 240
Mission 26 반복문 R 246
Mission 27 기술 통계 Python 252
Mission 28 기술 통계 R 257
Mission 29 회귀 분석 Python 260
Mission 30 회귀 분석 R 262
Mission 31 로지스틱 회귀 분석 Python 264
Mission 32 로지스틱 회귀 분석 R 268
Mission 33 의사 결정 나무 분석 Python 271
Mission 34 의사 결정 나무 분석 R 274
Mission 35 클러스터 분석 Python 276
Mission 36 클러스터 분석 R 281
Mission 37 워드 클라우드 Python 287
Mission 38 워드 클라우드 R 290
PART 3 Python in Excel
Mission 39 기본 설정 Excel 297
Mission 40 기술 통계 Excel 302
Mission 41 회귀 분석 Excel 302
PART 4 Excel: 의사 결정 문제
Mission 42 선형 계획 모형: 제품 생산량 결정 Excel 305
Mission 43 시나리오를 이용한 가상 분석 Excel 312
Mission 44 수송 계획 문제 Excel 318
PART 5 생성형 인공 지능 서비스