초판발행 2024.08.30
머리말
빅데이터와 인공지능 기술의 비약적인 발전으로 우리가 꿈처럼 생각했던 일들 이 현실이 되고 있는 가운데 빅데이터를 기술적인 관점으로, 원점에서부터 다시 바 라보아야겠다는 생각이 들었다. 수많은 디지털 기기가 인터넷에 연결되어 데이터 가 생성되고 축적되어 이를 효과적으로 활용하는 기업만이 비즈니스의 세계에서 강자로 군림하고 있는 이때, 빅데이터를 공부할 수 있는 체계적인 교재가 없는 것 이 매우 안타깝게 생각되었다.
디지털 기술을 떠나 인류학적 측면에서 인간과 문명을 바라보면 기록과 학습에 서부터가 이 모든 것의 시작이 되었다고 생각한다. 데이터는 인문, 예술, 과학, 기 술, 사회 등 다양한 부분을 포괄적으로 포함하고 있는 인류의 삶 그 자체라고 해도 과언이 아닐 것이다.
단언컨대 데이터는 과거에도 있었고, 현재도 있으며 미래에도 있을 것이다. 하 지만 우리는 데이터의 실체를 이해하고는 있지만 시간이 지나면서 어떻게 변화될 지는 현재로서는 아무도 모른다고 얘기하고 싶다. 데이터는 예술의 영역일 수도 있 고 인문의 영역일 수도 있고 과학과 기술의 영역일 수도 있으며, 이 부분이 구체화 된 논리적, 물리적인 영역일 수도 있다. 이것이 의미하는 바를 이해한다는 것은 어 려운 부분이며 그 이유는 논리적, 물리적인 부분에서 예술과 인문 그리고 우리가 알고 있고 발전시켜 나간 그 모든 것이 미래의 데이터일 수도 있기 때문이다.
사실은 우리가 알고 있는 데이터는 극히 작은 부분만을 알고 있으며, 이 데이터 가 의미하는 속성은 무엇이고 무엇을 지향하고 있는지는 최종적으로 독자 여러분 께 맡기려고 한다. 결론적으로 본서를 읽는 동안 독자 여러분의 상상력을 넣어서 새로운 기술을 만들어 나가는 데 조금이나마 도움이 되었으면 한다.
본서는 총 8개의 PART로 구성되며 PART 01은 서론에 해당되고 데이터에 대한 이해에서부터 시작된다. PART 02~05는 데이터를 처리하는 기반 기술에서 하둡을 중심으로 한 에코 소프트웨어에 대한 기술을 심도 있게 소개하고 있다. 이후 PART 06~PART 08은 분석을 중심으로 한 인공지능 기술, 빅데이터 플랫폼의 운영과 함께 빅데이터 플랫폼을 이루는 원천 기반 기술에 대해서 다루고 있다. 우리가 익숙했던 정보기술은 데이터를 중심으로 한 학습으로 인간의 뇌를 모방한 방식으로 진화하고 있다. 기록과 학습이라는 행위로 파생되는 빅데이터와 인공지능 기술의 발전은 어디까지일지 아무도 모르지만 인간의 삶을 풍요롭게 만들어 주는 토양이 될 것이라는 것을 믿는다. 따라서 데이터와 그를 처리하는 기술을 이해하고 우리의 경험을 융합하여 인간이 풍요로운 삶을 영위할 수 있는 새로운 창조적 아이디어가 탄생하는 데 본서가 조금이라도 도움이 되었으면 하는 마음이 간절하다.
본서는 컴퓨터 과학이나 인공지능을 전공하는 학부 및 대학원생뿐만 아니라 빅데이터와 인공지능에 관심이 있는 모든 독자를 대상으로 하고 있다. 낯설고 어렵게만 느껴지는 빅데이터의 제반 기술들이 쉽고 재미있게 다가갈 수 있기를 기대해 본다. 끝으로 본서가 나올 수 있도록 많은 관심을 주신 숭실대학교 정보과학대학원원생 여러분, 고려대학교 융합데이터과학대학원 박재성 선생님, 그리고 님버스테크 김길래 고문님, 박영사 대표님 그리고 임직원 여러분께 깊은 감사를 드린다.
2024년 8월
저자 문영상, 홍성문, 윤형만
저자 약력
문영상
숭실대학교 정보과학대학원에서 빅데이터 및 인공지능을 강의하고 있으며 대규모 빅데이터 및 인공지능 프로젝트를 구축, 설계, 자문하고 있다. 인공지능 기반의 객체인식 및 알고리즘, 거대 언어모델 등을 연구하고 있으며 국내 기업 및 공공기관의 빅데이터 및 인공지능 부문 기술 자문역을 담당하고 있다. 대한민국 신지식인으로 선정되었으며 정보공유를 통한 국가 경쟁력 강화로 행정안전부장관 표창을 받았다.
현재 국가기술표준원 ISO 전문위원으로 있으며 저서로는 교육부의 국가직무능력표준(NCS) 빅데이터 부문을 설계 및 집필하였고 단행본으로는 『인사이트 플랫폼』(와이즈베리), 『알고리즘이 지혜가 되는 순간』(박영사), 『빅데이터 실무기술가이드』(한국데이터산업진흥원) 등이 있다.
홍성문
은행, 증권, 보험 등 다양한 금융기업에서 IT 시스템을 운영, 개발했으며 핀테크 기업의 대표를 역임하였다. 인터넷뱅킹, 홈트레이딩 시스템, 모바일 결제 시스템 등 최신의 IT 트렌드를 금융업무에 적용하여 금융혁신을 주도하였으며 애플리케이션 아키텍처로 금융업무 이외에 다양한 분야에서의 프로젝트를 수행하였다.
최근에는 인공지능 및 빅데이터를 활용한 금융업무와 투자 시뮬레이션 적용에 많은 관심을 갖고 있다. 한국은행 주최 전자금융 공모전에서 수상하였으며 『금융개발 보안 과정』(한국인터넷진흥원)의 교재를 집필하였고, 강의를 진행하였다. 고려대학교 물리학과를 졸업하고 동국대학교에서 공학박사 학위를 취득하였다. 주요 논문으로 개인투자자의 가상자산 투자 저해요인이 있다.
윤형만
지난 20여 년간 IT 분야에서 다양한 프로젝트를 진행하면서 IT 관련 다양한 실무와 경험을 하였다. 소리바다, KT, SK에서 대규모 IT 프로젝트를 기획 및 총괄하였으며 주요 업무로는 국내외 음원 서비스(Spotify, Amazon, Google, iTunes) 연계를 중심으로 한 빅데이터, 인공지능 알고리즘, 블록체인 기술 기반의 프로젝트를 리딩하였다. 주요 연구 분야는 빅데이터와 인공지능 및 XAI(eXplainable AI) 분야이다.
현재는 대학과 아카데미에서 강의하며 생성형 인공지능과 빅데이터를 융합하는 실무적인 일을 하고 있다.
감수
박준호 (주)엑스소프트 전무이사 / 빅데이터 실무기술 연구포럼 회장
컴퓨터 공학을 전공하고 미국 Wang Laboratories 한국지사 및 Eastman Kodak에서 시스템 엔지니어를 담당하였다. 현재 빅데이터와 인공지능 분야의 자연어 기반 플랫폼을 연구하고 있다. 비정형 데이터를 중심으로 한 문서 기반의 자동화 도구와 거대 언어모델의 생성형 인공지능 기술을 접목하는 다양한 시도를 하고 있다. 이 책의 감수를 통해 빅데이터와 인공지능 영역의 실무와 기술을 융합하는 데 노력하였다.
목차
PART 01 빅데이터의 이해 2
CHAPTER 01 데이터의 생성 6
CHAPTER 02 데이터의 융합 19
CHAPTER 03 데이터의 진화 28
CHAPTER 04 데이터 기반 기술의 발전 37
PART 02 빅데이터 시스템의 기반 기술 42
CHAPTER 01 병렬 및 분산처리 기술 46
CHAPTER 02 빅데이터 기반 기술 51
PART 03 데이터 수집 기술 54
CHAPTER 01 정형 및 비정형 데이터의 수집 61
CHAPTER 02 실시간 및 배치 데이터의 수집 72
CHAPTER 03 데이터 카탈로그 기술 78
PART 04 데이터 저장 기술 82
CHAPTER 01 하둡(Hadoop) 86
CHAPTER 02 NoSQL 기반 데이터베이스 102
CHAPTER 03 에코 소프트웨어의 저장 기술 115
PART 05 데이터 처리 기술 122
CHAPTER 01 빅데이터 처리 프레임워크 기술 126
CHAPTER 02 SQL On Hadoop 및 하이브(Hive) 129
CHAPTER 03 거대 언어모델(LLM) 기반 데이터 처리 기술 143
PART 06 데이터 분석 154
CHAPTER 01 데이터 분석의 이해 158
CHAPTER 02 빅데이터 기반의 탐색적 데이터 분석 171
CHAPTER 03 비즈니스 애널리틱스 기술 186
PART 07 빅데이터 시스템의 운영 및 관리 194
CHAPTER 01 운영 및 모니터링 기술 198
CHAPTER 02 보안 기술 204
CHAPTER 03 업그레이드 기술 207
PART 08 데이터 융합 기술 226
CHAPTER 01 OLTP와 OLAP 229
CHAPTER 02 SMP와 MPP 시스템 기술 241
CHAPTER 03 초융합 컴퓨팅 기술(HCI)과 클라우드 247
CHAPTER 04 오케스트레이션 기술 253