유레카라고 해야 하나? 운명처럼 메이저리그 야구 데이터와 오픈소스 통계 프로그램 R을 동시에 만났을 때, 적절한 시기가 되면 데이터 작업에서 손을 떼야 할 것 같았던 체증이 한 순간에 전광석화처럼 뚫려버렸다. 교수라는 직업으로 생존하기 위해서는 분석을 해야만 했다. 어쩌면 터널이 뚫리기 직전에 그 둘을 만났을지도 모르지만, 만난 이후로는 새로운 세상과 빠르게 연결되고 있음을 느낀다. 각종 매체로부터 쏟아져 나오는 4차 산업혁명이라는 소음에 귀를 막고 있기보다는 자신의 가치를 높일 수 있는 데이터 과학에서 수학과 통계학의 부담감을 내려놓고 메이저리그 야구 데이터를 직접 실험하면서, 모호한 4차 산업혁명을 따라잡기 위한 비즈니스 전략을 가르치는 경영학자의 관점으로 이야기하고 싶어 이 책을 준비했다. 최근에 빅데이터라는 이야기는 지겹게 들었지만 여전히 남의 이야기로 들리고, 지켜만 보다 뒤처지지 않을까라는 고민을 해결할 수 있도록 데이터과학을 메이저리그 이야기와 합쳐서 풀어나간다. 제법 많은 한국인 선수가 활약하고 있어 우리에게 익숙한 메이저리그는 140여 년의 장구한 기간 동안 메이저리거들의 흔적을 데이터로 기록했다. 이러한 데이터를 직접 대면할 때 느끼는 개방성과 거대함, 그리고 정밀함은 데이터 과학에 대한 거침없는 호기심을 불러일으킨다.
특히 수학과 통계학 때문에 데이터과학에 접근하는 데 주저하는 분들에게 이 책이 새로운 통로를 열어줄 터닝포인트가 됐으면 하는 바람이다. 어려서부터 통계에 관심이 있었거나 관련 책을 쓰는 것이 인생의 목표는 아니었다. 박사학위를 마치기 위해 고통받으면서 배웠던 통계지식들이 사라질까 봐, 매번 블로그에 기록으로 남겨놓다 보니 제법 많은 양의 이야깃거리가 됐고, 블로그에 흩어져 있던 내용을 필요한 분들과 나누면 도움이 될 것 같아 책으로 정리했다.
연구과정 생존을 위해 익혔던 분석 방법을 공유하는 만큼 이 책의 첫 번째 수혜자는 석사과정 또는 박사과정 진학을 준비하고 있거나 과정 중에 있는 분들이라 생각한다. 박사과정을 마치고 연구실을 비워줄 때, 끝까지 책상에 꽂혀 있었던 『Rhythms of Academic Life』처럼 박사과정에 진학한 누군가의 책상 위에 놓여 있을 책으로 만들고 싶었다. 두 번째는 직장생활을 하면서 데이터는 쏟아져 나오는데 어떻게 활용할지 모르는 직장인에게 전략적 참고서가 됐으면 한다. 저자가 은행에서 근무하면서 데이터의 가치를 전혀 깨닫지 못하고 살던 적이 있다. 지금 생각해보면 무한으로 생성되던 데이터를 의사결정에 활용하지 않고 주어진 분석결과만 읽으면서 수동적으로 직장생활을 했던 점이 아쉽게 느껴져 과거의 저자와 비슷한 생활을 하고 있을 분들에게 임팩트를 줄 수 있도록 디자인했다. 세 번째는 야구통계가 궁금해서 세이버메트릭스에 관심을 갖기 시작한 분들이 이번 기회에 데이터과학 쪽으로 관심의 폭을 넓히는 데 도움이 됐으면 한다. 사실 야구에서 쏟아져 나오는 선수들의 경기성적 데이터를 현실에 적용하기에는 한계가 있지만, 야구 데이터와 데이터과학의 조합은 야구의 적용범위를 대폭 넓혀준다. 마지막으로 큰 도움을 드릴 수 있는 그룹은 통계 프로그램 언어인 R을 배우려고 마음먹고 있던 분들일 것이다.
최근의 변화를 이끌어가는 사물인터넷, 자율주행 자동차, 인공지능의 큰 트렌드에 동참하려는 분위기가 소셜 네트워크를 통해 전문가를 넘어 일반인들 사이에서도 확산 중이다. 보기 좋게 만들었던 파워포인트의 무의미함에 대한 경고의 목소리가 커지고, 직장인들은 업무를 통해 흘러넘치는 데이터를 정리해놓는 수준에서 벗어나 남들이 보지 못하는 패턴을 모델링해서 대중과 커뮤니케이션하려는 움직임도 명료하게 감지된다. 이러한 과정에서 유튜브와 오픈소스 강의를 통해 자기주도형 학습이 변화를 이끌어가고 있지만, 공개 강의를 따라 잡기 위해 학창시절 보던 수학 정석이나 기초통계 교과서를 다시 열어보다가 모수, 공분산, 임의 변수, 표본오차, 최소좌승법, 최대우도법 같은 단어들이 등장하기 시작하면 내가 갈 길 이 아님을 확인하고 자기주도형 학습을 자기주도로 종료하는 경우가 적지 않다.
명확한 목표 없이 시작하는 데이터 분석에 대한 공부는 참고서를 몇 번 뒤적거리다가 포기하기 쉽다. 학창시절이나 직장에서 분석업무 능력을 키워보려고 통계 공부도 해봤지만 가슴 깊은 곳으로 내려 꽂혔던 기억이 별로 없었다. 특히 통계학 책에서 기업의 제품 불량률, 환자의 혈압수치, 시제품의 효과성, 법률 개정의 효과 등 예제로 사용됐던 내용들이 일상생활과는 동떨어져 데이터가 생산된 배경 자체를 이해하는 것이 어렵다 보니 정작 통계분석을 이해하는 데 방해가 되기도 했다. 배워야 하는 이유는 알았지만, 효과적인 학습에 갈증을 느끼면서 통계를 흥미롭게 가르쳐볼 수 있지 않을까라는 야망을 갖게 됐다. 그리고 바람대로 2016년부터 대학에서 야구 데이터를 이용한 데이터 분석 과목을 강의해 왔고, 2017년부터는 사물인터넷과 빅데이터를 접목한 새로운 과목을 강의하고 있다. 경영학자인 저자가 강의를 준비하면서 얻은 통계와 전략 사이에서 발생하는 교집합을 야구 이야기로 풀어내기 때문에 이론과 숫자가 가득한 무거운 이야기들은 거부한다. 대신에 문제 해결에 대한 논리적 사고, 프로그래밍이라는 손에 잡히는 기술, 통계 메커니즘인 확률이론, 현실의 데이터로 해결모델을 검증하는 과학적 접근방법인 모델링(modeling) 사고에 대한 이야기를 메이저리그 야구를 통해 소개한다.
데이터 분석의 표준이며 무료로 내려받아 사용할 수 있는 통계 프로그래밍 언어 R과 140여 년 이상 축적된 메이저리그 데이터로 이 책의 대부분을 설명하기 때문에 비용 부담 없이 데이터과학에 도전할 수 있다. 이번 기회를 통해 코딩에서 모델링으로 관심을 넓히고, 공식에 숫자를 대입해서 답을 찾는 전통적 공부 방식이 아닌 데이터를 통해 생각을 모델링하는 방식을 통해 데이터과학계의 거대한 축을 담당하고 있는 통계 프로그램 R과 직접 모은 데이터로 가능성을 예측하고 의사결정을 하는 데 도움이 됐으면 한다.
유레카라고 해야 하나? 운명처럼 메이저리그 야구 데이터와 오픈소스 통계 프로그램 R을 동시에 만났을 때, 적절한 시기가 되면 데이터 작업에서 손을 떼야 할 것 같았던 체증이 한순간에 전광석화처럼 뚫려버렸다. 교수라는 직업으로 생존하기 위해서는 분석을 해야만 했다. 어쩌면 터널이 뚫리기 직전에 그 둘을 만났을지도 모르지만, 만난 이후로는 새로운 세상과 빠르게 연결되고 있음을 느낀다. 각종 매체로부터 쏟아져 나오는 4차 산업혁명이라는 소음에 귀를 막고 있기보다는 자신의 가치를 높일 수 있는 데이터과학에서 수학과 통계학의 부담감을 내려놓고, 메이저리그 야구 데이터를 직접 실험하면서, 모호한 4차 산업혁명을 따라잡기 위한 경영전략을 가르치는 경영학자의 관점으로 이야기하고 싶어 이 책을 준비했다. 최근에 빅데이터라는 이야기는 지겹게 들었지만 여전히 남의 이야기로 들리고, 지켜만 보다 뒤처지지 않을까라는 고민을 해결할 수 있도록 데이터과학을 메이저리그 이야기와 합쳐서 풀어나간다. 제법 많은 한국인 선수가 활약하고 있어 우리에게 익숙한 메이저리그는 140여 년의 장구한 기간 동안 메이저리거들의 흔적을 데이터로 기록했다. 이러한 데이터를 직접 대면할 때 느끼는 개방성과 거대함, 그리고 정밀함은 데이터과학에 대한 거침없는 호기심을 불러일으킨다.
특히 수학과 통계학 때문에 데이터과학에 접근하는 데 주저하는 분들에게 이 책이 새로운 통로를 열어줄 터닝포인트가 됐으면 하는 바람이다. 저자는 어려서부터 통계에 관심이 있었거나 관련 책을 쓰는 것이 인생의 목표는 아니었다. 박사학위를 마치기 위해 고통받으면서 배웠던 통계지식들이 사라질까 봐, 매번 블로그에 기록으로 남겨놓다 보니 제법 많은 양의 이야깃거리가 됐고, 블로그에 흩어져 있던 내용을 필요한 분들과 나누면 도움이 될 것 같아 책으로 정리했다. 한국에서 한참 직장생활을 하고 적지 않은 나이에 유학을 온 입장에서 영어는 극복하기 힘든 벽이었다. 박사과정 학생으로 강의할 때는 발음, 악센트, 그리고 표현법에서 미국이나 캐나다 출신의 네이티브 강의자들에 비해 비교열위에 있다는 위기감 때문에 극복할 수 있는 방법을 모색하다가 생존전략으로 찾게 된 포지셔닝이 데이터 분석이었다. 영어를 모국어로 사용해 박사과정에 들어온 동료들과 연구 프로젝트를 같이 하기 위해 뒤돌아볼 것도 없이 내린 결정이 '가설검증만큼은 내가 한다'는 다짐이었다.
연구과정 생존을 위해 익혔던 분석방법을 공유하는 만큼 이 책의 첫 번째 수혜자는 석사과정 또는 박사과정 진학을 준비하고 있거나 과정 중에 있는 분들이라 생각한다. 박사과정을 마치고 연구실을 비워줄 때, 끝까지 책상에 꽂혀 있었던 『Rhythms of Academic Life』처럼 박사과정에 진학한 누군가의 책상 위에 놓여 있을 책으로 만들고 싶었다. 두 번째는 직장생활을 하면서 데이터는 쏟아져 나오는데 어떻게 활용할지 모르는 직장인에게 전략적 참고서가 됐으면 한다. 저자가 은행에서 근무하면서 데이터의 가치를 전혀 깨닫지 못하고 살던 적이 있다. 지금 생각해보면 무한으로 생성되던 데이터를 의사결정에 활용하지 않고 주어진 분석결과만 읽으면서 수동적으로 직장생활을 했던 점이 아쉽게 느껴져 과거의 나와 비슷한 생활을 하고 있을 분들에게 임팩트를 줄 수 있도록 디자인했다. 세 번째는 야구통계가 궁금해서 세이버메트릭스에 관심을 갖기 시작한 분들이 이번 기회에 데이터과학 쪽으로 관심의 폭을 넓히는 데 도움이 됐으면 한다. 사실 야구에서 쏟아져 나오는 선수들의 경기성적 데이터를 현실에 적용하기에는 한계가 있지만, 야구 데이터와 데이터과학의 조합은 야구의 적용범위를 대폭 넓혀준다. 마지막으로 큰 도움을 드릴 수 있는 그룹은 통계 프로그램 언어인 R을 배우려고 마음먹고 있던 분들일 것이다.
최근의 변화를 이끌어가는 사물인터넷, 자율주행자동차, 인공지능의 큰 트렌드에 동참하려는 분위기가 소셜 네트워크를 통해 전문가를 넘어 일반인들 사이에서도 확산 중이다. 보기 좋게 만들었던 파워포인트의 무의미함에 대한 경고의 목소리가 커지고, 직장인들은 업무를 통해 흘러넘치는 데이터를 정리해놓는 수준에서 벗어나 남들이 보지 못하는 패턴을 모델링해서 대중과 커뮤니케이션하려는 움직임도 명료하게 감지된다. 이러한 과정에서 유튜브와 오픈소스 강의를 통해 자기주도형 학습이 변화를 이끌어가고 있지만, 공개 강의를 따라잡기 위해 학창시절 보던 수학 정석이나 기초통계 교과서를 다시 열어보다가 모수, 공분산, 임의변수, 표본오차, 최소좌승법, 최대우도법 같은 단어들이 등장하기 시작하면 내가 갈 길이 아님을 확인하고 자기주도형 학습을 자기주도로 종료하는 경우가 적지 않다.
명확한 목표 없이 시작하는 데이터 분석에 대한 공부는 참고서를 몇 번 뒤적거리다가 포기하기 쉽다. 학창시절이나 직장에서 분석업무 능력을 키워보려고 통계 공부도 해봤지만 가슴 깊은 곳으로 내려 꽂혔던 기억이 별로 없었다. 특히 통계학 책에서 기업의 제품 불량률, 환자의 혈압수치, 시제품의 효과성, 법률 개정의 효과 등 예제로 사용됐던 내용들이 일상생활과는 동떨어져 데이터가 생산된 배경 자체를 이해하는 것이 어렵다 보니 정작 통계분석을 이해하는 데 방해가 되기도 했다. 배워야 하는 이유는 알았지만, 효과적인 학습에 갈증을 느끼면서 통계를 흥미롭게 가르쳐볼 수 있지 않을까라는 야망을 갖게 됐다. 그리고 바람대로 2016년부터 대학에서 야구 데이터를 이용한 데이터 분석 과목을 강의해왔고 2017년에는 사물인터넷과 빅데이터를 접목한 새로운 과목을 개설했으며, 2021년에는 마케팅과 경영전략을 위한 데이터 분석이라는 과목을 신규로 개설해서 학생들에게 강의하고 있다. 경영학자인 저자가 강의를 준비하면서 얻은 통계와 전략 사이에서 발생하는 교집합을 야구 이야기로 풀어내기 때문에, 이론과 숫자가 가득한 무거운 이야기들은 거부한다. 대신에 문제 해결에 대한 논리적 사고, 프로그래밍이라는 손에 잡히는 기술, 통계 메커니즘인 확률이론, 현실의 데이터로 해결모델을 검증하는 과학적 접근방법인 모델링(modeling) 사고에 대한 이야기를 메이저리그 야구를 통해 소개한다.
나는 IT업계에 종사하고 있는 딥러닝 전문가는 아니다. 대학에서 경영전략을 가르치고 연구하는 경영학자이지만, 마케팅과 경영전략을 위한 데이터 분석(Data Analysis for Marketing & Business Strategy)을 강의하고 있어서 데이터 과학의 변화에 정신줄을 놓지 않으려고 꾸준히 노력하고 있다. 전략경영을 주제로 연구하면서 자연스럽게 이르게 되는 종착지점은 "조직 의사결정자"들의 생각과 관심이었다. 그들이 생각하는 방향과 관심은 기업의 전략 변화와 행동에 영향을 미치기 때문에 학자에게는 좋은 연구 주제다. 또한 투자자에게는 경영자 위험(executive risks)을 줄일 수 있는 예측 모델의 정확성을 높일 수 있도록 하고 다양한 이해 관계자에게는 사회에 영향을 미칠 수 있는 기업 행동의 가능성을 판단하는 데 중요한 신호가 된다.
조직 의사 결정자뿐만 아니라 사회생활을 영위해 가고 있는 개인도 급성장해온 소셜미디어 덕분에 다양한 방식으로 소통하고 인터넷상에 엄청난 양의 글을 남기고 있다. 이처럼 글로 된 자료는 많아져도, 행과 열에 맞게 쉽게 정리할 수 있었던 숫자 데이터와 달리, 글은 다양한 문자 조합을 통해 개인마다 쓰는 스타일이 다르고, 같은 말을 해도 뜻이 다르다. 심지어 같은 의미지만 말하는 순서도 다른 문자 데이터를 컴퓨터에게 알려주고 이해시켜 결과를 받아낸다는 아이디어 자체가 어렵기 때문에 자연어로 된 문자 데이터 분석에 진입장벽이 있다.
이번 책을 번역하기 전에는 문자 데이터 분석에 대한 인류의 노력이 얼마나 오랫동안 진행돼 왔는지 몰랐다. 다만 문서를 활용해 진행해왔던 나의 연구 방법 변화는 저자들이 1장에서 소개한 딥러닝 기반 자연어 처리에 이르는 역사적 과정과 매우 유사해 놀랐고, 사람들이 생각하는 흐름이 비슷하단 깨달음에 반갑기도 했다. 박사과정에서 글을 분석할 때 처음 사용했던 방법은 분석 대상 문서의 내용을 인식할 수 있는 단어와 구가 들어간 '사전(dictionary)'을 개발하는 작업이었다. 이 부분은 책의 저자들이 말하는 룰(rule) 기반 학습에 해당한다. 미리 준비한 사전에 충분한 어휘들이 있고 분석해야 할 표적 문서에 있는 단어들을 커버할 수 있다면 효율적인 방식이지만, 단어 의미와 사용법이 시간과 장소가 변하면서 달라지기도 하고 새로운 용어들이 등장하기 때문에 적용 범위가 매우 협소하다는 치명적인 문제점이 있다.
협소한 적용 범위의 일반화 한계점을 극복하기 위해 여러 방법을 찾던 중 머신러닝을 알게 됐는데, 저자들이 말하는 통계 기반 학습과 일치한다. 혼자서 머신러닝을 배우기 시작했을 때, 머신러닝이 소위 '낮은 학습(shallow learning)'과 '깊은 학습(deep learning, 딥러닝)'으로 나뉘는지 몰랐다. 낮은 학습은 수집한 문서를 컴퓨터가 인식하고, 조건부 확률 방식으로 내용을 분류하는 모델을 학습하기 때문에 특정 '사전'에 의존하는 원칙 기반 방식에 비해 적용 범위가 넓어졌다. 하지만 컴퓨터가 의미를 이해하고 분류한 것이냐는 원천적인 질문에 대한 답변은 룰 기반과 마찬가지로 오로지 구조로만 판단하는 문제점 때문에 사람이 분류된 내용을 직접 읽어서 검증해야 한다는 한계점에 부딪치게 됐다.
결국 인류에게 한계점 극복에 대한 욕망의 끝은 없는 것 같다. 번역자인 나는 기계에게 말의 구조뿐만 아니라 의미까지 학습시켜서 진정으로 문서를 분석했다고 말하고 싶기 때문에 해결책의 방향은 자연스럽게 딥러닝으로 향한다. 개인적으로는 딥러닝 방법론을 사용해 경영학 저널에 논문을 출판해 보겠다는 목표가 있으며, 번역을 통해 구체적으로 적용 방법에 관한 큰 그림을 그릴 수 있어 즐거웠다. 이 책은 코드를 보고 따라 하면서 결과물을 실행할 수 있는 공구 상자를 제공하지 않는다. 대신 딥러닝을 포함한 머신러닝의 역사, 딥러닝과 통계 기반 머신러닝이 적용되는 영역, 딥러닝 디자인, 디자인 한계점과 해결 방법, 향후 연구 과제 등 코드 이면에 담겨 있는 이야기를 여러 전문가의 참여로 제작했다.
나처럼 숫자 데이터를 넘어 문자 데이터의 컴퓨터 인식과 학습, 결과물 제시를 통해 만들 수 있는 자연어 처리 애플리케이션에 관심이 있다면 좋은 지식과 혜안, 아이디어를 줄 수 있는 책이라 생각한다. 실제로 R과 파이썬으로 자연어 처리 작업을 진행하면서 어떤 솔루션을 적용해야 할지에 대한 아이디어가 깊어진다고 느끼는 것은 이 책에서 얻을 수 있었던 또 다른 즐거움이었다.
이 책을 번역하면서 머릿속에서 뚜렷해지는 생각이 있었다. '고정된 것은 변하는 것보다 항상 좋은 것 같아. 세상이 변하지만 않는다면 말이지.' 경영 전략을 연구하는 나에게 의사결정자의 제한적 이성(bounded rationality)은 항상 흥미로운 주제다. 사람들이 모든 요인을 고려해서 미래 지향적으로 최적의 의사결정을 하기보다는 과거의 경험, 노하우, 그리고 현장에서 얻은 지식(idiosyncratic knowledge) 등 과거 지향적으로 의사결정을 하기 때문에 예상하지 못했던 나쁜 결과가 종종 발생한다. 과거의 성공 공식을 의사결정에 계속해서 적용하는 것을 결정론적 접근법이라고 하면, 현실에서 벌어지고 있는 사건을 토대로 미래를 예측해서 확률적으로 따져서 결정하는 방식을 확률론적 접근법이라 할 수 있다. 큰 변화가 없는 영역에서 살아가고 있다면 동네에서 가장 경험치가 높은 최고령의 어른께서 정답을 결정해주실지도 모르겠다. 불행히도 대부분의 우리는 어제의 성공이 또 다른 성공을 보장하지 않는 변화 속에 살고 있고, 불확실 속에서 성공 확률이 높은 쪽으로 결정을 해야 한다.
이 책은 확률론적 접근법이 필요한 대부분의 사람들에게 불필요한 가정을 내려놓고 현실에서 온 데이터로 결정 모델을 만드는 '시뮬레이션'을 소개한다. 시뮬레이션은 사건 사고에 관심이 있는 분들이라면 들어봤을 단어이고, 데이터를 거침없이 돌려서 기존의 지식으로는 생각하지 못했던 새로운 결과를 찾아내는 마법 정도의 개념으로 이해하고 있을 것이다. 내 경우는 박사 과정에서 연역적 방식으로 연구를 수행하는 방법을 배우다 보니, 데이터를 돌려서 아이디어를 얻고 주장을 하는 귀납적 방식은 많이 어색하다. 데이터라는 '현실 관찰'이 주도해서 지식을 일반화하기에는 '관찰한 양이 충분해서 예외는 없는가'라는 질문에 답할 자신이 없기 때문이다. 반면에 이론이 주도하면서 데이터의 역할은 '가설 검증' 정도로 전환되고 확률 이론에 따라 가설이 참일 확률적 가능성에 초점을 두는 연역적 방식에 편안함을 느낀다. 그래서 귀납적 방식이라고 생각했던 시뮬레이션은 어색한 영역이었다.
그러면 시뮬레이션은 귀납적 분석 도구인가? 결론부터 말하자면 시뮬레이션은 사용 목적에 따라 두 가지 패러다임에 모두 적용될 수 있다. 학계는 연역적 방식이 정상적인 지식 형성 과정이지만, 시장을 전략적으로 접근해야 하는 산업계는 다른 이야기다. 남들과 다르게 해서 살아남아야 하는 회사 입장에서 데이터는 경쟁자들이 보지 못하는 새로운 변화와 패턴을 찾아낼 수 있도록 하는 거의 유일한 도구다. 거대한 데이터를 모으고, 저장하고, 분석하는 기술이 발전하면서 얻게 된 도구의 예측 정확성 덕분에 '예외'가 발생시킬 수 있는 리스크 수준을 감당해낼 수 있는 환경이 됐다. 이 책은 학계 및 산업계와 같이 의사 결정 패러다임이 다른 환경에서도 '시뮬레이션'은 훌륭한 영감과 아이디어를 줄 수 있음을 분석 플랫폼 R로 직접 구현하면서 보여준다.
이 책은 총 11개 장으로 구성돼 있다. 각 장이 별도의 이야기인 것 같지만, 절묘하게 연결되어 있는 것이 매력이다. 1장 '서론'은 시뮬레이션은 무엇인가에 대한 답을 빅데이터와 연계해서 설명한다. 2장 'R과 고성능 컴퓨팅'은 시뮬레이션을 R에서 구현하기 위해 필요한 전처리 방법과 시각화 처리 방법을 소개한다. 3장 '연필 기반 이론과 데이터 기반 전산 솔루션의 불일치'에서는 이론값과 데이터 분석값이 차이 나는 원인을 살펴보고 결정론적 수렴과 확률론적 수렴의 차이를 이해해본다. 4장 '난수 시뮬레이션'은 목적에 맞는 다양한 난수 생성기를 소개한다. 또한 몬테카를로 시뮬레이션이 왜 필요한지 이해할 수 있다. 이 장은 추후에 소개될 시뮬레이션 적용 부분에서 필요한 내용으로 반드시 R을 직접 실행하면서 이해해야 하는 장이다. 5장 '최적화 문제를 위한 몬테카를로 기법'에서는 3장에서 소개한 결정론적 수렴과 확률적 수렴을 몬테카를로 기법을 통해 시뮬레이션 최적화를 배우게 된다. 6장 '시뮬레이션으로 보는 확률 이론'에서는 임의로 추출된 수들을 반복적으로 시뮬레이션하는 과정은 대수의 법칙 및 중심극한정리 등 확률 개념과 일치하기 때문에 확률적 관점에서 시뮬레이션을 살펴본다. 7장 '리샘플링 방법'은 앞 장에서 소개한 방식인 가정된 분포로부터 추출된 난수를 시뮬레이션하는 것이 아니라, 현실에서 수집한 샘플 데이터로 편향과 오류가 적은 예측을 위해 적용할 수 있는 시뮬레이션 방법을 소개한다. 8장 '리샘플링 방법과 몬테카를로 테스트의 적용'에서는 일반 회귀 분석 알고리즘을 적용할 수 있는 조건에 부합하지 않고 누락값도 있는 가장 현실적인 데이터에 부트스트래핑과 몬테카를로 시뮬레이션을 적용해 가설을 검증하는 방법을 소개한다. 9장 'EM 알고리즘'은 누락값이 있는 데이터를 간단하게 생략하거나 단순한 기준으로 누락값을 대체하는 것이 아니라, 누락의 패턴을 찾아 데이터 전반적인 관점에서 누락값을 대체할 수 있는 시뮬레이션 방법을 설명한다. 10장 '복합 데이터로 하는 시뮬레이션'은 데이터의 구조가 여러 계층 수준으로 나뉘면서 복잡한 모델링이 필요한 경우 사용할 수 있는 모델 기반 시뮬레이션과 디자인 기반 시뮬레이션을 소개한다. 마지막 11장 '시스템 다이내믹스와 에이전트 기반 모델'은 시간의 흐름과 함께 관측 대상이 변해가는 패턴을 시뮬레이션으로 모형화하고 미래 예측에 사용할 수 있는 방안을 논의한다.
이 책을 번역하는 데 적지 않은 시간이 걸렸다. 에이콘 편집 팀에서도 많은 수학적 표기를 정확히 전달하기 위해 많은 시간을 들여서 정성을 다했으며, 나 또한 원서를 정확히 전달하기 위해 부족한 분야는 열심히 공부하면서 정확하게 번역하는 데 최선을 다했다. 오랜 시간 정성을 들인 번역이 여러분들의 학문, 경력, 사업 성과에 조금이나마 보탬이 된다면 그보다 큰 기쁨은 없을 것 같다.