가톨릭대학교 의과대학을 졸업하고 서울아산병원 인턴, 서울성모병원 신경과 수련을 마친 신경과 전문의로, 현재 경기도 광주시에 있는 성심요양병원 대표원장을 맡고 있다. 성남시 노인보건센터장, 보바스기념병원장, 주식회사 지노바이오 대표를 역임했다. 재미로 시작했던 공부를 바탕으로 ICT 관련 여러 책들을 번역하거나 저술했다.
R 언어가 사용되는 분야는 매우 넓기 때문에 R에 관한 책들도 많이 출판되고 있다. 어떤 학문이나 도메인에 R을 붙이면 거기에 해당하는 책을 찾을 수 있을 정도다. 예를 들면 R for machine learning, R for biology, R for Finance, R for Marketing 관련 책을 어렵지 않게 찾을 수 있다. 이 책은 R for Data Science 분야에 해당한다.
이 책의 장점은 R의 포괄적인 면을 다룬다는 점이다. 저자는 통계학을 전공하고 데이터 회사를 운영하는 데이터 과학자며, 컬럼비아 대학교에서 데이터 과학 개론을 강의하기도 한다. 저자의 서문에 따르면 이 책은 그 강의의 내용을 뼈대로 삼았다고 한다. 즉 R에 초점을 맞춘 데이터 과학 개론서로 책이 기획됐다는 의미다. 그 점은 이 책의 목차를 보더라도 드러난다. 저자는 'R for Everyone'이라는 제목을 붙였지만 번역을 마치고 보니 '데이터 과학 입문자를 위한 R' 정도가 가장 적합한 제목이라고 생각한다. 어떤 의도가 있겠지만 책의 내용만 보면 그렇다는 이야기다.
좀 더 구체적으로 보면 컴퓨터 언어로서 R 언어의 이모저모를 설명했으며, 외부에 있는 데이터를 R로 갖고 오는 방법, 갖고 와서 본격적인 분석에 들어가기 전 준비 과정에서 데이터를 정제하는 타이디버스(Tidyverse) 같은 최신의 방법, 데이터 탐색을 위한 데이터 시각화 방법, 데이터에 대한 여러 가지 모형을 만들고 평가하는 방법, 분석된 결과를 다른 사람과 공유하기 위해 R 마크다운/니터 같은 방법으로 문서화하는 방법, 샤이니(shiny) 앱을 좀 더 다이나믹하게 만드는 방법, 그리고 마지막으로 R 패키지로 자신이 만든 것을 다른 사람과 공유하는 방법까지 데이터 과학의 거의 모든 부분을 망라하고 있다. 이것은 데이터 과학자들이 일상적으로 하는 일이다.
따라서 이 책은 데이터 과학자가 되고자 하는 독자에게 좋은 안내서가 될 것이다. 개인적인 생각일지 모르지만, 데이터 과학을 하려는 사람에게 R은 피해갈 수 없는 영역이라고 생각한다. 왜냐하면 데이터 과학의 근간은 통계학이며, R은 통계학자들의 핵심 언어기 때문이다.
통계학 지식이 깊지 않아서 통계학에 대한 부분이 가장 번역이 어려웠다. 저자가 통계학 전공자여서인지 모르지만, 이 책은 선형, 비선형 모형까지 광범위하고 다양하게 설명하고 있다. 비전공자로서 비선형 모형 같은 내용은 낯선 것이었다. 최신 머신 러닝 알고리즘과 관련된 알고리즘에 대한 직감(intuition)을 파악하는 것이 중요해서 저자도 추천하는 책이지만 『An Introduction to Statistical Learning』(Springer, 2017)을 같이 읽으면서 많은 내용을 참고했다. 물론 더 깊이 이해하는 데는 더 많은 시간이 필요할 것이다. 나와 비슷한 처지에 있는 분이라면 이 책도 같이 읽으면서 공부할 것을 추천한다.
장점이 있으면 단점도 있다. 개론서로서 포괄적인 접근법을 선택했기 때문에 한 주제에 대한 깊이 있는 설명 부족하다. 이 책에서 한 장으로 설명되는 내용들이 하나의 책으로 엮어질 수 있는 것들이 많다. 내가 저술하거나 번역한 책들만 예로 들어도 그렇다. 니터(knitr) 패키지와 R 마크다운 패키지를 사용해 코드와 텍스트를 합쳐 문서화하는 방법은 『통계 분석 너머 R의 무궁무진한 활용』(에이콘, 2017), 샤이니(shiny) 패키지로 웹 애플리케이션을 만드는 방법은 『R Shiny 프로그래밍 가이드』 (한나래아카데미, 2017), RStudio 사용법에 대한 번역서 『초보자를 위한 RStudio 마스터』(에이콘, 2017) 등과 관련이 있다. 통계학으로 들어가면 하나하나의 주제가 거대한 산이고, 그것들을 소개하는 다양한 책들이 있다.
체계를 갖춘 모든 것이 그러하듯 처음부터 한 주제에 몰입할 수는 없다. 이 책은 앞에서도 언급했지만 R의 드넓은 지평을 보여준다. 독자들은 이 책을 통해 R의 신세계를 경험할 것이고, 이 책을 계기로 더 멀리, 더 깊이 들어갈 수 있으리라 생각한다.