21-04-30 08:42
R for Data Science (Hadley Wickham and Garrett Grolemund)
과거에 비해 우리가 활용하는 데이터 형태가 다양해지고 있다. 다양한 형태의 정보를 처리할 수 있는 기술이 개발되고 있기 때문이다. 텍스트 데이터, 네트워크 데이터, 이미지 데이터 등이 좋은 예다. 다양한 데이터를 잘 다루고 그것에서 유용한 정보를 추출하기 위해서는, 특정한 목적을 염두에 두고 만들어진 프로그램을 사용하는 것을 넘어, 사용자 스스로 다양한 방식의 작업을 설계할 수 있는 컴퓨터 프로그래밍 언어를 익히는 것이 좋은 선택일 수 있다.
R은 이런 맥락에서 최근 많은 주목을 받고 있는 통계 프로그래밍 언어이다. 과거에는 통계학자들 중심으로 사용되었지만, 최근에는 분과를 넘어 폭넓게 활용되고 있다. R for Data Science는 Hadley Wickham와 Garrett Grolemund가 쓴, R을 활용한 데이터 분석 방법을 알려주는 책이다. 원서인 영어판은 https://r4ds.had.co.nz/에서 모두 볼 수 있다. 한국어 번역판도 존재하는데, 번역판의 제목은 “R을 활용한 데이터 과학”이다.
이 책의 큰 장점은 이 책의 저자인 Hadley Wickham 등이 개발하여 R 공동체에 큰 영향을 미치고 있는 tidyverse 패키지의 활용법과 그것의 세계관에 대해 폭넓게 소개하고 있는 점이다. 특히 Hadley Wickham은 R 사용자들 사이에서 압도적으로 많이 사용되고 있는 IDE (integrated development environment) 인 RStudio의 수석 과학자 (Chief Scientist)인데, R 사용자 공동체에 매우 큰 영향을 미친 인물이다. 그 영향은 R 사용자들의 tidyverse 패키지의 폭넓은 사용으로 잘 표현되고 있다. 분석자의 데이터가 변수와 케이스로 구성된 사각형 형태의 데이터 (Rectangular data) 이거나 혹은 이런 형태로 정리될 수 있다면, R와 tidyverse는 매우 강력한 성능을 발휘한다. 매우 직관적인 코딩이 가능하며, 다양한 상황에 대처할 수 있고, 처리 속도 또한 빠르다.
이 책은 R로 데이터를 불러오는 법, 데이터를 다듬어서 분석에 적합한 형태로 (특히 저자들은 tidy form으로 데이터를 정리하는 것을 강조한다) 만드는 법, 다듬어진 데이터를 목적에 따라 변형하거나 시각화하거나 거기서 모델을 추정하는 법, 마지막으로 분석 결과를 다른 사람과 소통하는 법을 포함하고 있다. 굉장히 다양한 상황에 대한 풍부한 실습을 제시하고 있어, 꾸준히만 읽는다면 혼자서도 충분히 공부가 가능하다. 그렇기에 R을 통해 데이터 분석 혹은 데이터 사이언스에 입문하고자 하는 사람이 활용하기에 좋은 저작이다. 물론 이 책을 ‘기본서’ 혹은 ‘입문서’라고 보기에는 약간 어려운 점이 있는데, 다소 어렵고 초심자가 반드시 알아야 한다고 보기 어려운 내용도 등장하기 때문이다. 하지만 독자가 책의 내용을 선택적으로 활용한다면 충분히 입문서의 기능을 할 수 있다. 입문자만이 아니다. tidyverse를 비롯한 Hadley Wickham 등이 개발한 패키지들이 R 공동체에 미치고 있는 영향력을 고려하면, 해당 패키지들에 익숙하지 않은 기존의 R 사용자에게도 일독을 권할 만하다.
댓글 1
chl
https://jojotv82.com