21-04-30 08:44
Text Mining with R: A Tidy Approach (Julia Silge and David Robinson)
최근 텍스트 마이닝에 (text mining) 대한 관심이 높아지고 있다. 텍스트 마이닝의 대량의 문서 혹은 언어 자료에서 가치있는 정보를 추출하는 방법 일반을 의미하는 용이이다. 과거 언어 자료로부터 정보를 얻어내기 위해서는 인간이 직접 읽거나 듣고 해석하는 활동이 필요했는데, 컴퓨터와 통계 모델에 기반한 자동 처리가 가능해진 것이다. 텍스트 마이닝은 쇼핑몰에 남겨진 리뷰를 분석하여 상품을 개선하는 것처럼 상업적으로도 활발히 활용되고 있고, 학계나 공공 영역에서도 많은 관심을 끌고 있다.
하지만 언어 데이터를 컴퓨터로 다뤄 정보를 추출하는 작업은 쉽지 않다. 예를 들어 어떤 사람이 어떤 식당에 대해 다음과 같은 리뷰를 남겼다고 해보자: “A 식당은 뭔가 분위기는 어수선한데 음식은 푸짐하다.” 이 자료로부터 A 식당에 대한 태도를 자동으로 분류하는 것은 쉽지 않은 일이다. 심지어 인간이 봐도 좋다는 말인지 싫다는 말인지 애매하다. 그래서 자유롭게 작성된 언어 데이터를 분석 목적에 적합하도록 특정한 형태로 체계화한 후 여러 분석을 적용하는 경우가 많은데, 분석자들은 다양한 상황에 대응할 수 있도록 컴퓨터 프로그래밍 언어를 활용하는 경우가 많다. R 역시 텍스트 마이닝에서 적잖이 활용되고 있는 통계 프로그래밍 언어이다.
Text Mining with R은 R을 활용하여 처음 텍스트 마이닝에 도전하는 사람에게 큰 도움이 된다. 영문판은 https://www.tidytextmining.com/에서 바로 볼 수 있으며, 한국어 번역판도 존재한다 (“R로 배우는 텍스트 마이닝”). 저자들은 텍스트 자료를 Hadley Wickham 등이 강조한 tidy form 데이터로 전환하여 분석하는 방법을 집중적으로 소개한다. 사실 R을 활용한 텍스트 마이닝은 다양한 방법으로 수행될 수 있다. 이 책에서 소개하는 것처럼 언어 데이터를 tidy form으로 전환하여 분석하는 방식을 활용하면, tidyverse 등 tidy form 데이터에 적합하면서 여러 장점을 가진 패키지를 사용할 수 있게 된다. 이 책의 저자인 Julia Silge와 David Robinson은 텍스트 데이터를 tidy form 등으로 전환하고 관련 작업을 원활히 수행할 수 있도록 해주는 tidytext 패키지를 개발하여 공개하였는데, 이 역시 과거에는 매우 번거로웠던 작업을 크게 효율화해주는 도구이며, 이 책에서는 tidytext 패키지에서 제공하는 여러 함수의 활용법을 알려준다.
이 책에서는 토픽 모델링을 포함하여, 몇 가지 대표적인 텍스트 마이닝 기법을 소개하고, 이를 R로 실습하는 코드를 제공한다. 다양한 실습이 제시되어 있고, 제공된 코드를 실행하면서 책을 흥미롭게 읽을 수 있다는 점이 이 책의 최대 장점이다. 다만 R에 대한 기초적인 지식이 있는 경우 더 쉽게 읽을 수 있으므로, R이 처음인 독자는 앞서 소개한 R for Data Science를 함께 참조하는 것이 좋다. 그리고 한국어 분석이 목표인 경우, 이 책만으로는 불충분하다고 느낄 수 있다. 일단 문장에서 단어가 추출되어야 하는데, 영문판을 기준으로 했을 때 이 책은 한국어 형태소 분석기의 활용법을 소개하지 않는다. 이는 다른 문헌을 통해 학습할 필요가 있다. 그럼에도 불구하고, 이 책은 R을 활용한 텍스트 마이닝에 관심있는 사람에게 가장 먼저 권하고 싶은 저작이다. 텍스트 마이닝의 기본적인 논리와 데이터 정리법에 대한 훌륭한 안내서이기 때문이다.
댓글 0
등록된 댓글이 없습니다.