Data Science

Survey를 진행하다보면 주관식 문항에 대해 워드클라우드를 요청하는 고객사가 정말 많다.

워드클라우드는 해석에 그렇게 좋지 않은 그래프임에도 무언가 꽉찬 느낌에 화려하여 보고서에서 한 장 차지하기 딱 좋아보여서 그런 것 같다.

근래 가장 많은 도움을 받고 있는 책인 ‘Do it! 쉽게 배우는 R 데이터 분석(김영우, 2017)’에 따르면 워드클라우드는 분석 결과를 정확하게 표현하는데는 정확하지 않다고 한다. 본문 중 워드클라우드에 대한 구체적인 평가 내용은 아래와 같다.

 워드 클라우드는 디자인이 아름다워서 자주 사용되지만 분석 결과를 정확하게 표현하는 데는 적합하지 않다. 단어 빈도를 크기와 색으로 표현하므로 ‘어떤 단어가 몇 번 사용 되었는지’ 정확히 알 수 없고, 단어 배치가 산만해서 ‘어떤 단어가 다른 단어보다 얼마나 더 많이 사용되었는지’ 비교가 어렵다. 텍스트를 아름답게 표현하는 게 아니라 분석 결과를 정확하게 표현하는 목적이라면 워드 클라우드보다는 막대 그래프를 이용하는게 좋다.

고객사에게 해석의 어려움에 대해 설명 드려도 일단 해달라는 요청도 많다. 그래서 어떻게든 조금의 해석이 이루어질 수 있도록 하려다 보면 전처리에 굉장히 심혈을 기울여야 한다.

“자연어처리 분야가 당연히 전처리를 꼼꼼히 잘 해야하는 것 아니냐”라고 묻는 분도 계시겠지만 워드클라우드를 일단 만들어 달라는 고객사의 요청에 부응하기 위해서는 인사이트의 실마리가 필요하다. 또 그 실마리를 찾기 위해서는 ‘진짜 정말로’ 전처리를 어떻게든 잘 해내야 한다.

그러다보니 데이터를 분석하면서 전처리에 평소보다 더 많은 시간을 할애하게 되었고 공부했다. 공부하며 얻게 된 지식의 일부를 명확하게 정리하고자 본 글을 쓰게 되었다.

(아 물론 이 글의 주제는 NLP의 매우 기본적인 내용이다)

주제는 Stemming & Lemmatization이다.

고객사에게 인사이트를 제공하기 위한 실마리를 찾는다는 것은 다른 말로 조사 참여자들의 응답 속에서 “의미를 찾는 것”이라 할 수 있다. 따라서 텍스트 안에서 객관적인 의미를 갖는 단어들을 추출해야 한다.

Stemming & Lemmatizatin

2022/11/18