골목통계
/
Data Science
Search
Data Science
Survey를 진행하다보면 주관식 문항에 대해 워드클라우드를 요청하는 고객사가 정말 많다.
워드클라우드는 해석에 그렇게 좋지 않은 그래프임에도 무언가 꽉찬 느낌에 화려하여 보고서에서 한 장 차지하기 딱 좋아보여서 그런 것 같다.
근래 가장 많은 도움을 받고 있는 책인 ‘Do it! 쉽게 배우는 R 데이터 분석(김영우, 2017)’에 따르면 워드클라우드는 분석 결과를 정확하게 표현하는데는 정확하지 않다고 한다. 본문 중 워드클라우드에 대한 구체적인 평가 내용은 아래와 같다.
워드 클라우드는 디자인이 아름다워서 자주 사용되지만 분석 결과를 정확하게 표현하는 데는 적합하지 않다. 단어 빈도를 크기와 색으로 표현하므로 ‘어떤 단어가 몇 번 사용 되었는지’ 정확히 알 수 없고, 단어 배치가 산만해서 ‘어떤 단어가 다른 단어보다 얼마나 더 많이 사용되었는지’ 비교가 어렵다. 텍스트를 아름답게 표현하는 게 아니라 분석 결과를 정확하게 표현하는 목적이라면 워드 클라우드보다는 막대 그래프를 이용하는게 좋다.
고객사에게 해석의 어려움에 대해 설명 드려도 일단 해달라는 요청도 많다. 그래서 어떻게든 조금의 해석이 이루어질 수 있도록 하려다 보면 전처리에 굉장히 심혈을 기울여야 한다.
“
자연어처리 분야가 당연히 전처리를 꼼꼼히 잘 해야하는 것 아니냐
”라고 묻는 분도 계시겠지만 워드클라우드를 일단 만들어 달라는 고객사의 요청에 부응하기 위해서는 인사이트의 실마리가 필요하다. 또 그 실마리를 찾기 위해서는 ‘진짜 정말로’ 전처리를 어떻게든 잘 해내야 한다.
Stemming & Lemmatizatin
2022/11/18
Main Page
|
Category
|
Tags
|
About Me
|
Contact