골목통계
/
R
Search
R
Survey를 진행하다보면 주관식 문항에 대해 워드클라우드를 요청하는 고객사가 정말 많다.
워드클라우드는 해석에 그렇게 좋지 않은 그래프임에도 무언가 꽉찬 느낌에 화려하여 보고서에서 한 장 차지하기 딱 좋아보여서 그런 것 같다.
근래 가장 많은 도움을 받고 있는 책인 ‘Do it! 쉽게 배우는 R 데이터 분석(김영우, 2017)’에 따르면 워드클라우드는 분석 결과를 정확하게 표현하는데는 정확하지 않다고 한다. 본문 중 워드클라우드에 대한 구체적인 평가 내용은 아래와 같다.
워드 클라우드는 디자인이 아름다워서 자주 사용되지만 분석 결과를 정확하게 표현하는 데는 적합하지 않다. 단어 빈도를 크기와 색으로 표현하므로 ‘어떤 단어가 몇 번 사용 되었는지’ 정확히 알 수 없고, 단어 배치가 산만해서 ‘어떤 단어가 다른 단어보다 얼마나 더 많이 사용되었는지’ 비교가 어렵다. 텍스트를 아름답게 표현하는 게 아니라 분석 결과를 정확하게 표현하는 목적이라면 워드 클라우드보다는 막대 그래프를 이용하는게 좋다.
고객사에게 해석의 어려움에 대해 설명 드려도 일단 해달라는 요청도 많다. 그래서 어떻게든 조금의 해석이 이루어질 수 있도록 하려다 보면 전처리에 굉장히 심혈을 기울여야 한다.
“
자연어처리 분야가 당연히 전처리를 꼼꼼히 잘 해야하는 것 아니냐
”라고 묻는 분도 계시겠지만 워드클라우드를 일단 만들어 달라는 고객사의 요청에 부응하기 위해서는 인사이트의 실마리가 필요하다. 또 그 실마리를 찾기 위해서는 ‘진짜 정말로’ 전처리를 어떻게든 잘 해내야 한다.
Stemming & Lemmatizatin
2022/11/18
이번 글은 이틀동안 우여곡절 끝에 KoNLP를 설치 오류를 해결했던 과정에 대해 간략하게 공유드리고자 한다.
의외로 간단하게 해결되었으니 KoNLP로 골머리를 썩고 오신 분이라면 부디 이 글을 보고 해결되셨으면 한다.
KoNLP 설치에 관한 문제
KoNLP 패키지는 공식적으로 R의 CRAN에서 제외되었음.
따라서 ‘mrchypark’님이 자신의 Github에 올려놓은 패키지를 설치해야됨.
온갖 방법을 동원했으나 실패하였음.
작성자는 수동으로 직접 설치하는 방법을 택했음.
KONLP
2022/10/09
서론
해외 관련 프로젝트가 많은 부서 특성 상 각 국가의 경제 지표, 인구 등 데이터를 빠르게 수집해야 될 때가 참 많습니다.
오픈소스로 공개된 데이터는 워낙 많기에 Pool 자체에는 큰 걱정이 없지만, 그것을 내 목적에 맞게 최대한 효율적으로 가져오거나 가공하는 것은 또 다른 문제입니다.
최근 월드뱅크가 제공하는 데이터를 활용하면서 느낀 불편함을 개선하기 위해 작은 모듈을 만들었습니다. 이에 대한 내용을 소개하고자 본 글을 작성하게 되었습니다.
World Bank Open Data
월드뱅크(World Bank)는 세계은행 그룹 산하의 국제 금융 기관으로, 전 세계의 경제, 사회, 환경 등 다양한 지표를 수집 및 제공하고 있습니다. 이러한 데이터는 경제 발전, 빈곤 감소, 환경 보호 등 다양한 글로벌 이슈를 이해하고 해결하는 데 중요한 역할을 합니다.
[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용
2024/07/02
OPEN API를 활용하여 사업자번호의 폐업 여부를 R 코드로 구현해봅니다.
배경
이 사업체가 지금도 운영하고 있는지 어떻게 알지?
최근 한 프로젝트를 진행하면서 전국에 있는 사업체를 대상으로 설문조사를 진행할 일이 있었습니다. 내부 자료를 통해 전국에 있는 사업체의 목록은 확보했으나 목록에 있는 사업체들이 설문조사를 하는 시점에도 사업을 영위 중인지 알 길이 없었습니다.
사업 영위 여부를 사전에 전화나 이메일로 연락을 취해 직접 확인하는 방법도 있지만, 목록 내 모든 사업체를 대상으로 사전 확인을 하는 것은 매우 비효율적인 방법입니다.
[R] 오픈 API를 활용한 사업자번호 조회하기
2024/04/26
어떤 서비스를 통해 국가별 지도 이미지를 간단히 생성할 수 있는 방법을 알고 계시다면 이 글이 유용성이 다소 부족하게 느껴질 수 있습니다.
배경
보고서, 특히 PPT 형식의 보고서를 작성하다보면 이따금씩 특정 국가의 이미지가 필요합니다. 제가 재직 중인 부서에서는 정말 다양한 국가의 회사, 사람들과 함께 일하기 때문에 지도를 활용하는 일이 빈번합니다. 2~3개 국가의 지도만 필요하다면 구글에서 검색해서 붙여 넣으면 그만이지만, 만약 보고서에 20개 이상의 이미지가 필요하다면 어떻게 해야 할까요?
각 국가의 이미지를 구글에서 하나씩 찾을 수 있겠지만 이미지의 일관성이 부족하거나 무료 사용이 가능하지 않은 이미지가 대부분일 것입니다.
이런 상황에서 R은 우리에게 한 줄기 빛이 되어줄 수 있습니다. 단순 반복 작업을 줄이고 우리가 필요로 하는 국가들의 지도 이미지들을 일관된 스타일과 포맷으로 빠르게 생성할 수 있습니다.
R을 활용하여 20개가 넘는 국가들의 이미지를 후딱 추출하는 방법
을 알아보겠습니다.
[R] R을 활용한 국가별 지도 이미지 생성
2024/05/02
Main Page
|
Category
|
Tags
|
About Me
|
Contact