골목통계
Search
골목통계
마케팅, 통계, 경제, 정치, 사회 등 잡다한 모든 글을 씁니다.
서론
해외 관련 프로젝트가 많은 부서 특성 상 각 국가의 경제 지표, 인구 등 데이터를 빠르게 수집해야 될 때가 참 많습니다.
오픈소스로 공개된 데이터는 워낙 많기에 Pool 자체에는 큰 걱정이 없지만, 그것을 내 목적에 맞게 최대한 효율적으로 가져오거나 가공하는 것은 또 다른 문제입니다.
최근 월드뱅크가 제공하는 데이터를 활용하면서 느낀 불편함을 개선하기 위해 작은 모듈을 만들었습니다. 이에 대한 내용을 소개하고자 본 글을 작성하게 되었습니다.
World Bank Open Data
월드뱅크(World Bank)는 세계은행 그룹 산하의 국제 금융 기관으로, 전 세계의 경제, 사회, 환경 등 다양한 지표를 수집 및 제공하고 있습니다. 이러한 데이터는 경제 발전, 빈곤 감소, 환경 보호 등 다양한 글로벌 이슈를 이해하고 해결하는 데 중요한 역할을 합니다.
[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용
2024/07/02
어떤 서비스를 통해 국가별 지도 이미지를 간단히 생성할 수 있는 방법을 알고 계시다면 이 글이 유용성이 다소 부족하게 느껴질 수 있습니다.
배경
보고서, 특히 PPT 형식의 보고서를 작성하다보면 이따금씩 특정 국가의 이미지가 필요합니다. 제가 재직 중인 부서에서는 정말 다양한 국가의 회사, 사람들과 함께 일하기 때문에 지도를 활용하는 일이 빈번합니다. 2~3개 국가의 지도만 필요하다면 구글에서 검색해서 붙여 넣으면 그만이지만, 만약 보고서에 20개 이상의 이미지가 필요하다면 어떻게 해야 할까요?
각 국가의 이미지를 구글에서 하나씩 찾을 수 있겠지만 이미지의 일관성이 부족하거나 무료 사용이 가능하지 않은 이미지가 대부분일 것입니다.
이런 상황에서 R은 우리에게 한 줄기 빛이 되어줄 수 있습니다. 단순 반복 작업을 줄이고 우리가 필요로 하는 국가들의 지도 이미지들을 일관된 스타일과 포맷으로 빠르게 생성할 수 있습니다.
R을 활용하여 20개가 넘는 국가들의 이미지를 후딱 추출하는 방법
을 알아보겠습니다.
[R] R을 활용한 국가별 지도 이미지 생성
2024/05/02
OPEN API를 활용하여 사업자번호의 폐업 여부를 R 코드로 구현해봅니다.
배경
이 사업체가 지금도 운영하고 있는지 어떻게 알지?
최근 한 프로젝트를 진행하면서 전국에 있는 사업체를 대상으로 설문조사를 진행할 일이 있었습니다. 내부 자료를 통해 전국에 있는 사업체의 목록은 확보했으나 목록에 있는 사업체들이 설문조사를 하는 시점에도 사업을 영위 중인지 알 길이 없었습니다.
사업 영위 여부를 사전에 전화나 이메일로 연락을 취해 직접 확인하는 방법도 있지만, 목록 내 모든 사업체를 대상으로 사전 확인을 하는 것은 매우 비효율적인 방법입니다.
[R] 오픈 API를 활용한 사업자번호 조회하기
2024/04/26
이번주 칼럼 작성을 해주신 ㅇㅈ님께 진심 어린 감사의 말씀 올립니다.
목차
16화 시청 포인트
① 궁금해? 현커 될거야?!
서경
주원
유정
창진
② 우리 썸 탈 때 생각난다
[환친조사] 환승연애 16화 시청자 여론조사
2024/03/29
워드 파일에 있는 이미지 파일만 추출하기!
배경
협업 과정에서 워드파일을 주고 받을 때가 참 많습니다. Google Drive, Onedrive와 같은 클라우드를 통해서 주고 받는 분들도 많습니다만 서로 다른 회사, 부서에 속한 경우에는 메일로 파일을 주고 받는 경우가 대부분일 것입니다.
때로는 그렇게 메일로 파일을 주고 받는 과정에서 파일에 첨부한 이미지를 따로 전달해주지 않는 경우가 있습니다. (단순 실수일수도 아니면 실수를 가장한 귀찮음일 수도)
이미지의 양이 상당히 많은데 급하게 편집, 수정해야 하는 경우 이 이미지들을 워드 파일 내에서 따로 저장하는 것은 굉장히 번거롭습니다.
이미지를 클릭하고, 저장하기를 누르고, 경로를 지정해야하기 때문에 너무 불필요한 시간이 소요됩니다.
워드 파일(docx)에서 이미지 한 번에 추출하기
2024/03/28
뉴스레터는 종영일 다음주 금요일까지 매주 금요일 오전에 발간됩니다.
목차
15화 시청 포인트
① 남자 X 지목 데이트
•
창진
종은 & 창진
다혜
[환친조사] 환승연애 15화 시청자 여론조사
2024/03/22
표본의 대표성을 높이는 통계적인 기법: 표준화 가중치
1. 표준화 가중치를 적용했다!?
1.1. 사회 분야의 조사 결과에 빈번히 등장하는 ‘표준화 가중치’
•
道 여성 6명 중 1명, 성희롱 피해 경험 3명 중 1명
(2023년 3월 8일, 경기매일, 황영진 기자)
위 기사는 2022년 9월~10월까지 경기도내 19세~75세 성인 2,000명을 대상으로 실시한 ‘경기도 여성폭력 실태조사’에 관한 기사인데, 기사의 마지막 부분에는 다음과 같이 기재되어 있습니다.[1], [2]
표준화 가중치
2023/05/31
Survey를 진행하다보면 주관식 문항에 대해 워드클라우드를 요청하는 고객사가 정말 많다.
워드클라우드는 해석에 그렇게 좋지 않은 그래프임에도 무언가 꽉찬 느낌에 화려하여 보고서에서 한 장 차지하기 딱 좋아보여서 그런 것 같다.
근래 가장 많은 도움을 받고 있는 책인 ‘Do it! 쉽게 배우는 R 데이터 분석(김영우, 2017)’에 따르면 워드클라우드는 분석 결과를 정확하게 표현하는데는 정확하지 않다고 한다. 본문 중 워드클라우드에 대한 구체적인 평가 내용은 아래와 같다.
워드 클라우드는 디자인이 아름다워서 자주 사용되지만 분석 결과를 정확하게 표현하는 데는 적합하지 않다. 단어 빈도를 크기와 색으로 표현하므로 ‘어떤 단어가 몇 번 사용 되었는지’ 정확히 알 수 없고, 단어 배치가 산만해서 ‘어떤 단어가 다른 단어보다 얼마나 더 많이 사용되었는지’ 비교가 어렵다. 텍스트를 아름답게 표현하는 게 아니라 분석 결과를 정확하게 표현하는 목적이라면 워드 클라우드보다는 막대 그래프를 이용하는게 좋다.
고객사에게 해석의 어려움에 대해 설명 드려도 일단 해달라는 요청도 많다. 그래서 어떻게든 조금의 해석이 이루어질 수 있도록 하려다 보면 전처리에 굉장히 심혈을 기울여야 한다.
“
자연어처리 분야가 당연히 전처리를 꼼꼼히 잘 해야하는 것 아니냐
”라고 묻는 분도 계시겠지만 워드클라우드를 일단 만들어 달라는 고객사의 요청에 부응하기 위해서는 인사이트의 실마리가 필요하다. 또 그 실마리를 찾기 위해서는 ‘진짜 정말로’ 전처리를 어떻게든 잘 해내야 한다.
Stemming & Lemmatizatin
2022/11/18
이번 글은 이틀동안 우여곡절 끝에 KoNLP를 설치 오류를 해결했던 과정에 대해 간략하게 공유드리고자 한다.
의외로 간단하게 해결되었으니 KoNLP로 골머리를 썩고 오신 분이라면 부디 이 글을 보고 해결되셨으면 한다.
KoNLP 설치에 관한 문제
KoNLP 패키지는 공식적으로 R의 CRAN에서 제외되었음.
따라서 ‘mrchypark’님이 자신의 Github에 올려놓은 패키지를 설치해야됨.
온갖 방법을 동원했으나 실패하였음.
작성자는 수동으로 직접 설치하는 방법을 택했음.
KONLP
2022/10/09
우리나라 경제 구조에서 소상공인의 비중은 상당하다. 그러나 많은 소상공인들이 성장 의지 없이 생계를 위한 대안으로써 사업을 영위하고 있다. 2019년 소상공인 실태조사에 따르면 동일 업종에서 경쟁심화 문제로 경영상 애로를 겪고 있다고 응답한 소상공인은 약 42%이고, 소상공인들의 평균 부채액은 2019년 기준 1억 7100만원으로 집계되었다.
2020년 초부터 코로나 팬더믹으로 인한 사회적거리두기로 영업활동에 강력한 제한이 있었던 것을 감안하면 평균 부채액은 더욱 크게 증가하였을 것으로 예상된다.
과도한 경쟁과 코로나 팬더믹으로 인한 어려움 속에서 성장 의지가 없는 소상공인들의 신용등급하락, 세금체납, 사업부도 가능성이 높아질 것으로 예상된다.
그렇다면 정말로 어떻게 해야할까?
•
소상공인들의 사업이 성장하기 위해선 어떻게 해야 할까?
•
소상공인들의 사업이 성장 할 수 있을까?
•
소상공인들을 위해 어떤 정책과 지원이 필요할까?
전국 소상공인 현황
2022/05/02
Load more
Contact
About Me
Marketing
AI
Statistics
Data Science
R
Visualization
GIS
Politics and Economics
Trival Knowledge
Pet project
Tip
Diary
API
API
Map
Map
Sampling
Sampling
Research Diary
Research Diary
Probability
Probability
ERROR
ERROR
R
R
NLP
NLP
Github
Github
다이어리
다이어리
잡무
잡무
MS Office
MS Office
유용
유용
Fun
Fun
Newsletter
Newsletter
All Copyright Reserved. 2024
Main Page
|
Category
|
Tags
|
About Me
|
Contact