마케팅, 통계, 경제, 정치, 사회 등 잡다한 모든 글을 씁니다.
OPEN API를 활용하여 사업자번호의 폐업 여부를 R 코드로 구현해봅니다.
배경
이 사업체가 지금도 운영하고 있는지 어떻게 알지?
최근 한 프로젝트를 진행하면서 전국에 있는 사업체를 대상으로 설문조사를 진행할 일이 있었습니다. 내부 자료를 통해 전국에 있는 사업체의 목록은 확보했으나 목록에 있는 사업체들이 설문조사를 하는 시점에도 사업을 영위 중인지 알 길이 없었습니다.
사업 영위 여부를 사전에 전화나 이메일로 연락을 취해 직접 확인하는 방법도 있지만, 목록 내 모든 사업체를 대상으로 사전 확인을 하는 것은 매우 비효율적인 방법입니다.
폐업한 사업체를 설문조사 대상에서 배제하기 위한 효율적인 사전 확인 작업이 필요했고, 정말 다행히도 행정안전부에서 운영 및 제공하는 공공데이터 포털의 오픈 API 서비스(Click)를 통해 이를 쉽게 수행할 수 있었습니다.
공공데이터 포털의 오픈 API 서비스를 활용하는 글은 매우 많으나 보통 Python 코드가 많고 R 코드로 구현된 것은 잘 없습니다. 또 이를 R로 구현하다고 하여도 API 1회 호출에 최대 100개 사업자등록번호만 조회할 수 있습니다. 따라서 한 번의 코드 실행으로 100개를 초과하는 사업자등록번호 목록을 모두 조회할 수 있는 방법을 상세히 설명한 글은 제가 찾았을 때 없었습니다. 때문에 이번 글을 통해 제 경험을 여러분께 공유하고자 합니다.
API
우선 API라는 단어를 들어본 적이 없거나 API에 대한 개념이 명확하지 않으신 분들을 위해 API에 대한 개념부터 짚고 넘어가고자 합니다. 해당되지 않는 분들께서는 본 챕터를 건너뛰셔도 좋습니다.
API의 정의
데이터를 전달하는 웨이터
[R] 오픈 API를 활용한 사업자번호 조회하기
2024/04/26
표본의 대표성을 높이는 통계적인 기법: 표준화 가중치
1. 표준화 가중치를 적용했다!?
1.1. 사회 분야의 조사 결과에 빈번히 등장하는 ‘표준화 가중치’
•
道 여성 6명 중 1명, 성희롱 피해 경험 3명 중 1명 (2023년 3월 8일, 경기매일, 황영진 기자)
위 기사는 2022년 9월~10월까지 경기도내 19세~75세 성인 2,000명을 대상으로 실시한 ‘경기도 여성폭력 실태조사’에 관한 기사인데, 기사의 마지막 부분에는 다음과 같이 기재되어 있습니다.[1], [2]
*본 조사는 표준화 가중치를 적용해 성비가 1:1에 근접하게 조정했음 (전체 사례수 2,000명 중 남성 1,019명, 여성 981명 대상)
공공기관의 수많은 조사결과에서 ‘표준화 가중치’를 적용했다는 문구가 빈번히 등장하지만 그 개념을 함께 설명해주는 경우는 거의 없기 때문에 어떻게 해석해야 할지 가늠할 수 없는 경우가 많습니다.
조사 결과를 활용하는 실무자 입장에서 표준화 가중치에 대한 개념을 함께 이해할 수 있는 글을 작성하고자 합니다.
2. 표본 가중치의 역할과 필요성
표준화 가중치
2023/05/31
Load more
All Copyright Reserved. 2024