[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용

골목통계
/
[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용
Search
[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용
서론
 해외 관련 프로젝트가 많은 부서 특성 상 각 국가의 경제 지표, 인구 등 데이터를 빠르게 수집해야 될 때가 참 많습니다.
오픈소스로 공개된 데이터는 워낙 많기에 Pool 자체에는 큰 걱정이 없지만, 그것을 내 목적에 맞게 최대한 효율적으로 가져오거나 가공하는 것은 또 다른 문제입니다.
 최근 월드뱅크가 제공하는 데이터를 활용하면서 느낀 불편함을 개선하기 위해 작은 모듈을 만들었습니다. 이에 대한 내용을 소개하고자 본 글을 작성하게 되었습니다.
World Bank Open Data
월드뱅크(World Bank)는 세계은행 그룹 산하의 국제 금융 기관으로, 전 세계의 경제, 사회, 환경 등 다양한 지표를 수집 및 제공하고 있습니다. 이러한 데이터는 경제 발전, 빈곤 감소, 환경 보호 등 다양한 글로벌 이슈를 이해하고 해결하는 데 중요한 역할을 합니다.
월드뱅크의 데이터 목록 일부
 월드뱅크는 이 데이터를 World Bank Open Data라는 플랫폼을 통해 데이터를 제공하고 있습니다. 그러나 해당 플랫폼에서 필요한 데이터를 추출하기엔 다소 어렵게 느껴질 수 있습니다. 월드뱅크 데이터는 모든 국가에 대한 다양한 데이터를 제공하고 있기 때문에 데이터의 양이 방대합니다. 이런 플랫폼 내에서 직접 데이터를 조회하고 csv 파일로 다운로드 받는 과정이 쉽지만은 않습니다.
KOSIS와 OPEN API
 통계청에서 저와 같이 느꼈는지 월드뱅크의 데이터를 가공하여 제공하고 있습니다.
KOSIS(Korean Statistical Information Service)는 대한민국 통계청이 운영하는 국가 통계 포털로, 국내외 다양한 통계 데이터를 제공하고 있는데요.
KOSIS에 제공되는 대부분의 데이터를 API를 통해 외부에서 활용할 수 있도록 서비스를 제공하고 있습니다. (OPENA API에 대한 내용은 이전 글에 있습니다 → CLICK!)
KOSIS에서 월드뱅크의 데이터는 ‘국제통계’라는 카테고리에서 제공되고 있습니다. 저 개인적으로는 월드뱅크의 플랫폼보다 훨씬 가독성 있다고 느껴집니다만, 이것 역시도 API로 데이터를 바로 호출하는 것보다는 느리고 바로 분석에 활용할 수 없는 형태로 제공 되고 있습니다.
그래서 R의 kosis 패키지를 활용하여 API로 월드뱅크 데이터를 호출하고 필요에 맞게 전처리하는 하나의 모듈을 소개해 드리겠습니다.
본론
 API로 데이터를 불러올 것이지만, 어떤 데이터 및 테이블이 필요한지는 알고 있어야 합니다. 따라서 KOSIS 홈페이지에서 테이블을 조회하는 과정은 필수입니다.
작업 순서를 요약하면 아래와 같습니다.
KOSIS에서 필요한 테이블 조회 → 테이블 ID 확인 → R 코드 작성
패키지
본 작업을 수행하기 위해 필요한 몇 가지 패키지를 설치하고 로드하겠습니다.
pacman 패키지를 활용하여 여러 패키지를 한 번에 로드하겠습니다.
# pacman 패키지를 사용하여 필요한 패키지를 설치하고 로드합니다.
library(pacman)
p_load(dplyr, tidyr, googlesheets4, kosis)
R
복사
•
dplyr: 데이터 조작을 위한 패키지로, 데이터를 필터링, 정렬, 요약하는 등의 작업을 수행할 수 있습니다.
•
tidyr: 데이터의 형식을 변환하는 데 사용되는 패키지로, 데이터를 wide format과 long format 간에 변환할 수 있습니다.
•
googlesheets4: 구글 스프레드시트와 연동하여 데이터를 읽고 쓰는 데 사용되는 패키지입니다.
•
kosis: KOSIS Open API를 통해 데이터를 호출하기 위한 패키지입니다.
kosis 패키지는 Seokhoon Joo라는 데이터 사이언스분께서 개발해주셨습니다.
◦
Github: GitHubseokhoonj - Overview
◦
Linkedin: www.linkedin.com
감사합니다. 
API
KOSIS Open API를 사용하기 위해서는 API 키가 필요합니다. API 키는 KOSIS 공유서비스에서 발급 받을 수 있습니다.
(API 키를 발급하는 절차와 방법은 해당 홈페이지에 상세히 안내 되어 있으니 확인 바랍니다)
kosis.setKey 함수를 활용하여 API키를 설정합니다.
# KOSIS API 키 설정
kosis.setKey("MY API KEY")
R
복사
국가 리스트
국가명을 한국어, 영어, ISO 코드, 대륙을 모두 직접 정리한 리스트가 있습니다. 
저의 경우 해당 리스트를 협업에 활용할 것을 염두하여 구글 드라이브에 올려 놓고 호출하는 방식으로 활용했습니다.
월드뱅크 데이터를 호출하고 전처리 하는 데에는 이 테이블이 꼭 필요하지는 않지만, 저처럼 해외 프로젝트가 많은 분들을 위해 테이블을 공유 드립니다.
국가 리스트 테이블
gs4_auth 함수의 email 인수에 자신의 구글 계정을 입력하여 인증을 받습니다.
# googlesheets4 패키지의 gs4_auth 함수를 활용하여 구글 스프레드시트 API에 연결
gs4_auth(email = "ID@email.com")

# 구글 스프레드시트에서 국가 리스트 데이터를 읽어옵니다.
df_country_list <- googlesheets4::read_sheet("https://docs.google.com/spreadsheets/ULR을 입력하세요")
R
복사
월드뱅크 데이터 호출
경제 규모 데이터(DT_2AQ151)
 연간 인구 수, 국토 면적, 국민총소득(GNI), 국내총생산(GDP) 등 주요 경제 지표가 있는 테이블을 호출하겠습니다(KOSIS).
#경제규모 (DT_2AQ151)
df_ecosize1 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2000", 
            endPrdDe = "2012", 
            prdSe = "Y", 
            objL1 = "ALL", 
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")

df_ecosize2 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2013", 
            endPrdDe = "2023", 
            prdSe = "Y", 
            objL1 = "ALL", 
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")

#병합
df_ecosize_origin <- bind_rows(df_ecosize1, df_ecosize2) %>%
  arrange(C1_NM, ITM_NM, PRD_DE)

df_ecosize_origin$PRD_DE <- as.integer(df_ecosize_origin$PRD_DE)
df_ecosize_origin$DT <- as.numeric(df_ecosize_origin$DT)
df_ecosize_origin$C1_NM <- as.factor(df_ecosize_origin$C1_NM)
R
복사
모든 국가의 24년치 데이터를 가져오는 것이기 때문에 양이 상당합니다. 
KOSIS가 제공하는 API의 용량을 벗어나기 때문에 연도를 나눠 호출한 뒤 병합하는 과정을 거칩니다.
getStatData 함수의 각 인자에 대한 설명은 아래와 같습니다. 
•
orgId: 기관 ID → 월드뱅크는 101입니다.
•
tblId: 테이블 ID
KOSIS에서 조회하고자 하는 테이블을 클릭하면 상단 URL에 tblld= 뒤에 나오는 값을 입력하면 됩니다.
•
prdSe: 기간 설정(년/월 등)
Y, H, Q, M, D, IR이 있습니다. 순서대로 각각 Year(연도), Half(반기), Quarter(분기), Month(월), Day(일), Irregularly(불규칙)입니다. 
KOSIS에서 조회했을 때 각 테이블에서 나오는 
•
startPrdDe: 시작 연도
포맷: YYYY, YYYYMM(MM:01~12), YYYYHH(HH:01,02), YYYYQQ(QQ:01~04), YYYYMMDD
→ 월드뱅크의 데이터는 대부분 연 단위이기 때문에 YYYY 형태로 작성합니다.
•
endPrdDe: 종료 연도 → startPrdDE와 같습니다.
•
objL1 : “All”이라고 작성합니다. 특정 변수로 필터링하고 싶다면, 해당 변수의 코드화된 변수를 입력하면 됩니다.
예를 들어, 대한민국의 경제 규모만 추출하고 싶으면 아래와 같이 인자의 값을 변경하면 됩니다. 
#경제규모 (DT_2AQ151)
df_ecosize1 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2000", 
            endPrdDe = "2012", 
            prdSe = "Y", 
            objL1 = "100T33J", #인자의 값 변경
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")

df_ecosize2 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2013", 
            endPrdDe = "2023", 
            prdSe = "Y", 
            objL1 = "100T33J", #인자의 값 변경
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")
R
복사
 2개의 데이터프레임을 병합한 데이터셋 df_ecosize_origin는 아래와 같은 형태로 이루어져 있습니다. 
API로 호출했을 때 기존 df_ecosize_origin
정말 필요한 변수만 선택한 뒤 tidyr 패키지의 pivot_wider 함수를 활용하여 분석에 용이한 형태로 바꾸겠습니다. 
pivot_wider로 변형한 뒤 테이블 형태
원래의 데이터는 각 행이 특정 연도(PRD_DE)의 여러 지표 값들을 포함한 long 포맷으로 되어 있었고, 각 지표는 별도의 열(ITM_NM)로 존재했습니다.
pivot_wider 함수는 이러한 long 포맷 데이터를 wide 포맷으로 변환합니다. 이를 통해 각 지표가 별도의 열로 나타나게 되고, 각 행은 특정 국가(C1_NM)와 연도에 해당하는 모든 지표 값을 포함하게 됩니다. 예를 들어, "1인당 국내총생산", "1인당 국민총소득 (Atlas법)", "구매력평가 1인당 국내총생산" 등은 원래 데이터에서는 여러 행에 걸쳐 있었지만, pivot_wider()를 사용한 후에는 같은 연도 내에서 각 지표가 개별적인 열로 나타나게 되었습니다.
df_ecosize <- df_ecosize_origin %>%
  select(C1_NM, PRD_DE, ITM_NM, DT) %>%
  pivot_wider(names_from = ITM_NM, values_from = DT)

#불필요한 데이터프레임 삭제
rm(df_ecosize1, df_ecosize2)
R
복사
•
국가 정보 테이블 병합
서두에 잠깐 언급 드린 국가 리스트에 대한 테이블을 병합합니다.
이 과정은 필수는 아닙니다. 그러나 각 국가에 대한 영문명, ISO 코드를 추가할 수 있어 영문 작업 시 도움이 됩니다.
# 경제 데이터와 국가 데이터를 병합
df_ecosize <- df_ecosize %>%
  left_join(df_country_list, by = c("C1_NM" = "C1_NM"))
R
복사
연령별 인구(DT_20WBH006, DT_20WBH005)
 성별*연령대 인구 비율 테이블(DT_20WBH006) → 남성과 여성 인구 수(DT_20WBH005) → 두 테이블 결합하여 각 성별*연령대의 인구 수 테이블 생성
이번에는 연령별 인구를 구해보겠습니다. 월드뱅크의 데이터는 5세 단위로 연령대의 비율을 제공하고 있습니다. 연령대 별 인구 비율만 제공할 뿐 각 연령대의 인구 수는 따로 제공하고 있지 않습니다. 데이터를 호출한 뒤 각 연령대의 인구 수를 구하여 테이블로 생성해보겠습니다.
•
성별*연령대 인구 비율 테이블(DT_20WBH006) → KOSIS
•
성별 인구 수 테이블 (DT_20WBH005) → KOSIS
이번에는 호출할 데이터의 용량이 경제규모보다 훨씬 큽니다.
따라서 parallel 패키지의 makeCluster와 parLapply 함수를 사용하여 여러 코어에서 병렬로 데이터를 호출하여 더 빠른 속도로 데이터를 가져오는 방법입니다.

병렬 처리는 여러 작업을 동시에 수행하여 컴퓨터의 처리 속도를 높이는 방법입니다.
마치 피자 가게에서 한 사람이 혼자 피자를 만드는 것보다 여러 명의 직원이 각자 피자 반죽, 소스 바르기, 토핑 올리기, 오븐에 굽기를 분업하여 동시에 피자를 만드는 게 더 빠른 것과 같습니다. R의 parallel 패키지를 사용하면, 우리가 해야 할 작업을 여러 조각으로 나눠서 컴퓨터의 여러 CPU 코어에 분배할 수 있습니다. 예를 들어, 대량의 데이터를 처리할 때, 각 코어가 데이터의 일부를 독립적으로 계산한 후 결과를 합치는 방식으로 시간을 절약할 수 있습니다. 이렇게 하면 작업이 훨씬 더 효율적으로 진행되고, 대량의 데이터를 빠르게 분석할 수 있습니다.
•
detectCores(): 사용 가능한 CPU 코어 수를 반환합니다. 이를 통해 시스템의 코어 수를 파악하여 클러스터를 설정할 수 있습니다.
•
makeCluster(): 지정된 수의 작업자로 구성된 클러스터를 생성합니다. 여기서 num_cores는 클러스터에 사용할 코어의 수를 지정합니다.
두 테이블 중 우선 성별*연령대 인구 비율 테이블(DT_20WBH006)을 호출해보겠습니다. 
# 병렬 처리를 위한 라이브러리 로드
library(parallel)

# 병렬 처리를 위한 클러스터 설정
cl <- makeCluster(detectCores()) #가용 cpu 코어 수를 파악하여 코어 수 자동 지정

# 병렬 처리를 위해 필요한 라이브러리와 함수 전달
clusterEvalQ(cl, { library(kosis) })

# 데이터를 가져올 연도 범위 설정
periods <- list(c("2019", "2023"), c("2015", "2018"), c("2011", "2014"), 
                c("2007", "2010"), c("2003", "2006"), c("2000", "2002"))

# 병렬로 데이터 가져오기
data_list <- parLapply(cl, periods, function(period) {
  getStatData(
    orgId = "101", 
    tblId = "DT_20WBH006", 
    startPrdDe = period[1], 
    endPrdDe = period[2], 
    prdSe = "Y", 
    objL1 = "ALL",
    objL2 = "ALL"
  )
})

# 클러스터 정지
stopCluster(cl)

# 모든 데이터를 하나의 데이터프레임으로 결합
df_age_pop_ratio_origin <- bind_rows(data_list)
rm(data_list)
R
복사
df_age_pop_ratio_origin 테이블 구조
경제규모 테이블과 마찬가지로 호출한 데이터에서 필요한 변수만 선택한 뒤 pivot_wider 함수를 통해 테이블 구조를 분석에 용이하도록 변형합니다.
# 연령별 인구비율 데이터를 정리
df_age_pop_ratio <- df_age_pop_ratio_origin %>%
  select(C1_NM, PRD_DE, C2_NM, DT) %>%
  pivot_wider(names_from = C2_NM, values_from = DT)
R
복사
df_age_pop_ratio 테이블 구조
이제 두 번째 테이블인 성별 인구 수 테이블(DT_20WBH005)을 호출하고 테이블 구조를 정리합니다.
# 병렬 처리를 위한 클러스터 설정
cl <- makeCluster(detectCores())

# 병렬 처리를 위해 필요한 라이브러리와 함수 전달
clusterEvalQ(cl, { library(kosis) })

# 데이터를 가져올 연도 범위 설정
periods <- list(c("2019", "2023"), c("2015", "2018"), c("2011", "2014"), 
                c("2007", "2010"), c("2003", "2006"), c("2000", "2002"))

# 병렬로 데이터 가져오기
data_list <- parLapply(cl, periods, function(period) {
  getStatData(
    orgId = "101", 
    tblId = "DT_20WBH005", 
    startPrdDe = period[1], 
    endPrdDe = period[2], 
    prdSe = "Y", 
    objL1 = "ALL",
    objL2 = "ALL"
  )
})

# 클러스터 정지
stopCluster(cl)

# 모든 데이터를 하나의 데이터프레임으로 결합
df_age_pop <- bind_rows(data_list)

df_age_pop <- df_age_pop %>% 
  filter(C2_NM %in% c("전체", "남성", "여성")) %>%
  arrange(C1, C2_NM, PRD_DE)
  

df_age_pop <- df_age_pop %>%
  select(C1_NM, PRD_DE, C2_NM, DT) %>%
  pivot_wider(names_from = C2_NM, values_from = DT)
R
복사
df_age_pop 테이블 구조
이제 연령대 별 비율(DT_20WBH006)과 성별 인구 수 테이블(DT_20WBH005)을 결합합니다.
5세 단위의 각 연령대의 인구수 변수가 오른쪽에 추가됩니다.
# 연령별 인구비율 데이터와 성별 인구 데이터를 병합
df_age_pop <- df_age_pop_ratio %>%
  left_join(df_age_pop, by = c("C1_NM" = "C1_NM", "PRD_DE" = "PRD_DE")) %>%
  arrange(C1_NM, PRD_DE)

# 데이터 형식 변환 및 파생 변수 생성
df_age_pop <- df_age_pop %>%
  mutate(across(3:39, as.numeric)) %>%
  mutate(across(3:19, ~ round(.x * df_age_pop[[37]]/100,0), .names = "{str_remove(col, '\\\\(.*')}")) %>%
  mutate(across(20:36, ~ round(.x * df_age_pop[[38]]/100,0), .names = "{str_remove(col, '\\\\(.*')}"))

#연도 변수를 수치형으로 변환
df_age_pop$PRD_DE <- as.integer(df_age_pop$PRD_DE)
R
복사
최종 df_age_pop 테이블 구조
•
mutate(across(3:39, as.numeric))
◦
데이터 프레임의 3번째 열부터 39번째 열까지 모든 열의 데이터를 숫자형(numeric)으로 변환합니다.
◦
이는 데이터가 텍스트 형식으로 저장되어 있을 경우, 연산이 가능하도록 숫자형으로 변환하는 것입니다.
•
mutate(across(3:19, ~ round(.x * df_age_pop[[37]]/100,0), .names = "{str_remove(col, '\\\\(.*')}")) → 남성 인구수 구하기
◦
이 단계에서는 3번째 열부터 19번째 열까지의 값을 특정 계산을 통해 새로운 값을 생성합니다.
◦
각 열의 값을 df_age_pop[[37]]의 값(인구수)과 곱하고 100으로 나누어 비율을 계산한 후, round 함수를 사용하여 반올림합니다. 이 과정이 각 연령별 인구 비율에 대해 실제 인구수를 계산하는 과정입니다.
◦
.names: str_remove를 사용하여 열 이름의 괄호를 제거하여 새로운 열 이름을 설정합니다.
•
mutate(across(20:36, ~ round(.x * df_age_pop[[38]]/100,0), .names = "{str_remove(col, '\\\\(.*')}")) → 여성 인구수 구하기
◦
이 단계에서는 20번째 열부터 36번째 열까지의 값을 특정 계산을 통해 새로운 값을 생성합니다. 마찬가지로 여성 인구수에 각 연령대의 비율을 곱해서 실질적인 인구수를 구하는 과정입니다.
결론
 이번 글에서는 KOSIS Open API와 R의 kosis 패키지를 활용하여 월드뱅크 데이터를 효과적으로 수집하고 전처리하는 방법을 소개해 드렸습니다. 
글로벌 프로젝트에서 필수적인 경제 지표와 인구 데이터를 신속하게 수집하는 것은 매우 중요합니다. 월드뱅크는 경제, 사회, 환경 등 다양한 분야의 데이터를 제공하지만, 데이터의 방대함과 복잡성 때문에 필요한 데이터를 직접 추출하고 활용하는 데 어려움이 있을 수 있습니다. KOSIS 에서는 이러한 데이터를 좀 더 쉽게 접근할 수 있도록 다양한 통계 데이터를 제공하고 있고, R의 kosis 패키지를 사용하면 KOSIS Open API를 통해 데이터를 직접 호출하고 R 환경에서 쉽게 분석할 수 있습니다. 더불어 방대한 데이터를 API로 호출 할 때 병렬처리하여 시간을 절약할 수 있는 방법을 짧게 소개해드렸습니다.
 이 글을 작성하면서 누군가 “야 OOO 대리, 우리 어디 국가에 수출 타진하려고 하는데, 그 국가 경제 상황 어떤지 좀 찾아봐바”와 같은 요청을 받았을 때 1시간 이내로 데이터를 제공이 가능하게 만드는 것에 초점을 맞췄습니다.
제공해드린 코드를 통해 반복적인 데이터 수집 및 전처리 작업을 자동화함으로써, 데이터 기반의 의사결정을 빠르게 내릴 수 있습니다. 이를 통해 글로벌 프로젝트를 진행하는 데이터 과학자나 연구자, 또 무역 쪽 직무의 현직자분들에게 도움이 되면 좋겠습니다. 
감사합니다.
우리나라 경제 구조에서 소상공인의 비중은 상당하다. 그러나 많은 소상공인들이 성장 의지 없이 생계를 위한 대안으로써 사업을 영위하고 있다. 2019년 소상공인 실태조사에 따르면 동일 업종에서 경쟁심화 문제로 경영상 애로를 겪고 있다고 응답한 소상공인은 약 42%이고, 소상공인들의 평균 부채액은 2019년 기준 1억 7100만원으로 집계되었다.
2020년 초부터 코로나 팬더믹으로 인한 사회적거리두기로 영업활동에 강력한 제한이 있었던 것을 감안하면 평균 부채액은 더욱 크게 증가하였을 것으로 예상된다.
과도한 경쟁과 코로나 팬더믹으로 인한 어려움 속에서 성장 의지가 없는 소상공인들의 신용등급하락, 세금체납, 사업부도 가능성이 높아질 것으로 예상된다.
그렇다면 정말로 어떻게 해야할까?
•
소상공인들의 사업이 성장하기 위해선 어떻게 해야 할까?
•
소상공인들의 사업이 성장 할 수 있을까?
•
소상공인들을 위해 어떤 정책과 지원이 필요할까?
위와 같은 질문에 답하기 위해 우선 소상공인에 대해 정확히 파악해보기로 했다.
이번 글에서는 아래와 같은 질문들에 대한 답을 찾았다.
1.
정확히 소상공인이 누구를 지칭하는 것일까?
2.
소상공인들은 왜 많을까?
3.
소상공인들은 잘 준비하고 창업을 하는 것인가?
전국 소상공인 현황
2022/05/02
서론
 해외 관련 프로젝트가 많은 부서 특성 상 각 국가의 경제 지표, 인구 등 데이터를 빠르게 수집해야 될 때가 참 많습니다.
오픈소스로 공개된 데이터는 워낙 많기에 Pool 자체에는 큰 걱정이 없지만, 그것을 내 목적에 맞게 최대한 효율적으로 가져오거나 가공하는 것은 또 다른 문제입니다.
 최근 월드뱅크가 제공하는 데이터를 활용하면서 느낀 불편함을 개선하기 위해 작은 모듈을 만들었습니다. 이에 대한 내용을 소개하고자 본 글을 작성하게 되었습니다.
World Bank Open Data
월드뱅크(World Bank)는 세계은행 그룹 산하의 국제 금융 기관으로, 전 세계의 경제, 사회, 환경 등 다양한 지표를 수집 및 제공하고 있습니다. 이러한 데이터는 경제 발전, 빈곤 감소, 환경 보호 등 다양한 글로벌 이슈를 이해하고 해결하는 데 중요한 역할을 합니다.
월드뱅크의 데이터 목록 일부
 월드뱅크는 이 데이터를 World Bank Open Data라는 플랫폼을 통해 데이터를 제공하고 있습니다. 그러나 해당 플랫폼에서 필요한 데이터를 추출하기엔 다소 어렵게 느껴질 수 있습니다. 월드뱅크 데이터는 모든 국가에 대한 다양한 데이터를 제공하고 있기 때문에 데이터의 양이 방대합니다. 이런 플랫폼 내에서 직접 데이터를 조회하고 csv 파일로 다운로드 받는 과정이 쉽지만은 않습니다.
KOSIS와 OPEN API
 통계청에서 저와 같이 느꼈는지 월드뱅크의 데이터를 가공하여 제공하고 있습니다.
KOSIS(Korean Statistical Information Service)는 대한민국 통계청이 운영하는 국가 통계 포털로, 국내외 다양한 통계 데이터를 제공하고 있는데요.
KOSIS에 제공되는 대부분의 데이터를 API를 통해 외부에서 활용할 수 있도록 서비스를 제공하고 있습니다. (OPENA API에 대한 내용은 이전 글에 있습니다 → CLICK!)
KOSIS에서 월드뱅크의 데이터는 ‘국제통계’라는 카테고리에서 제공되고 있습니다. 저 개인적으로는 월드뱅크의 플랫폼보다 훨씬 가독성 있다고 느껴집니다만, 이것 역시도 API로 데이터를 바로 호출하는 것보다는 느리고 바로 분석에 활용할 수 없는 형태로 제공 되고 있습니다.
그래서 R의 kosis 패키지를 활용하여 API로 월드뱅크 데이터를 호출하고 필요에 맞게 전처리하는 하나의 모듈을 소개해 드리겠습니다.
본론
 API로 데이터를 불러올 것이지만, 어떤 데이터 및 테이블이 필요한지는 알고 있어야 합니다. 따라서 KOSIS 홈페이지에서 테이블을 조회하는 과정은 필수입니다.
작업 순서를 요약하면 아래와 같습니다.
KOSIS에서 필요한 테이블 조회 → 테이블 ID 확인 → R 코드 작성
패키지
본 작업을 수행하기 위해 필요한 몇 가지 패키지를 설치하고 로드하겠습니다.
pacman 패키지를 활용하여 여러 패키지를 한 번에 로드하겠습니다.
•
dplyr: 데이터 조작을 위한 패키지로, 데이터를 필터링, 정렬, 요약하는 등의 작업을 수행할 수 있습니다.
•
tidyr: 데이터의 형식을 변환하는 데 사용되는 패키지로, 데이터를 wide format과 long format 간에 변환할 수 있습니다.
•
googlesheets4: 구글 스프레드시트와 연동하여 데이터를 읽고 쓰는 데 사용되는 패키지입니다.
•
kosis: KOSIS Open API를 통해 데이터를 호출하기 위한 패키지입니다.
kosis 패키지는 Seokhoon Joo라는 데이터 사이언스분께서 개발해주셨습니다.
◦
Github: GitHubseokhoonj - Overview
◦
Linkedin: www.linkedin.com
감사합니다. 
API
KOSIS Open API를 사용하기 위해서는 API 키가 필요합니다. API 키는 KOSIS 공유서비스에서 발급 받을 수 있습니다.
(API 키를 발급하는 절차와 방법은 해당 홈페이지에 상세히 안내 되어 있으니 확인 바랍니다)
kosis.setKey 함수를 활용하여 API키를 설정합니다.
국가 리스트
국가명을 한국어, 영어, ISO 코드, 대륙을 모두 직접 정리한 리스트가 있습니다. 
저의 경우 해당 리스트를 협업에 활용할 것을 염두하여 구글 드라이브에 올려 놓고 호출하는 방식으로 활용했습니다.
월드뱅크 데이터를 호출하고 전처리 하는 데에는 이 테이블이 꼭 필요하지는 않지만, 저처럼 해외 프로젝트가 많은 분들을 위해 테이블을 공유 드립니다.
국가 리스트 테이블
gs4_auth 함수의 email 인수에 자신의 구글 계정을 입력하여 인증을 받습니다.
월드뱅크 데이터 호출
경제 규모 데이터(DT_2AQ151)
 연간 인구 수, 국토 면적, 국민총소득(GNI), 국내총생산(GDP) 등 주요 경제 지표가 있는 테이블을 호출하겠습니다(KOSIS).
모든 국가의 24년치 데이터를 가져오는 것이기 때문에 양이 상당합니다. 
KOSIS가 제공하는 API의 용량을 벗어나기 때문에 연도를 나눠 호출한 뒤 병합하는 과정을 거칩니다.
getStatData 함수의 각 인자에 대한 설명은 아래와 같습니다. 
•
orgId: 기관 ID → 월드뱅크는 101입니다.
•
tblId: 테이블 ID
KOSIS에서 조회하고자 하는 테이블을 클릭하면 상단 URL에 tblld= 뒤에 나오는 값을 입력하면 됩니다.
•
prdSe: 기간 설정(년/월 등)
Y, H, Q, M, D, IR이 있습니다. 순서대로 각각 Year(연도), Half(반기), Quarter(분기), Month(월), Day(일), Irregularly(불규칙)입니다. 
KOSIS에서 조회했을 때 각 테이블에서 나오는 
•
startPrdDe: 시작 연도
포맷: YYYY, YYYYMM(MM:01~12), YYYYHH(HH:01,02), YYYYQQ(QQ:01~04), YYYYMMDD
→ 월드뱅크의 데이터는 대부분 연 단위이기 때문에 YYYY 형태로 작성합니다.
•
endPrdDe: 종료 연도 → startPrdDE와 같습니다.
•
objL1 : “All”이라고 작성합니다. 특정 변수로 필터링하고 싶다면, 해당 변수의 코드화된 변수를 입력하면 됩니다.
예를 들어, 대한민국의 경제 규모만 추출하고 싶으면 아래와 같이 인자의 값을 변경하면 됩니다. 
#경제규모 (DT_2AQ151)
df_ecosize1 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2000", 
            endPrdDe = "2012", 
            prdSe = "Y", 
            objL1 = "100T33J", #인자의 값 변경
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")

df_ecosize2 <- getStatData(orgId = "101", 
            tblId = "DT_2AQ151", 
            startPrdDe = "2013", 
            endPrdDe = "2023", 
            prdSe = "Y", 
            objL1 = "100T33J", #인자의 값 변경
            objL2 = "",
            objL3 = "",
            objL4 = "",
            objL5 = "",
            objL6 = "",
            objL7 = "",
            objL8 = "",
            itmID = "")
R
복사
 2개의 데이터프레임을 병합한 데이터셋 df_ecosize_origin는 아래와 같은 형태로 이루어져 있습니다. 
API로 호출했을 때 기존 df_ecosize_origin
정말 필요한 변수만 선택한 뒤 tidyr 패키지의 pivot_wider 함수를 활용하여 분석에 용이한 형태로 바꾸겠습니다. 
pivot_wider로 변형한 뒤 테이블 형태
원래의 데이터는 각 행이 특정 연도(PRD_DE)의 여러 지표 값들을 포함한 long 포맷으로 되어 있었고, 각 지표는 별도의 열(ITM_NM)로 존재했습니다.
pivot_wider 함수는 이러한 long 포맷 데이터를 wide 포맷으로 변환합니다. 이를 통해 각 지표가 별도의 열로 나타나게 되고, 각 행은 특정 국가(C1_NM)와 연도에 해당하는 모든 지표 값을 포함하게 됩니다. 예를 들어, "1인당 국내총생산", "1인당 국민총소득 (Atlas법)", "구매력평가 1인당 국내총생산" 등은 원래 데이터에서는 여러 행에 걸쳐 있었지만, pivot_wider()를 사용한 후에는 같은 연도 내에서 각 지표가 개별적인 열로 나타나게 되었습니다.
•
국가 정보 테이블 병합
서두에 잠깐 언급 드린 국가 리스트에 대한 테이블을 병합합니다.
이 과정은 필수는 아닙니다. 그러나 각 국가에 대한 영문명, ISO 코드를 추가할 수 있어 영문 작업 시 도움이 됩니다.
연령별 인구(DT_20WBH006, DT_20WBH005)
 성별*연령대 인구 비율 테이블(DT_20WBH006) → 남성과 여성 인구 수(DT_20WBH005) → 두 테이블 결합하여 각 성별*연령대의 인구 수 테이블 생성
이번에는 연령별 인구를 구해보겠습니다. 월드뱅크의 데이터는 5세 단위로 연령대의 비율을 제공하고 있습니다. 연령대 별 인구 비율만 제공할 뿐 각 연령대의 인구 수는 따로 제공하고 있지 않습니다. 데이터를 호출한 뒤 각 연령대의 인구 수를 구하여 테이블로 생성해보겠습니다.
•
성별*연령대 인구 비율 테이블(DT_20WBH006) → KOSIS
•
성별 인구 수 테이블 (DT_20WBH005) → KOSIS
이번에는 호출할 데이터의 용량이 경제규모보다 훨씬 큽니다.
따라서 parallel 패키지의 makeCluster와 parLapply 함수를 사용하여 여러 코어에서 병렬로 데이터를 호출하여 더 빠른 속도로 데이터를 가져오는 방법입니다.

병렬 처리는 여러 작업을 동시에 수행하여 컴퓨터의 처리 속도를 높이는 방법입니다.
마치 피자 가게에서 한 사람이 혼자 피자를 만드는 것보다 여러 명의 직원이 각자 피자 반죽, 소스 바르기, 토핑 올리기, 오븐에 굽기를 분업하여 동시에 피자를 만드는 게 더 빠른 것과 같습니다. R의 parallel 패키지를 사용하면, 우리가 해야 할 작업을 여러 조각으로 나눠서 컴퓨터의 여러 CPU 코어에 분배할 수 있습니다. 예를 들어, 대량의 데이터를 처리할 때, 각 코어가 데이터의 일부를 독립적으로 계산한 후 결과를 합치는 방식으로 시간을 절약할 수 있습니다. 이렇게 하면 작업이 훨씬 더 효율적으로 진행되고, 대량의 데이터를 빠르게 분석할 수 있습니다.
•
detectCores(): 사용 가능한 CPU 코어 수를 반환합니다. 이를 통해 시스템의 코어 수를 파악하여 클러스터를 설정할 수 있습니다.
•
makeCluster(): 지정된 수의 작업자로 구성된 클러스터를 생성합니다. 여기서 num_cores는 클러스터에 사용할 코어의 수를 지정합니다.
두 테이블 중 우선 성별*연령대 인구 비율 테이블(DT_20WBH006)을 호출해보겠습니다. 
df_age_pop_ratio_origin 테이블 구조
경제규모 테이블과 마찬가지로 호출한 데이터에서 필요한 변수만 선택한 뒤 pivot_wider 함수를 통해 테이블 구조를 분석에 용이하도록 변형합니다.
df_age_pop_ratio 테이블 구조
이제 두 번째 테이블인 성별 인구 수 테이블(DT_20WBH005)을 호출하고 테이블 구조를 정리합니다.
df_age_pop 테이블 구조
이제 연령대 별 비율(DT_20WBH006)과 성별 인구 수 테이블(DT_20WBH005)을 결합합니다.
5세 단위의 각 연령대의 인구수 변수가 오른쪽에 추가됩니다.
최종 df_age_pop 테이블 구조
•
mutate(across(3:39, as.numeric))
◦
데이터 프레임의 3번째 열부터 39번째 열까지 모든 열의 데이터를 숫자형(numeric)으로 변환합니다.
◦
이는 데이터가 텍스트 형식으로 저장되어 있을 경우, 연산이 가능하도록 숫자형으로 변환하는 것입니다.
•
mutate(across(3:19, ~ round(.x * df_age_pop[[37]]/100,0), .names = "{str_remove(col, '\\\\(.*')}")) → 남성 인구수 구하기
◦
이 단계에서는 3번째 열부터 19번째 열까지의 값을 특정 계산을 통해 새로운 값을 생성합니다.
◦
각 열의 값을 df_age_pop[[37]]의 값(인구수)과 곱하고 100으로 나누어 비율을 계산한 후, round 함수를 사용하여 반올림합니다. 이 과정이 각 연령별 인구 비율에 대해 실제 인구수를 계산하는 과정입니다.
◦
.names: str_remove를 사용하여 열 이름의 괄호를 제거하여 새로운 열 이름을 설정합니다.
•
mutate(across(20:36, ~ round(.x * df_age_pop[[38]]/100,0), .names = "{str_remove(col, '\\\\(.*')}")) → 여성 인구수 구하기
◦
이 단계에서는 20번째 열부터 36번째 열까지의 값을 특정 계산을 통해 새로운 값을 생성합니다. 마찬가지로 여성 인구수에 각 연령대의 비율을 곱해서 실질적인 인구수를 구하는 과정입니다.
결론
 이번 글에서는 KOSIS Open API와 R의 kosis 패키지를 활용하여 월드뱅크 데이터를 효과적으로 수집하고 전처리하는 방법을 소개해 드렸습니다. 
글로벌 프로젝트에서 필수적인 경제 지표와 인구 데이터를 신속하게 수집하는 것은 매우 중요합니다. 월드뱅크는 경제, 사회, 환경 등 다양한 분야의 데이터를 제공하지만, 데이터의 방대함과 복잡성 때문에 필요한 데이터를 직접 추출하고 활용하는 데 어려움이 있을 수 있습니다. KOSIS 에서는 이러한 데이터를 좀 더 쉽게 접근할 수 있도록 다양한 통계 데이터를 제공하고 있고, R의 kosis 패키지를 사용하면 KOSIS Open API를 통해 데이터를 직접 호출하고 R 환경에서 쉽게 분석할 수 있습니다. 더불어 방대한 데이터를 API로 호출 할 때 병렬처리하여 시간을 절약할 수 있는 방법을 짧게 소개해드렸습니다.
 이 글을 작성하면서 누군가 “야 OOO 대리, 우리 어디 국가에 수출 타진하려고 하는데, 그 국가 경제 상황 어떤지 좀 찾아봐바”와 같은 요청을 받았을 때 1시간 이내로 데이터를 제공이 가능하게 만드는 것에 초점을 맞췄습니다.
제공해드린 코드를 통해 반복적인 데이터 수집 및 전처리 작업을 자동화함으로써, 데이터 기반의 의사결정을 빠르게 내릴 수 있습니다. 이를 통해 글로벌 프로젝트를 진행하는 데이터 과학자나 연구자, 또 무역 쪽 직무의 현직자분들에게 도움이 되면 좋겠습니다. 
감사합니다.
[R] KOSIS OPEN API를 활용한 월드뱅크 데이터 활용
2024/07/02
OPEN API를 활용하여 사업자번호의 폐업 여부를 R 코드로 구현해봅니다.
서론
World Bank Open Data
KOSIS와 OPEN API
본론
패키지
API
국가 리스트
월드뱅크 데이터 호출
경제 규모 데이터(DT_2AQ151)
연령별 인구(DT_20WBH006, DT_20WBH005)
결론
배경
이 사업체가 지금도 운영하고 있는지 어떻게 알지?
 최근 한 프로젝트를 진행하면서 전국에 있는 사업체를 대상으로 설문조사를 진행할 일이 있었습니다. 내부 자료를 통해 전국에 있는 사업체의 목록은 확보했으나 목록에 있는 사업체들이 설문조사를 하는 시점에도 사업을 영위 중인지 알 길이 없었습니다.
사업 영위 여부를 사전에 전화나 이메일로 연락을 취해 직접 확인하는 방법도 있지만, 목록 내 모든 사업체를 대상으로 사전 확인을 하는 것은 매우 비효율적인 방법입니다.
 폐업한 사업체를 설문조사 대상에서 배제하기 위한 효율적인 사전 확인 작업이 필요했고, 정말 다행히도 행정안전부에서 운영 및 제공하는 공공데이터 포털의 오픈 API 서비스(Click)를 통해 이를 쉽게 수행할 수 있었습니다.
 공공데이터 포털의 오픈 API 서비스를 활용하는 글은 매우 많으나 보통 Python 코드가 많고 R 코드로 구현된 것은 잘 없습니다. 또 이를 R로 구현하다고 하여도 API 1회 호출에 최대 100개 사업자등록번호만 조회할 수 있습니다. 따라서 한 번의 코드 실행으로 100개를 초과하는 사업자등록번호 목록을 모두 조회할 수 있는 방법을 상세히 설명한 글은 제가 찾았을 때 없었습니다. 때문에 이번 글을 통해 제 경험을 여러분께 공유하고자 합니다.
API
 우선 API라는 단어를 들어본 적이 없거나 API에 대한 개념이 명확하지 않으신 분들을 위해 API에 대한 개념부터 짚고 넘어가고자 합니다. 해당되지 않는 분들께서는 본 챕터를 건너뛰셔도 좋습니다.
API의 정의
데이터를 전달하는 웨이터
[R] 오픈 API를 활용한 사업자번호 조회하기
2024/04/26
어떤 서비스를 통해 국가별 지도 이미지를 간단히 생성할 수 있는 방법을 알고 계시다면 이 글이 유용성이 다소 부족하게 느껴질 수 있습니다.
서론
World Bank Open Data
KOSIS와 OPEN API
본론
패키지
API
국가 리스트
월드뱅크 데이터 호출
경제 규모 데이터(DT_2AQ151)
연령별 인구(DT_20WBH006, DT_20WBH005)
결론
배경
 보고서, 특히 PPT 형식의 보고서를 작성하다보면 이따금씩 특정 국가의 이미지가 필요합니다.
제가 재직 중인 부서에서는 정말 다양한 국가의 회사, 사람들과 함께 일하기 때문에 지도를 활용하는 일이 빈번합니다.
 2~3개 국가의 지도만 필요하다면 구글에서 검색해서 붙여 넣으면 그만이지만, 만약 보고서에 20개 이상의 이미지가 필요하다면 어떻게 해야 할까요?
각 국가의 이미지를 구글에서 하나씩 찾을 수 있겠지만 이미지의 일관성이 부족하거나 무료 사용이 가능하지 않은 이미지가 대부분일 것입니다.
이런 상황에서 R은 우리에게 한 줄기 빛이 되어줄 수 있습니다. 단순 반복 작업을 줄이고 우리가 필요로 하는 국가들의 지도 이미지들을 일관된 스타일과 포맷으로 빠르게 생성할 수 있습니다.
R을 활용하여 20개가 넘는 국가들의 이미지를 후딱 추출하는 방법을 알아보겠습니다.
maps 패키지
 maps 패키지는 다양한 지리 데이터를 제공하고 간단한 지도를 그릴 수 있는 함수를 제공합니다.(click).  library 함수를 통해 maps 패키지를 불러오겠습니다.
국가명을 정확히 지정해주어야 지도를 생성할 수 있습니다.
대한민국도 South Korea, Republic of Korea와 같이 기관에 따라 달리 부르는 것처럼 R에서 제공되는 데이터들 역시 같은 국가여도 다른 명칭을 붙여서 사용합니다. 따라서 항상 사전에 국가 명칭에 대한 사전(dictionary)를 확인하는 것이 필수입니다.
maps 데이터의 map 함수를 활용하여 국가명을 살펴보겠습니다.
[R] R을 활용한 국가별 지도 이미지 생성
2024/05/02
표본의 대표성을 높이는 통계적인 기법: 표준화 가중치
1. 표준화 가중치를 적용했다!?
1.1. 사회 분야의 조사 결과에 빈번히 등장하는 ‘표준화 가중치’
•
道 여성 6명 중 1명, 성희롱 피해 경험 3명 중 1명 (2023년 3월 8일, 경기매일, 황영진 기자)
 위 기사는 2022년 9월~10월까지 경기도내 19세~75세 성인 2,000명을 대상으로 실시한 ‘경기도 여성폭력 실태조사’에 관한 기사인데, 기사의 마지막 부분에는 다음과 같이 기재되어 있습니다.[1], [2] 
*본 조사는 표준화 가중치를 적용해 성비가 1:1에 근접하게 조정했음 (전체 사례수 2,000명 중 남성 1,019명, 여성 981명 대상)
 공공기관의 수많은 조사결과에서 ‘표준화 가중치’를 적용했다는 문구가 빈번히 등장하지만 그 개념을 함께 설명해주는 경우는 거의 없기 때문에 어떻게 해석해야 할지 가늠할 수 없는 경우가 많습니다.
 조사 결과를 활용하는 실무자 입장에서 표준화 가중치에 대한 개념을 함께 이해할 수 있는 글을 작성하고자 합니다.
2. 표본 가중치의 역할과 필요성
2.1. 표본 가중치의 정의
표준화 가중치
2023/05/31
이번주 칼럼 작성을 해주신 ㅇㅈ님께  진심 어린 감사의 말씀 올립니다.
목차
16화 시청 포인트 
① 궁금해? 현커 될거야?!
서경  주원  유정  창진
② 우리 썸 탈 때 생각난다
유정  창진
③ 엽기떡볶이 오리지널맛 HMR
환친조사
지난 조사와의 차이 
[환친조사] 환승연애 16화 시청자 여론조사
2024/03/29
뉴스레터는 종영일 다음주 금요일까지 매주 금요일 오전에 발간됩니다.
목차
15화 시청 포인트 
① 남자 X 지목 데이트 
•
창진  종은 & 창진  다혜 
•
동진  서경 & 동진  혜원 
•
주원  유정
② X와의 대화
•
주원  서경
•
상정  민형
•
동진  다혜
[환친조사] 환승연애 15화 시청자 여론조사
2024/03/22
 조만간 경영학계를 뒤흔들겠다는 야망을 품고 시작했던 내 첫 Term-paper. 일주일 전만해도 "제출 기한보다 훨씬 일찍 끝나면 어떡하지?"라는 고민과 걱정이 가득했으나, 다행히도(또는 불행히도) 그런 걱정은 2020년 11월 19일 목요일인 오늘부로 필요가 없어졌다. 일주일 전으로 돌아가 다시 시작해야되니깐 말이다.
본 글은 일반대학원 경영학과 마케팅을 전공하는 석사(1기) 과정의 학생이 작성한 글로 굉장히 사적인 생각을 담은 글이지만 굉장히 공개적인 곳에 올려놓은 글입니다. *오류가 상당 부분 존재하니 댓글 또는 메일을 통해 적극적인 태클과 피드백을 부탁드립니다. 겸허히 받아들여 성장의 자양분으로 삼겠습니다.
수강 중인 소비자행동론 강의에서 지필고사를 대신하여 Term-paper를 작성하게 되었다. 평소 번뜩이는 아이디어가 많았기에 보통 연구논문은 아니지만 내가 주체적으로 연구과제를 수행한다는 생각에 즐거웠다. 그러나 교수님께서 분석은 소비자행동 관련 연구에서 많이 사용되는, 특히 심리실험 '실험계획법(Design of Experiments)'의 방법론들을 사용하라고 정해주셨다. 학부시절 실험계획법을 수강하여 C+를 받아버렸던 전과가 있기에 자신이 없기도 했거니와 평소 흥미있어하던 온라인 소비행동을 주제로 페이퍼를 작성하고 싶은 마음에 과거 공모전을 준비하며 받아뒀던 온라인 소비행동 데이터를 무조건 활용하고자 했다. 그래서 신난 마음에 Github 아이디를 새로 만들고 구글의 Colab 노트와 연동 해놓고 이 블로그 역시 개설하게 되었다. 열심히 다른 깃허브를 참고해가며 코드를 작성하고 소위 EDA를 하고 있던 와중 생각이 들었다.
①내가 하는 게 맞나? 
②나는 무엇을 위해 지금 이 코드를 작성하고 있었던 것이지?
① 내가 하는게 맞나?
 우선 나는 틀린 방법으로 분석을 하려는 것 같았다. 교수님께서 정해주신 실험계획법이라는 분석방법에 정면으로 반하는 접근방법을 사용한 느낌이었다. EDA, 그러니깐 Exploratory Data Analysis, 다시 한 번만 더 말해서 '탐색적 자료 분석'은 수집된(또는 기존의) 데이터를 기술적(technical)으로 탐색하고 데이터의 특징과 구조적 측면을 파악하여 통찰(insight)를 얻는 것이다. 그러나 교수님께서 말씀하신 DOE, 그러니깐 Design Of Experiments, 다시 한 번만 더 말해서 실험계획법은 이미 어떤 이론 또는 선행연구를 통해 인사이트를 얻었고 그게 맞는지 아닌지를 데이터를 수집해서 한 번 증명해보겠다는 식의 접근이었다. 미안하지만 또 한 번 다시 설명하자면 이런 방법은 CDA, 그러니깐 Confirmatory Data Analysis, 정말 미안하지만 '확증적 데이터 분석'이었다. 탐색적 자료분석(EDA)이 아니었다. 2018년 6월 28일 순천향대학교 서울병원에서 내과학교실 감연분과의 김태형 교수님께서 사용하신 '자료분석과 KONIS 통계의 이용방법 산수이야기'의 PPT 중 '2016 대한의료관련감영관리학회 학술대회에서 고려대 허명회 교수님 강의'에서 나왔다는 EDA와 CDA의 차이는 다음과 같았다.
 교수님이 정해주신 분석 방법에 의하면 나는 계획을 세우고 특정 인사이트를 증명할 데이터를 확보하여 분석을 진행하는 확증적 데이터 분석을 진행해야했다. 그럼에도 불구하고 나는 단지 내가 하고 싶다는 이유로 탐색적 자료 분석을 무작정 진행하고 있었다. 물론 자료를 탐색적으로 살펴보고 특정 인사이트를 얻어 가설을 세우고 통계적인 분석 방법을 통해 그 인사이트를 증명해낼 수도 있겠다. 그러나 그것 조차도 나는 할 수 없었다. 왜냐하면 나는 뚜렷한 연구 목적, 주제도 없이 단지 '온라인 소비행동에 관련한 연구'를 할 작정이었기 때문이다.
이를 깨닫고 사색에 잠겼다. 그리고 갑자기 과거 무더운 여름 축구 지도자 자격증을 취득하고자 연수를 갔을 때가 생각났다.
[Research Diary] 내 첫 텀페이퍼의 향방은 과연 어디로?
2020/11/19
 
 주사위 하나를 던졌을 때 나오는 눈의 기대값이 3.5라는 것은 통계학개론, 기초확률론 강의에서 수도 없이 들었다. 근데 정말로, 진짜로 그것이 맞는지 내 두 눈으로 확인하지 않고서야 그냥 넘어가지 못하는 바보같은 성격 때문에 주사위 1000번(정확히는 1000개의 눈)을 던져 평균을 구해보았다. 그리고 믿을 수 없게도 결과는...
이제 읽게 되실 이 글은 통계학이 어려운 통계학과 학부 졸업생이 작성한 글로 오류가 상당 부분 존재할 예정입니다. 평균과 기대값은 엄밀히 따지자면 분명 차이가 있으나 본 글에서는 직관적인 의미전달을 위해 혼용하여 사용했습니다. 댓글 또는 메일 또는 유선전화 또는 인스타그램DM을 통해 적극적인 태클과 피드백을 부탁드립니다. 겸허히 받아들여 성장의 자양분으로 삼겠습니다.
 잘하진 못했지만 학부에서 통계학을 공부하고 대학원에 입학했다. 지도교수님께서 통계과목은 빨리 끝내 놓으라는 말씀해주셔서 첫 학기부터 다시 통계학 과목을 수강하게 되었다. 광고를 전공 했다던 동기는 자신은 '통계 문외한'이라며 통계강의가 끝날 때면 나에게 다음과 같은 질문들을 했다.
"기대값이 뭔지 이해가 안가요"
"기대값도 정규분포일 것이라 가정하고 산출한 값인건가요?"
"주사위 기대값을 구하는 공식(1x1/6+2x1/6...6x1/6)에서 1~6은 정확히 어떤 의미인가요?"
어렵지도 않은 질문이었다. 통계학 난제에 대한 질문이 아니었기 때문이다. 그러나 나는 동기가 했던 위 질문 중 무엇하나 명쾌하게 대답해 줄 수 없었다. 질문의 수준이 아닌 쉽사리 질문에 대답할 수 없는 내 얄팍한 지식 수준 때문에 나는 말문이 턱 막혔다.

주사위의 기대값은 진짜 3.5인가?
2020/10/01
이번 글은 이틀동안 우여곡절 끝에 KoNLP를 설치 오류를 해결했던 과정에 대해 간략하게 공유드리고자 한다.
의외로 간단하게 해결되었으니 KoNLP로 골머리를 썩고 오신 분이라면 부디 이 글을 보고 해결되셨으면 한다.
KoNLP 설치에 관한 문제
KoNLP 패키지는 공식적으로 R의 CRAN에서 제외되었음.
따라서 ‘mrchypark’님이 자신의 Github에 올려놓은 패키지를 설치해야됨.
온갖 방법을 동원했으나 실패하였음.
작성자는 수동으로 직접 설치하는 방법을 택했음.
그러나 다른 환경, 컴퓨터에서는 정상 작동할 수 있으니 우선 일반적인 설치 방법에 대한 코드를 실행해보고 안되면 수동설치하는 방법을 채택하면 된다.
아래 블로그들을 참고하여 순차적으로 설치를 시도한다.
블로그1
블로그2
만약 위 코드를 따라 실행하였음에도 실패한다면...'수동설치'를 시도해보자!
① KoNLP 파일 다운로드
KONLP
2022/10/09
Survey를 진행하다보면 주관식 문항에 대해 워드클라우드를 요청하는 고객사가 정말 많다.
워드클라우드는 해석에 그렇게 좋지 않은 그래프임에도 무언가 꽉찬 느낌에 화려하여 보고서에서 한 장 차지하기 딱 좋아보여서 그런 것 같다.
근래 가장 많은 도움을 받고 있는 책인 ‘Do it! 쉽게 배우는 R 데이터 분석(김영우, 2017)’에 따르면 워드클라우드는 분석 결과를 정확하게 표현하는데는 정확하지 않다고 한다. 본문 중 워드클라우드에 대한 구체적인 평가 내용은 아래와 같다.
 워드 클라우드는 디자인이 아름다워서 자주 사용되지만 분석 결과를 정확하게 표현하는 데는 적합하지 않다. 단어 빈도를 크기와 색으로 표현하므로 ‘어떤 단어가 몇 번 사용 되었는지’ 정확히 알 수 없고, 단어 배치가 산만해서 ‘어떤 단어가 다른 단어보다 얼마나 더 많이 사용되었는지’ 비교가 어렵다. 텍스트를 아름답게 표현하는 게 아니라 분석 결과를 정확하게 표현하는 목적이라면 워드 클라우드보다는 막대 그래프를 이용하는게 좋다.
 고객사에게 해석의 어려움에 대해 설명 드려도 일단 해달라는 요청도 많다. 그래서 어떻게든 조금의 해석이 이루어질 수 있도록 하려다 보면 전처리에 굉장히 심혈을 기울여야 한다.
“자연어처리 분야가 당연히 전처리를 꼼꼼히 잘 해야하는 것 아니냐”라고 묻는 분도 계시겠지만 워드클라우드를 일단 만들어 달라는 고객사의 요청에 부응하기 위해서는 인사이트의 실마리가 필요하다. 또 그 실마리를 찾기 위해서는 ‘진짜 정말로’ 전처리를 어떻게든 잘 해내야 한다.
그러다보니 데이터를 분석하면서 전처리에 평소보다 더 많은 시간을 할애하게 되었고 공부했다. 공부하며 얻게 된 지식의 일부를 명확하게 정리하고자 본 글을 쓰게 되었다.
(아 물론 이 글의 주제는 NLP의 매우 기본적인 내용이다)
주제는 Stemming & Lemmatization이다.
 
 고객사에게 인사이트를 제공하기 위한 실마리를 찾는다는 것은 다른 말로 조사 참여자들의 응답 속에서 “의미를 찾는 것”이라 할 수 있다. 따라서 텍스트 안에서 객관적인 의미를 갖는 단어들을 추출해야 한다.
Stemming & Lemmatizatin
2022/11/18
내 깃허브의 repository에 대한 정보에 대한 철통 보안이 필요할 때 비공개로 전환하거나, 반대로 비공개로 전환 해놨던 것들을 여러 사람들에게 공개해서 포크질을 마구 받고 싶을 때! 
를 대비해서 repository의 공개/비공개 전환하는 법을 araboza.
아 그리고 이미 구글에 널린 글을 쓰는 이유는 파이썬으로 풀어보는 회귀분석 예제들을 어떤 교재를 통해 공부하다가 해당 코드들이 github에 공개되면 저작권에 문제가 있을까 싶어 비공개로 전환해놨었는데, 한참 뒤에 해당 내용들을 삭제하고 다시 공개로 전환하려니 그 방법을 까먹었기 때문이다.ㅠㅠ
공부하는 회귀분석에 대한 코드 및 내용들을 모아놓기 위해 만들어 놨던 repository이다. 클릭하여 들어간다. 
우측 상단에 setting 메뉴가 있다. 클릭해보자.
클릭하자마자 나오는 첫 화면에서 그대로 스크롤을 끝까지 내리면 Danger Zone에 Visibility를 Change하겠냐는게 있으니 클릭해보자. 
[GitHub] Information Repository 공개/비공개 전환
2021/06/21
내 기술이 없어!
최근 인스타그램의 창업자인 케빈 시스트롬의 인터뷰 영상을 본적이 있다. 
You don't have to be the best, but you have to be dangerous
 스스로 생각한 아이디어를 완전히 구현해낼 수 없다면 그것을 간단하게 나마 보여줄 수 있을 정도로는 제작해서 자신보다 그것을 더 잘 구현해줄 수 있는 누군가를 찾아야 한다는 것이다.
"내 기술은 뭐지?" "다른 사람한테 돈 받고 과외를 해줄 수 있는 그런 기술이 있나?"
스스로에게 질문을 던져보니 없었다. 학창시절 좋아했던 축구도 선수출신만큼 노력하지 않았기에 턱없이 부족했고 단지 경기를 분석하며 '전술이 이래야 되고 저래야 된다'라고 말로만 늘어놓기만 했을 뿐이다. 
 대학교까지 졸업하고 대학원을 다니고 있는 지금도 그런 것 같았다. 분야만 스포츠에서 마케팅으로 바뀌었을 뿐 나는 기업의 마케팅은 '이래야 되고 저래야 된다'라고 하고 있었다. 내가 생각하는 현실의 문제를 진짜로 풀어낼 수 있는 그 최소한의 능력이 없었다. 한 마디로 기술은 없고 철학만 있었다. 물론 한 조직을 이끌고 좋은 의사결정을 내리기 위해선 철학, 자기주관 있어야 한다. 그러나 한 조직의 의사결정을 내리는 위치까지 가기 전, 또 그 위치에 도달해서도 조직 내에서 리더십을 발휘하기 위해선 혼자서도 언제든지 문제를 해결할 수 있는 기술을 가지고 있어야 된다. 내 자리를 굳건히 지킬 수 있는 흔들림 없는 그 기술이 필요하다!
 혼자 공모전을 진행하며 그런 기술적인 어려움 때문에 많은 시간을 빼앗겼고 결국 마감일을 지키지 못했다. 여태까지 내가 마감일을 지키지 못하는 이유는 '완벽주의' 때문이라고 생각했지만 단지 그것만이 아님을 느꼈다. 매우 간단한 코드 한줄마다 stack overflow와 github, youtube를 넘나들며 오류를 수정했고 내가 설계하는 모델이 맞는지 검증하기 위해 전공 서적을 찾아보고 위키피디아를 찾아보는 과정을 거쳤다. 그 과정을 거치며 더 많은 것을 알게 되었으나 적어도 제한된 시간 내에 성과를 내야 하는 공모전에서 거쳐야 하는 수준의 과정으로 느껴지진 않았다. (확률론을 펴고 포아송 분포를 다시 보고 있었으니 말이다)  현시점에서는 매우 고된 Top-down 형식의 반복 훈련이 필요한 것으로 느껴진다. 이제는 소기의 성과를 내야 하는 상황인만큼 다음 리서치 다이어리는 오늘과 같이 반성하는 글이 아니길 바란다. 
[Research Diary] 기술은 없고 철학만 있다.
2021/06/27
워드 파일에 있는 이미지 파일만 추출하기!
배경
협업 과정에서 워드파일을 주고 받을 때가 참 많습니다. Google Drive, Onedrive와 같은 클라우드를 통해서 주고 받는 분들도 많습니다만 서로 다른 회사, 부서에 속한 경우에는 메일로 파일을 주고 받는 경우가 대부분일 것입니다.
때로는 그렇게 메일로 파일을 주고 받는 과정에서 파일에 첨부한 이미지를 따로 전달해주지 않는 경우가 있습니다. (단순 실수일수도 아니면 실수를 가장한 귀찮음일 수도)
이미지의 양이 상당히 많은데 급하게 편집, 수정해야 하는 경우 이 이미지들을 워드 파일 내에서 따로 저장하는 것은 굉장히 번거롭습니다. 
이미지를 클릭하고, 저장하기를 누르고, 경로를 지정해야하기 때문에 너무 불필요한 시간이 소요됩니다.
오늘은 이런 문제점을 단 번에 해결할 수 있는 방법을 소개해드리고자 합니다.
문제점
DOCX 파일 내부의 이미지에 직접 접근하는 것은 직관적이지 않습니다. 파일 구조상 이미지는 문서 내부에 포함되어 있고 일반적인 방법으로는 별도로 추출하기 어렵습니다.
이런 경우에 워드 파일 속에 있는 이미지들을 한 번에 저장하는 방법이 있습니다. 
워드 파일(docx)에서 이미지 한 번에 추출하기
2024/03/28
Main Page　｜　Category　｜　 Tags　｜　About Me　｜　Contact