유산 해석과 설명 개념 및 용어 정의 연구
0. 개요
2022.10 – 2022.11
특정 개념에 대해 서술한 전문가 의견들을 NLP 분야의 분석 방법론을 통해 결과를 도출한 프로젝트
1. 내 역할
기간 | 2022년 9월 ~ 2022년 12월 (약 4개월) |
조사 목적 | 문화유산 관련 관계자들 대상 유산 해석과 유산 설명의 개념에 대한 의견 수집 |
조사 진행 기관 | 한국갤럽조사연구소 |
조사 설계 및 분석 | 유네스코 세계유산 국제해석설명센터(WHIPIC), 한국갤럽조사연구소 |
조사 방법 | 온라인 설문조사 (CAWI, Computer Aided Web Interview) |
참여 인원 | 3명 |
내 역할 | NLP, 국문 보고서 작성 (팀 인원 총 2명) |
기여도 | 70 |
•
Natural Language Processing
◦
추출적 요약 (Extractive Summarization)
▪
Text Rank
▪
Lex Rank
◦
토픽 모델링 (Topic Modeling)
▪
LSA (Latent Semantic Analysis)
•
보고서 작성
2. 분석
•
•
각 개념에 대한 응답을 모아 전처리 후 LSA, TextRank, LexRank 알고리즘을 통해 ‘대표성이 높은’ 문장 3개 추출
•
알고리즘을 통해 뽑은 문장 vs 조사를 의뢰한 기관의 전문가가 쓴 문장 유사도 비교
2.1. Word Cloud
2.2. Semantic Network (의미망 분석)
2.3. Extractive Summarization & Topic Modeling
3. 사용 라이브러리
3.1. 전처리
3.2. 분석
3.3. 시각화
4. 배운점
문장 요약 방법에는 크게 2가지 유형이 있다
카이제곱 검정을 무작정 할 수 없는 이유
5. 기타
5.1. 산출물
•
WHIPIC Conference
•
WHIPIC Report
5.2. 고객사
•
고객사에서 개최한 컨퍼런스에 참석
◦
당시 고객사 측에 전달했던 꽃다발