Search
💻

LSA, TextRank, LexRank 활용한 문장 간 유사도 비교

유산 해석과 설명 개념 및 용어 정의 연구

0. 개요

2022.10 – 2022.11
특정 개념에 대해 서술한 전문가 의견들을 NLP 분야의 분석 방법론을 통해 결과를 도출한 프로젝트

1. 내 역할

기간
2022년 9월 ~ 2022년 12월 (약 4개월)
조사 목적
문화유산 관련 관계자들 대상 유산 해석과 유산 설명의 개념에 대한 의견 수집
조사 진행 기관
한국갤럽조사연구소
조사 설계 및 분석
유네스코 세계유산 국제해석설명센터(WHIPIC), 한국갤럽조사연구소
조사 방법
온라인 설문조사 (CAWI, Computer Aided Web Interview)
참여 인원
3명
내 역할
NLP, 국문 보고서 작성 (팀 인원 총 2명)
기여도
70
Natural Language Processing
추출적 요약 (Extractive Summarization)
Text Rank
Lex Rank
토픽 모델링 (Topic Modeling)
LSA (Latent Semantic Analysis)
보고서 작성

2. 분석

문화유산 관련 전문가들을 대상으로 유산 해석과 유산 설명의 개념에 대한 의견을 주관식 응답으로 수집 (click)
각 개념에 대한 응답을 모아 전처리 후 LSA, TextRank, LexRank 알고리즘을 통해 ‘대표성이 높은’ 문장 3개 추출
알고리즘을 통해 뽑은 문장 vs 조사를 의뢰한 기관의 전문가가 쓴 문장 유사도 비교

2.1. Word Cloud

2.2. Semantic Network (의미망 분석)

2.3. Extractive Summarization & Topic Modeling

3. 사용 라이브러리

3.1. 전처리

3.2. 분석

3.3. 시각화

4. 배운점

문장 요약 방법에는 크게 2가지 유형이 있다

카이제곱 검정을 무작정 할 수 없는 이유

5. 기타

5.1. 산출물

WHIPIC Conference
WHIPIC Report

5.2. 고객사

고객사에서 개최한 컨퍼런스에 참석
당시 고객사 측에 전달했던 꽃다발