💻

LSA, TextRank, LexRank 활용한 문장 간 유사도 비교

유산 해석과 설명 개념 및 용어 정의 연구

0. 개요

1. 내 역할

2. 분석

2.1. Word Cloud

2.2. Semantic Network (의미망 분석)

2.3. Extractive Summarization & Topic Modeling

문장 요약 방법에는 크게 2가지 유형이 있다

카이제곱 검정을 무작정 할 수 없는 이유

5. 기타

5.1. 산출물

5.2. 고객사

0. 개요

2022.10 – 2022.11

특정 개념에 대해 서술한 전문가 의견들을 NLP 분야의 분석 방법론을 통해 결과를 도출한 프로젝트

1. 내 역할

기간	2022년 9월 ~ 2022년 12월 (약 4개월)
조사 목적	문화유산 관련 관계자들 대상 유산 해석과 유산 설명의 개념에 대한 의견 수집
조사 진행 기관	한국갤럽조사연구소
조사 설계 및 분석	유네스코 세계유산 국제해석설명센터(WHIPIC), 한국갤럽조사연구소
조사 방법	온라인 설문조사 (CAWI, Computer Aided Web Interview)
참여 인원	3명
내 역할	NLP, 국문 보고서 작성 (팀 인원 총 2명)
기여도	70

•

Natural Language Processing

◦

추출적 요약 (Extractive Summarization)

▪

Text Rank

▪

Lex Rank

◦

토픽 모델링 (Topic Modeling)

▪

LSA (Latent Semantic Analysis)

•

보고서 작성 

2. 분석

•

문화유산 관련 전문가들을 대상으로 유산 해석과 유산 설명의 개념에 대한 의견을 주관식 응답으로 수집 (click)

•

각 개념에 대한 응답을 모아 전처리 후 LSA, TextRank, LexRank 알고리즘을 통해 ‘대표성이 높은’ 문장 3개 추출

•

알고리즘을 통해 뽑은 문장 vs 조사를 의뢰한 기관의 전문가가 쓴 문장 유사도 비교

2.1. Word Cloud

2.2. Semantic Network (의미망 분석)

2.3. Extractive Summarization & Topic Modeling

3. 사용 라이브러리

3.1. 전처리

3.2. 분석

3.3. 시각화

4. 배운점

문장 요약 방법에는 크게 2가지 유형이 있다

카이제곱 검정을 무작정 할 수 없는 이유

5. 기타

5.1. 산출물

•

WHIPIC Conference

◦

보고서: 2022 세계유산 해석설명 국제포럼 60p-65p

◦

발표: 2022 World Heritage Interpretation Presentation Forum 'Day 2'

•

WHIPIC Report

2022 세계유산 설명 방법론 기초연구용역 최종보고서

5.2. 고객사

•

고객사에서 개최한 컨퍼런스에 참석

◦

당시 고객사 측에 전달했던 꽃다발