본 프로젝트에서 개발한 모델은 리뷰 분석 플렛폼으로 데이터 수집부터 결과 시각화까지 자동화하여 서비스한다. 데이터 수집 대상은 LGU+ 관련 어플리케이션의 리뷰이고, 수집된 데이터를 이용해 자체적으로 fine-tuning한 BERT모델인 ELBERT의 감성 분류를 사용하여 부정 리뷰만을 추출한다. 이후 LDAvis를 이용해 topic별로 분류한 결과를 대시보드 형식으로 시각화하여 사용자에게 인사이트를 제공한다.
구글 플레이스토에 있는 U+ 고객센터, U+ 멤버스, U+ 모바일 TV, U+ 뮤직벨링, U+ 스마트홈 총 5개 어플에서 리뷰를 추출
- U+ 멤버스: 약 14397개
- U+ 모바일 TV: 약 16361개
- U+ 고객센터: 약 13149개
- U+ 뮤직벨링: 약 7571개
- U+ 스마트홈: 약 2148개
=> 총 5개의 어플 중 U+ 고객센터 앱만으로 학습 진행
-
pre-training
- T academy에서 제공하는 Wiki 백과사전 한국어 데이터로 재학습된 BERT 모델을 사용
- 출처: https://drive.google.com/drive/u/0/folders/1QQphR2tmk5g6BheZKZ5q8WhX5yixV8xZ
-
fine-tuning
=> ELBERT (Elegant Friends BERT) 자체 모델 생성
-
전처리
- 문법 교정
- 단어 치환 (치환 사전 구축)
- 토큰화 (Mecab 사용)
- 불용어 처리 (불용어 사전 구축)
-
gensim을 활용한 LDA 모델 학습
-
엑셀 대시보드를 활용
- 분기별 리뷰 데이터 추이
- 분기별 긍정/부정/기타 비율
- 클러스터 비율
- 클러스터별 등장 빈도수가 높은 단어
- 분기별 클러스터 추이
U+고객센터 앱의 2016년도 1분기 ~ 2021년도 1분기까지의 리뷰에 대한 정보를 담고 있는 대시보드이다. 필터가 있어 분기별, 주제별로 원하는 정보를 선택적으로 얻을 수 있다. 분기 별 불만 사항으로 앞으로 어떤 문제를 해결해야 하는지의 방향성을 도출할 수 있다.
한국외국어대학교 컴퓨터전자시스템공학부 우아한프렌즈팀
팀원: 김소미, 이승윤, 제서윤, 최석원