- 텍스트 마이닝의 정의
- 텍스트 마이닝 패러다임의 변화
- 텍스트 마이닝에 필요한 지식과 도구
- 텍스트 마이닝의 주요 적용분야
- 이 책의 실습 환경과 사용 소프트웨어
- 텍스트 전처리의 개념
- 토큰화
- 정규화
- 품사 태깅
- 단어 빈도 그래프
- 워드 클라우드로 내용을 한눈에 보기
- 한국어 문서에 대한 그래프와 워드 클라우드
- 카운트 기반 문서 표현의 개념
- BOW 기반의 카운드 벡터 생성
- 사이킷런으로 카운트 벡터 생성
- 한국어 텍스트의 카운트 벡터 변환
- 카운트 벡터의 활용
- TF-IDF로 성능을 높여보자
- 20 뉴스 그룹 데이터 준비 및 특성 추출
- 머신러닝과 문서 분류 과정에 대한 이해
- 나이브 베이즈 분류기를 이용한 문서 분류
- 로지스틱 회귀분석을 이용한 문서 분류
- 결정트리 등을 이용한 기타 문서 분류 방법
- 성능을 높이는 방법
- 카운트 기반의 문제점과 N-gram을 이용한 보완
- 한국어 문서의 분류
- 차원의 저주와 차원 축소의 이유
- PCA를 이용한 차원 축소
- LSA를 이용한 차원 축소와 의미 파악
- tSNE를 이용한 시각화와 차원축소의 효과
- 토픽 모델링과 LDA의 이해
- 사이킷런을 이용한 토픽 모델링
- Gensim을 이용한 토픽 모델링
- 토픽 트렌드로 시간에 따른 주제의 변화 알아내기
- 동적 토픽 모델링
- 감성분석의 이해
- 감성 사전을 이용한 영화 리뷰 감성 분석
- 학습을 통한 머신러닝 기반의 감성 분석
- 인공신경망의 이해
- 딥러닝의 이해
- 왜 RNN일까?
- 워드 임베딩의 이해
- RNN을 이용한 문서 분류 - NLTK 영화 리뷰 감성분석
- LSTM, Bi-LSTM과 GRU를 이용한 성능 개선
- Word2Vec - 대표적인 워드 임베딩 기법
- ELMo - 문맥에 따른 단어 의미의 구분
- Doc2Vec - 문맥을 고려한 문서 임베딩
- CNN의 등장과 작동 원리
- CNN을 이용한 문서 분류
- Seq2seq : 번역에서 시작한 딥러닝 기법
- 어텐션을 이용한 성능의 향상
- 설프 어텐션과 트랜스포머
- 왜 언어 모델이 중요한가?
- 사전학습 언어모델의 이론적 이해
- BERT의 구조
- 언어모델을 이용한 사전학습과 미세조정학습
- 사전학습된 BERT 모형의 직접 사용방법
- 자동 클래스를 이용한 토크나이저와 모형의 사용
- BERT 학습을 위한 전처리
- 트랜스포머의 트레이너를 이용한 미세조정학습
- 파이토치를 이용한 미세조정학습
- 다중 언어 BERT 사전학습 모형의 미세조정학습
- KoBERT 사전학습 모형에 대한 파이토치 미세조정학습
- 트랜스포머 변형 모형의 다양한 토크나이저
- GPT 기반 트랜스포머 변형 모형
- BERT 기반 트랜스포머 변형 모형
- 인코더와 디코더를 모두 사용하는 트랜스포머 변형 모형
- 국내 트랜스포머 변형 모형 현황
- 문서 요약의 이해
- 파이프라인을 이용한 문서 요약
- T5 모형과 자동 클래스를 이용한 몬서 요약
- T5 모형과 트레이너를 이용한 미세조정학습
- 한글 문서 요약
- 질의 응답 시스템의 이해
- 파이프라인을 이용한 질의 응답
- 자동 클래스를 이용한 질의 응답
- 트레이너를 이용한 질의 응답 미세조정학습
- 한글 질의 응답