1부 텍스트 마이닝 기초

1. 텍스트 마이닝 기초

텍스트 마이닝의 정의
텍스트 마이닝 패러다임의 변화
텍스트 마이닝에 필요한 지식과 도구
텍스트 마이닝의 주요 적용분야
이 책의 실습 환경과 사용 소프트웨어

2. 텍스트 전처리

텍스트 전처리의 개념
토큰화
정규화
품사 태깅

3. 그래프와 워드 클라우드

단어 빈도 그래프
워드 클라우드로 내용을 한눈에 보기
한국어 문서에 대한 그래프와 워드 클라우드

2부 BOW 기반의 텍스트 마이닝

4. 카운트 기반의 문서 표현

카운트 기반 문서 표현의 개념
BOW 기반의 카운드 벡터 생성
사이킷런으로 카운트 벡터 생성
한국어 텍스트의 카운트 벡터 변환
카운트 벡터의 활용
TF-IDF로 성능을 높여보자

5. BOW 기반의 문서 분류

20 뉴스 그룹 데이터 준비 및 특성 추출
머신러닝과 문서 분류 과정에 대한 이해
나이브 베이즈 분류기를 이용한 문서 분류
로지스틱 회귀분석을 이용한 문서 분류
결정트리 등을 이용한 기타 문서 분류 방법
성능을 높이는 방법
카운트 기반의 문제점과 N-gram을 이용한 보완
한국어 문서의 분류

6. 차원 축소

차원의 저주와 차원 축소의 이유
PCA를 이용한 차원 축소
LSA를 이용한 차원 축소와 의미 파악
tSNE를 이용한 시각화와 차원축소의 효과

7. 토픽 모델링으로 주제 찾기

토픽 모델링과 LDA의 이해
사이킷런을 이용한 토픽 모델링
Gensim을 이용한 토픽 모델링
토픽 트렌드로 시간에 따른 주제의 변화 알아내기
동적 토픽 모델링

8. 감성 분석

감성분석의 이해
감성 사전을 이용한 영화 리뷰 감성 분석
학습을 통한 머신러닝 기반의 감성 분석

9. 인공 신경망과 딥러닝의 이해

인공신경망의 이해
딥러닝의 이해

3부 텍스트 마이닝을 위한 딥러닝 기법

10. RNN - 딥러닝을 이용한 문서 분류

왜 RNN일까?
워드 임베딩의 이해
RNN을 이용한 문서 분류 - NLTK 영화 리뷰 감성분석
LSTM, Bi-LSTM과 GRU를 이용한 성능 개선

11. Word2Vec. ELMo, Doc2Vec의 이해

Word2Vec - 대표적인 워드 임베딩 기법
ELMo - 문맥에 따른 단어 의미의 구분
Doc2Vec - 문맥을 고려한 문서 임베딩

12. CNN - 이미지 분류를 응용한 문서 분류

CNN의 등장과 작동 원리
CNN을 이용한 문서 분류

13. 어텐션(Attention)과 트랜스포머

Seq2seq : 번역에서 시작한 딥러닝 기법
어텐션을 이용한 성능의 향상
설프 어텐션과 트랜스포머

14. BERT의 이해와 간단한 활용

왜 언어 모델이 중요한가?
사전학습 언어모델의 이론적 이해
BERT의 구조
언어모델을 이용한 사전학습과 미세조정학습
사전학습된 BERT 모형의 직접 사용방법
자동 클래스를 이용한 토크나이저와 모형의 사용

15. BERT 사전 학습 모형에 대한 미세조정학습

BERT 학습을 위한 전처리
트랜스포머의 트레이너를 이용한 미세조정학습
파이토치를 이용한 미세조정학습

16. 한국어 문서에 대한 BERT 활용

다중 언어 BERT 사전학습 모형의 미세조정학습
KoBERT 사전학습 모형에 대한 파이토치 미세조정학습

17. 트랜스포머 변형 모형의 현황

트랜스포머 변형 모형의 다양한 토크나이저
GPT 기반 트랜스포머 변형 모형
BERT 기반 트랜스포머 변형 모형
인코더와 디코더를 모두 사용하는 트랜스포머 변형 모형
국내 트랜스포머 변형 모형 현황

18. 트랜스포머 모형을 이용한 문서 요약

문서 요약의 이해
파이프라인을 이용한 문서 요약
T5 모형과 자동 클래스를 이용한 몬서 요약
T5 모형과 트레이너를 이용한 미세조정학습
한글 문서 요약

19. 트랜스포머 모형을 이용한 질의 응답

질의 응답 시스템의 이해
파이프라인을 이용한 질의 응답
자동 클래스를 이용한 질의 응답
트레이너를 이용한 질의 응답 미세조정학습
한글 질의 응답

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
data		data
.gitignore		.gitignore
02. 텍스트 전처리.ipynb		02. 텍스트 전처리.ipynb
03. 그래프와 워드 클라우드.ipynb		03. 그래프와 워드 클라우드.ipynb
04. 카운트 기반의 문서 표현.ipynb		04. 카운트 기반의 문서 표현.ipynb
05. BOW 기반의 문서 분류.ipynb		05. BOW 기반의 문서 분류.ipynb
06. 차원축소.ipynb		06. 차원축소.ipynb
07. 토픽 모델링으로 주제 찾기.ipynb		07. 토픽 모델링으로 주제 찾기.ipynb
08. 감성분석.ipynb		08. 감성분석.ipynb
10. RNN-딥러닝을 이용한 문서 분류.ipynb		10. RNN-딥러닝을 이용한 문서 분류.ipynb
11. Word2Vec, ELMO, DocVec의 이해.ipynb		11. Word2Vec, ELMO, DocVec의 이해.ipynb
12. CNN.ipynb		12. CNN.ipynb
14. BERT의 이해와 활용.ipynb		14. BERT의 이해와 활용.ipynb
15_BERT_사전학습_모형에_대한_미세조정학습.ipynb		15_BERT_사전학습_모형에_대한_미세조정학습.ipynb
README.md		README.md
alice_mask.png		alice_mask.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

1부 텍스트 마이닝 기초

1. 텍스트 마이닝 기초

2. 텍스트 전처리

3. 그래프와 워드 클라우드

2부 BOW 기반의 텍스트 마이닝

4. 카운트 기반의 문서 표현

5. BOW 기반의 문서 분류

6. 차원 축소

7. 토픽 모델링으로 주제 찾기

8. 감성 분석

9. 인공 신경망과 딥러닝의 이해

3부 텍스트 마이닝을 위한 딥러닝 기법

10. RNN - 딥러닝을 이용한 문서 분류

11. Word2Vec. ELMo, Doc2Vec의 이해

12. CNN - 이미지 분류를 응용한 문서 분류

13. 어텐션(Attention)과 트랜스포머

14. BERT의 이해와 간단한 활용

15. BERT 사전 학습 모형에 대한 미세조정학습

16. 한국어 문서에 대한 BERT 활용

17. 트랜스포머 변형 모형의 현황

18. 트랜스포머 모형을 이용한 문서 요약

19. 트랜스포머 모형을 이용한 질의 응답

About

Releases

Packages

Languages

yoonjong8739/textmining_python

Folders and files

Latest commit

History

Repository files navigation

1부 텍스트 마이닝 기초

1. 텍스트 마이닝 기초

2. 텍스트 전처리

3. 그래프와 워드 클라우드

2부 BOW 기반의 텍스트 마이닝

4. 카운트 기반의 문서 표현

5. BOW 기반의 문서 분류

6. 차원 축소

7. 토픽 모델링으로 주제 찾기

8. 감성 분석

9. 인공 신경망과 딥러닝의 이해

3부 텍스트 마이닝을 위한 딥러닝 기법

10. RNN - 딥러닝을 이용한 문서 분류

11. Word2Vec. ELMo, Doc2Vec의 이해

12. CNN - 이미지 분류를 응용한 문서 분류

13. 어텐션(Attention)과 트랜스포머

14. BERT의 이해와 간단한 활용

15. BERT 사전 학습 모형에 대한 미세조정학습

16. 한국어 문서에 대한 BERT 활용

17. 트랜스포머 변형 모형의 현황

18. 트랜스포머 모형을 이용한 문서 요약

19. 트랜스포머 모형을 이용한 질의 응답

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages