📚 지식 상태 추론(Deep Knowledge Tracing)

1. 프로젝트 개요

1-1. 프로젝트 주제

지식 구성 요소와 지식 상태를 이용하여, 변화하는 지식 상태를 지속적으로 추적하는 task 이다. 사용자가 푼 일련의 문제를 통해 다음 문항에 낸 답이 정답일지 오답일지 맞추는 것을 목표로 한다.

1-2. 프로젝트 기간

2022.11.14 ~ 2022.12.08(4주)

1-3. 활용 장비 및 재료

개발환경 : VScode, PyTorch, Jupyter, Ubuntu 18.04.5 LTS, GPU Tesla V100-PCIE-32GB
협업 Tool : GitHub, Notion
시각화 : WandB

1-4. 프로젝트 구조도

|-- boosting
|   |-- XGBoptuna.ipynb
|   |-- boosting_baseline.py
|   |-- src
|   |-- train.py
|-- dkt
|   |-- README.md
|   |-- args.py
|   |-- inference.py
|   |-- requirements.txt
|   |-- src
|   |-- sweep.yaml
|   |-- train.py
|   |-- tuning.py
|   |-- wandb_train.py
|-- ensembles
|   |-- ensembles.py
|-- lgbm
|   |-- lgbm.ipynb
|   |-- lgbm_baseline.py
|   |-- lgbm_group_kfold.ipynb
|-- lightgcn
|   |-- README.md
|   |-- config.py
|   |-- inference.py
|   |-- install.sh
|   |-- lightgcn
|   |-- train.py
|-- lightgcn_custom
|   |-- README.md
|   |-- config.py
|   |-- inference.py
|   |-- install.sh
|   |-- lightgcn
|   |-- requirements_lightgcn_custom.txt
|   |-- train.py

(1) boosting folder
- LGBM, XGBoost, CatBoost baseline code
(2) dkt folder
- LSTM 계열 모델의 baseline code
(3) ensembles
- Weighted, voting, mix 방식의 ensemble code
(4) lgbm
- LGBM baseline code
(5) lightgcn
- lightgcn baseline code
(6) lightgcn_custom
- lightgcn + BERT , lightgcn + feature representation code

1-5. 데이터 구조

userID 사용자의 고유번호
testId 시험지의 고유번호
assessmentItemID 문항의 고유번호
answerCode 사용자가 해당 문항을 맞췄는지 여부에 대한 이진 데이터
Timestamp 사용자가 해당문항을 풀기 시작한 시점
KnowledgeTag 문항 당 하나씩 배정되는 태그

1-6. Metric

AUROC(Area Under the ROC curve)와 Accuracy

2. 프로젝트 팀 구성 및 역할

구혜인	권은채	박건영	장현우	정현호	허유진
* 데이터 EDA * BERT 모델 진행	* 데이터 EDA * XGB 모델 진행	* 데이터 EDA * Last Query 모델 진행	* 데이터 EDA * LSTM+Attention 모델 진행	* 데이터 EDA * LightGBM 모델 진행	* 데이터 EDA * LightGCN 모델 진행

3. 프로젝트 진행

3-1. 사전 기획

22.11.10(목): DKT 프로젝트 전 오프라인 미팅
22.11.14(월): 모델 세미나
일정 수립
- 22.11.14(월) ~ 22.11.20(일) : EDA
- 22.11.14(월) ~ 22.12.02(금) : Feature Engineering
- 22.11.23(수) ~ 22.12.02(금) : Modeling
- 22.12.03(토) ~ 22.12.09(금) : 최적화

3-2. 프로젝트 수행

4. 프로젝트 수행 결과

4-1. 모델 성능 및 결과

■ 결과 ( AUROC Score 상위 4 개) : Private 7위

LSTMAttention	BERT	LastQuery	XGBoost	LightGBM	LightGCN
0.7594	0.7791	0.8063	0.8114	0.8210	0.7823

최종 선택 여부	모델 (Ensemble 비율)	public auroc	private auroc
O	LightGBM LightGCN LastQuery (0.65, 0.1, 0.25)	0.8253	0.8479
O	LightGBM LightGCN LastQuery (0.7, 0.1, 0.2)	0.8252	0.8476
X	LightGBM LastQuery XGBoost LightGCNx3 (hard voting) - LightGCN , LightGCN + feature representation , LightGCN + Bert	0.8094	0.8531
X	LightGBM LightGCN LastQuery (0.65, 0.15, 0.2)	0.8232	0.8506

4-2. 모델 개요

1. Transformer 계열 모델
- 1. LSTM + Attention
- 1. BERT
- 1. LastQuery
1. Boosting 계열 모델
- 1. LightGBM
- 1. XGBoost
1. Graph 모델
- 1. LightGBM

4-3. 모델 선정

베이스라인 코드
- LightGBM
  - 기본적으로 주어진 컬럼이 굉장히 적고 만들어내야 하는 상황이다. 따라서assessmentItemID, testId, KnowledgeTag 등 대부분이 범주형으로 주어졌지만 Feature로 통계값을 많이 사용할거라 예상하여 CatBoost 사용을 미루기로 했다. 또한 주어진 데이터 양이 적지 않으므로 XGBoost보다 LGBM이 효율적이라 생각했다.
추가적인 모델 선택
- LastQuery
  - Riid 대회에서 1등을 기록한 모델로, sequence 길이에 따라 향상된 성능을 보였으며 다른 transformer 계열 모델에 비해 feature engineering이 적게 필요하여 모델링 소요시간과 성능 측면에서 장점을 보였기 때문에 선택했다.
- XGBoost
  - LightGBM 모델이 성능이 잘 나와 비슷한 CART(Classification and regression tree) 앙상블 모델이면서 다양한 하이퍼 파라미터를 조절해 볼 수 있어 LightGBM과 비교를 위해 추가적으로 사용하게 되었다.

4-4. 모델 성능 개선 방법

Hyperparameter tuning(Wandb, Sweep, Optuna)
K-fold
Ensemble

5. WrapUp Report

Level_2_DKT_랩업리포트

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
EDA		EDA
code		code
docs		docs
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📚 지식 상태 추론(Deep Knowledge Tracing)

1. 프로젝트 개요

1-1. 프로젝트 주제

1-2. 프로젝트 기간

1-3. 활용 장비 및 재료

1-4. 프로젝트 구조도

1-5. 데이터 구조

1-6. Metric

2. 프로젝트 팀 구성 및 역할

3. 프로젝트 진행

3-1. 사전 기획

3-2. 프로젝트 수행

4. 프로젝트 수행 결과

4-1. 모델 성능 및 결과

4-2. 모델 개요

4-3. 모델 선정

4-4. 모델 성능 개선 방법

5. WrapUp Report

About

Releases

Packages

Languages

Heiness/Deep_Knowledge_Tracing

Folders and files

Latest commit

History

Repository files navigation

📚 지식 상태 추론(Deep Knowledge Tracing)

1. 프로젝트 개요

1-1. 프로젝트 주제

1-2. 프로젝트 기간

1-3. 활용 장비 및 재료

1-4. 프로젝트 구조도

1-5. 데이터 구조

1-6. Metric

2. 프로젝트 팀 구성 및 역할

3. 프로젝트 진행

3-1. 사전 기획

3-2. 프로젝트 수행

4. 프로젝트 수행 결과

4-1. 모델 성능 및 결과

4-2. 모델 개요

4-3. 모델 선정

4-4. 모델 성능 개선 방법

5. WrapUp Report

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages