Skip to content

Yeonseolee/level2-nlp-datacentric-nlp-03

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

boostcampAItech

KLUE Topic Classification

Static Badge Static Badge Static Badge Static Badge

Introduction

주제 분류(Topic Classification, TC)는 자연어 문장을 주제가 해당하는 카테고리로 분류하는, 모델의 자연어에 대한 이해를 평가할 수 있는 간단한 task 입니다. 본 프로젝트에서 사용하는 KLUE-TC 벤치마크는 뉴스의 제목을 정치, 사회, 경제 등을 포함한 7개의 주제로 분류한 데이터셋을 사용합니다. 특히 이번 프로젝트는 Data-Centric 프로젝트로서, 베이스라인 모델의 수정 없이 데이터의 개선만으로 성능 향상을 이끌어내는 것이 목표입니다. 데이터는 7,000개의 학습 데이터와 47,785개의 테스트 데이터로 이루어져 있으며, 각 데이터에는 문장에 대한 Graphemes to Phoneme(G2P) noise와 target을 임의로 변경한 labeling error 데이터가 포함되어 있습니다. 이때 개별 데이터의 feature는 각 데이터 샘플의 식별자인 ID, 분류 대상이 되는 자연어 텍스트(기사 제목)에 해당하는 text, 정수로 인코딩된 label인 target, 데이터 샘플의 뉴스 url인 url, 데이터 샘플의 작성 날짜와 시간인 date로 구성되어 있으며, url의 경우 어떤 형태로든 학습에 활용하는 것이 제한됩니다.

Features

  • EDA
  • g2pK
  • CleanLab
  • Back Translatoin
  • Masked Language Modeling Data Augmentation
  • Synthetic Data Generation (T5)
  • Contextual Word Embeddings Augmentation (nlapug)
  • NAVER News crawling
  • Custom W&B Logger

Contributors

김연수
badge 김연수
김진기
badge 김진기
석수경
badge 석수경
오주영
badge 오주영
이균
badge 이균
이서연
badge 이서연

Reference

[1] Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. Retrieved from https://maartengr.github.io/BERTopic/index.html
[2] Park, K. (n.d.). g2pK: g2p module for Korean. GitHub. Retrieved from https://github.com/Kyubyong/g2pK
[3] Northcutt, C., Jiang, L., & Chuang, I. (2021). Confident learning: Estimating uncertainty in dataset labels. Journal of Artificial Intelligence Research, 70, 1373-1411.
[4] 김기훈, 이창기, 류지희, & 임준호. (2020). 한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법. 제32회 한글 및 한국어 정보처리 학술대회. https://koreascience.kr/article/CFKO202030060835857.pdf
[5] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1), 5485-5551. Retrieved from https://arxiv.org/abs/1910.10683
[6] Ma, E. (2023). nlpaug: A Python library for augmenting natural language for machine learning. GitHub. Retrieved from https://github.com/makcedward/nlpaug
[7] AI Hub. (2024). 뉴스 기사 기계독해 데이터. AI Hub. https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=577
[8] Weights & Biases. (n.d.). Custom logging: Log and view evaluation samples during training. Hugging Face Transformers | Weights & Biases Documentation. Retrieved from https://docs.wandb.ai/guides/integrations/huggingface#custom-logging-log-and-view-evaluation-samples-during-training

About

level2-nlp-datacentric-nlp-03 by NAVER boostcamp AI tech

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 94.3%
  • Python 5.7%