level2_MRC-nlp-05

🐴Members


변성훈	서보성	이상민	이승우	이예원

📎ODQA (Open-Domain Question Answering)

부스트캠프 AI-Tech 5기 NLP 트랙 Level2 3차 경진대회 프로젝트입니다. Question Answering 은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야입니다. 특히 Open-Domain Question Answering (ODQA) 은 주어지는 지문이 따로 존재하지 않고 사전에 구축된 Knowledge resource에서 질문에 답할 수 있는 문서를 찾는 과정이 추가됩니다. 본 대회에서 우리가 만들어야 했던 모델은 질문에 관련된 문서를 찾아주는 retriever - 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 reader의 two-stage로 구성되어 있습니다.

Data

데이터 구성

데이터 예시

Metric

Exact Match (EM), F1 Score (보조)

✔️Project

Structure

root/input/code/
|
|-- BS_inference.py
|-- BS_train.py
|-- BSQuestionAnsweringModel.py
|-- curriculum.py
|-- evaluation.py
|-- find_answer_sentence.py
|-- inference.py
|-- prepare_dataset.py
|-- scores_voting.py
|-- train.py
|-- trainer_qa.py
|-- utils_qa.py
|
|-- ensemble/
|   |-- probs_voting_ensemble_n.py
|   |-- probs_voting_ensemble.py
|   |-- scores_voting_ensemble.py
|
|-- retrieval/
|   |-- DenseModel/
|   |   |-- DenseModel.py
|   |   |-- train.py
|   |-- cross_encoder.py
|   |-- retrieval_BM25.py
|   |-- retrieval_DPR.py
|   |-- retrieval_ES.py
|   |-- retrieval_reranking.py
|   |-- retrieval_reranking2.py
|   |-- retrieval_TFIDF.py
|
|-- utils/
|   |-- elastic_search.py
|   |-- es.py
|   |-- naming.py

Data Analysis

Data Augmentation
Preprocessing
Prompt Tuning

Retriever

Retriever Tokenizer
Sparse Retriever
- TF-IDF
- BM25
- BM25 + TF-IDF
- Elastic Search
Dense Retriever
- Bi-Encoder
- Cross-Encoder
- Colbert
Inference Method
- [SEP] special token
- Independent Documents Inference

Reader

Model, Tokenizer Tuning
Curriculum Learning
Transfer Learning
Negative Sampling

Sentence-level Approach (Bremen Special)

Ensemble

nbest-probs soft voting

💡 위에 관한 자세한 내용은 Wrap-up Report를 참고해주세요.

🐞Usage

# TRAIN
python3 input/code/train.py

# INFERENCE
python3 input/code/inference.py

🏆Result

Public 3위
Private 2위

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
input/code		input/code
.bashrc		.bashrc
.gitignore		.gitignore
.gitmessage		.gitmessage
README.md		README.md
args.yaml		args.yaml
mrc_NLP_팀 리포트(05).pdf		mrc_NLP_팀 리포트(05).pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

level2_MRC-nlp-05

🐴Members

📎ODQA (Open-Domain Question Answering)

Data

Metric

✔️Project

Structure

Data Analysis

Retriever

Reader

Sentence-level Approach (Bremen Special)

Ensemble

🐞Usage

🏆Result

About

Releases

Packages

Contributors 5

Languages

boostcampaitech5/level2_nlp_mrc-nlp-05

Folders and files

Latest commit

History

Repository files navigation

level2_MRC-nlp-05

🐴Members

📎ODQA (Open-Domain Question Answering)

Data

Metric

✔️Project

Structure

Data Analysis

Retriever

Reader

Sentence-level Approach (Bremen Special)

Ensemble

🐞Usage

🏆Result

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages