Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Enhancement Each Model #46

Closed
jerife opened this issue Mar 9, 2022 · 8 comments
Closed

Enhancement Each Model #46

jerife opened this issue Mar 9, 2022 · 8 comments
Assignees

Comments

@jerife
Copy link
Member

jerife commented Mar 9, 2022

회의록 22.03.08

  1. 모델 앙상블
    토크나이저를 여러개 사용할 겅우 각자 의미하는 바가 다르기 때문에 같은 토크나이저를 이용해서 한모델 끼리 구조를 변경하고 앙상블해야함.

  2. 모델 퍼포먼스 올리기
    위 주제에 따라서 Roberta나 DeBERTa 단일 모델 성능을 높여야함.

  3. 각 task별 네이밍

    • nbme_ner: nbme_baseline_1
    • nbme_qa: nbme_baseline_2
    • nbme_ner_qa: nbme_baseline_3
  4. 모델 공유

    • kaggle을 이용해 model 가중치 공유
    • github을 이용한 model architecture(code) 공유

다음주 까지

각자 모델 하나씩 분담해 성능 향상 시켜오기

  1. Roberta large: 재우, 영민
  2. DeBERTa v3 large : 현훈, 정원
@jerife jerife self-assigned this Mar 9, 2022
@ympaik87
Copy link
Contributor

ympaik87 commented Mar 9, 2022

  1. taks별 네이밍 관련: change baseline folder name #45

@Kingthegarden
Copy link
Contributor

Kingthegarden commented Mar 9, 2022

가중치 파일 URL 공유해 드립니다.

  1. dataset : https://www.kaggle.com/jeongwonkim10516/nbme-dataset
  • skf, group 두 방식으로 CV된 파일입니다.
  • 향후 fold 수를 늘릴 때는, 따로 데이터셋을 만들어야 합니다. 먼저 실행하시면 공유 부탁드립니다.
  1. DeBERTa - fclayer- init (0.882) : https://www.kaggle.com/jeongwonkim10516/debertafclayerinite
  2. DeBERTa - DeepShare (0.884) : https://www.kaggle.com/jeongwonkim10516/deberta-deepshare

개별적으로 train 진행하시고, 성능 향상되는 모델 공유 부탁드립니다.
추가적으로, 실험하시는 내용 간략하게 코멘트나 이슈로 기록하시면서 하시면 실험 방향 설정에 도움이 될 것 같습니다.

@Kingthegarden
Copy link
Contributor

어제 회의 내용 중에 누락된 내용있어서 말씀드립니다.
저희 10 fold로도 실험할 때, 데이터셋을 나누는 기준을 다시한번 고민했으면 합니다.
분석 결과, 기존에 grp, skf로 나누는 방식과 현재 LB 888을 기록하고 있는 방식이 다릅니다. 정확한 차이는 모르겠으나, skf 를 사용한 것으로 판단되고, 전처리를 하여 기존 train 데이터가 14300 -> 1394로 줄었습니다.
디스커션, 코드 등을 참고하셔서 CV 전략을 다시한번 고민해보셨으면 좋겠습니다.

@Kingthegarden
Copy link
Contributor

Kingthegarden commented Mar 13, 2022

DeBERTa 실험 내역

모든 실험은 DeBERTa deepshare ver (CV : 0.881 / LB : 0.884)를 기준으로 진행하였습니다.

  1. CV 방법 변화 ( 기존 : group -> skf )
  • 결과 : CV 0.8725 로 성능 하락을 보여줌
  • pn_num, feature_num 등 다양한 방법으로 CV 방식에 변화를 주었지만, 특별한 기준을 찾지 못함
  1. Fold 개수의 변화 ( 기존 : 5 -> 10)
  • 결과 : 한 fold 당 4시간 정도의 시간이 소요, CV 0.8804로 큰 변화 없음
  1. 모델 변화 ( deepshare 모델 변형 )
  • fc-layer에 attention을 적용하고 deepshare 방법론 적용, CV 스코어는 0.885 정도로 향상이 있었으나, LB는 0.881 기록
  • dropout의 값, 적용 위치 등 다양한 변화를 시도했지만 큰 성능향상은 발견하지 못함
  • 2개의 fc-layer 에서 dropout을 다르게 하고 평균을 취하는 방법 적용, CV 0.879로 기본 모델에 비해 성능 하락을 보임
  1. 다른 모델과 앙상블
  • DeBERTa 822 model : best_th 49 -> 47 변화를 주어 0.003 정도의 CV 스코어 향상을 발견했지만, 0.885로 같은 LB 스코어 기록
  • DeBERTa 883 model + New DeepShare model : best_th 47,49 CV 0.8857를 기록했지만, LB는 0.881로 하락

추가적으로, 실험한 내용 정리되는 대로 업데이트하겠습니다.

@ympaik87
Copy link
Contributor

ympaik87 commented Mar 15, 2022

제 이번주 실험내용은 여기 #55 참고해주세요. 피드백 환영입니다!

@Kingthegarden
Copy link
Contributor

다들 실험 하시느라 고생하셨습니다.
실험 하신 내용들(#52 #54 #55 ) 토대로 회의 때 논의하고 다음주 실험으로 해볼만한 것들을 생각해봤습니다.

  1. 데이터 전처리 : 현재 데이터셋에 전처리가 필요한 부분들이 발견되고 있습니다. 이 부분을 토대로 전처리 실험을 설계하면 좋을 것 같습니다.
  • 현훈님이 의견주신 정답이 없는데 처리되는 부분 등이 있습니다. 이것을 히든 데이터를 고려했을 때, 없애는게 맞는지 아니면 다른 방식의 처리가 필요한지와 같은 논의가 진행되면 좋을 것 같습니다.
  1. 재우님, 영민님의 RoBERTa, ELECTRA 실험을 토대로 토크나이저가 다른 모델의 앙상블이 효과가 있다는 것이 발견됬습니다. 재우님 혹은 GM의 RoBERTa infer 코드를 토대로 RoBERTa 성능 향상에 대한 논의를 진행하고, 성능 향상에 대한 실험이 진행되면 좋을 것 같습니다.
  2. DeBERTa에 대한 실험은 지속했으면 합니다. 이유는 0.888 이상의 CV, LB 스코어를 달성한 점을 봤을 때, 아직까지 성능 향상에 대한 실험이 더 필요할 것으로 판단됩니다.

추가적으로, 회의 때 논의하고 싶으신 내용있으시면 코멘트나 회의 때 말씀해주세요 ! 고생하셨습니다.

@HyeonhoonLee
Copy link
Member

CV score check 할때 일관된 kfold 방식을 정해야할 것 같습니다. 제가 #52 이슈에서 분석한 바와 같이, group 방식보다는 skf로 통일하는게 성능비교에 바람직할 것 같습니다.

@HyeonhoonLee
Copy link
Member

HyeonhoonLee commented Mar 16, 2022

Preprocessing 실험 내역

  1. add_correct = True, case_num 0,1,2에 적용
    deberta-v3-large에서 CV 0.8772. -> 0.8766 | LB. ? -> 0.866
  2. 이후 case_num 5 까지 수정 후 CV 및 LB 비교 예정입니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants