어떤 데이터를 노이즈로 볼 것인가? #29
Replies: 3 comments 4 replies
-
이해하기 쉽게 국어영영과 사회영역으로 구분하였지만 정확하게 말하자면, paragraph에서 근거를 찾을 수 있는가에 대한 여부로 구분합니다.
두 가지로 분류한 이유는 두 영역의 문제 풀이 방법을 달리 하기 위해서 입니다.
반드시 모델이 해당 지식을 가지고 있지 않아도 RAG와 같은 방법을 사용하면 위와 같은 문제를 해결할 수 있습니다. |
Beta Was this translation helpful? Give feedback.
-
해당 과정은 paragraph에서 근거를 찾아 정답을 맞출 수 있는가? 보다 train에 앞서 만약 우리 모델이 못풀고, GPT가 푸는 문제에 대해서는 RAG를 통한 가능성이 높고, |
Beta Was this translation helpful? Give feedback.
-
Batch API로 비용 절감할 수 있는 방법도 참고하면 좋을 것 같네용 |
Beta Was this translation helpful? Give feedback.
-
필요성
방향성
수능 최적화된 LLM모델 만들기
디노이즈를 하는 이유: 모델이 학습할 필요가 없거나, 학습을 해도 의미없는 데이터를 없애는 것
어떤 데이터를 노이즈로 판단할 것인가?
만약 우리 모델이 학습데이터를 추가학습시키지않고 바로 학습데이터를 inferance시켰을 때 올바른 대답을 할 수 있다면?
우리 모델이 학습없이 못 푸는 문제를 고성능 모델(eg. GPT-4o)이 풀 수 있다면?
우리 모델이 학습없이 못 푸는 문제를 고성능 모델(eg. GPT-4o)이 풀 수 없다면?
Q-A에서의 오류는 삭제하고, paragraph의 부족은 그자체로 노이즈증강으로 보거나 GPT에게 추가 생성을 맡기면 좋은 데이터가 되지 않을까?
이를 통해 모든 데이터를 확인하는 것보다 단계적으로 문제가 될만한 데이터를 추려나가며 확인해보면 좋을 것 같습니다.
Beta Was this translation helpful? Give feedback.
All reactions