Technology issues

SFTlabel과 보상 모델 RMlabel 인공지능 훈련 데이터셋 이해하기

pauls 2024. 11. 20. 13:49
반응형

SFTlabel과 RMlabel은 일반적으로 기계 학습 및 인공지능 모델 훈련에서 사용되는 레이블링 된 데이터셋의 종류를 나타냅니다. 두 데이터셋은 각각 다른 목적을 가지고 있으며, 모델의 성능을 개선하는 데 중요한 역할을 합니다. 각각의 특징을 아래에 설명하겠습니다.

SFTlabel과 보상 모델 RMlabel 인공지능 훈련 데이터셋
SFTlabel과 보상 모델 RMlabel 인공지능 훈련 데이터셋

 

 

SFTlabel과 보상 모델 RMlabel 인공지능 훈련 데이터셋

  SFTlabel (Supervised Fine-Tuning Label)

SFTlabel은 지도 학습(Supervised Learning)을 통해 모델을 파인튜닝하기 위해 사용됩니다. SFTlabel은 주로 학습 데이터와 함께 답변을 포함하여, 모델이 특정 입력에 대해 올바른 출력을 생성하도록 훈련합니다.

 

반응형

 

 

구조

  • `data_id`: 각 데이터 항목의 고유 ID.
  • `data_category`: 데이터가 속한 카테고리.
  • `question_type`: 질문의 유형.
  • `question_count`: 해당 질문 유형의 빈도.
  • `question`: 입력되는 질문 텍스트.
  • `answer`: 질문에 대한 모델이 예측해야 할 정답 텍스트.

 

json 예시

{ "dataset_info": { "name": "SFT Dataset", "description": "QA dataset for supervised fine-tuning", "version": "1.0" }, "data_info": [ { "data_id": "1", "data_category": "QA", "question_type": "open-ended", "question_count": 1, "question": "What is the capital of France?", "answer": "The capital of France is Paris." }, { "data_id": "2", "data_category": "General Knowledge", "question_type": "multiple-choice", "question_count": 1, "question": "Which planet is closest to the Sun?", "answer": "Mercury." } ] }

 

 

 

 

사용 사례

LLaMA와 같은 언어 모델이 특정 작업에서 더 나은 성능을 내도록 하는 데 사용됩니다. 예를 들어, QA 시스템에서 사용자 질문에 대한 명확한 답변을 생성할 수 있도록 학습하는 데 이용됩니다.

 

특징

  • 각 데이터 항목에 question과 answer 필드가 포함되어 있어, 모델이 정답을 정확히 생성하도록 학습.
  • 주로 입력-출력 매핑 관계를 명확히 정의.

 

  RMlabel (Reward Model Label)

RMlabel은 보상 모델(Reward Model)을 훈련하기 위해 사용됩니다. 이 보상 모델은 모델이 생성한 다양한 응답 중에서 더 나은 응답을 선택하는 방법을 배우도록 합니다. 즉, 어느 응답이 사용자에게 더 유용하거나 적절한지를 평가할 수 있도록 훈련하는 것입니다.

 

 

 

구조

  • `data_id`: 각 데이터 항목의 고유 ID.
  • `input`: 모델이 응답을 생성해야 하는 입력 텍스트.
  • `responses`: 입력에 대한 여러 개의 응답 목록.
  • `rank`: 각 응답에 대한 순위나 점수, 더 좋은 응답일수록 높은 점수를 가짐.

 

json 예시

{ "dataset_info": { "name": "RM Dataset", "description": "Ranking dataset for reward model training", "version": "1.0" }, "data_info": [ { "data_id": "1", "prompt": "Explain quantum mechanics in simple terms.", "responses": [ { "text": "Quantum mechanics is the study of very small particles...", "rank": 1 }, { "text": "It is a branch of physics that explains subatomic particles...", "rank": 2 } ] }, { "data_id": "2", "prompt": "What are the benefits of renewable energy?", "responses": [ { "text": "Renewable energy reduces carbon emissions...", "rank": 1 }, { "text": "It is a sustainable and eco-friendly alternative...", "rank": 2 } ] } ] }

 

사용 사례

모델의 출력을 평가하고 개선하기 위해 사용됩니다. 특히, 대화형 AI 모델에서 인간이 더 선호하는 응답을 학습하도록 하여, 최종적으로 사용자가 만족할 만한 대화 품질을 높이는 데 기여합니다.

 

특징

  • 각 prompt에 대해 여러 responses가 포함되며, 각 응답에 대해 순위(rank)가 부여됨.
  • 응답의 품질을 비교하며 모델이 더 나은 응답을 생성하도록 학습.

 

 

  SFT와 RM의 차이점

훈련 방법

  • SFTlabel은 지도 학습을 통해 특정 입력에 대해 원하는 출력을 학습합니다. 입력과 출력이 명확히 정해져 있어 모델이 주어진 예제들을 정답으로 예측하도록 학습하는 방식입니다.
  • RMlabel은 보상 학습을 위해 다양한 출력 결과에 대한 평가 기준을 학습합니다. 여러 응답을 제공한 후 이 응답들의 상대적인 순위를 평가하여 모델이 더 나은 응답을 생성하도록 학습하는 방식입니다.

사용 목표

  • SFT는 모델을 특정한 작업에 대해 정밀하게 맞추기 위한 것입니다.
  • RM은 생성된 응답의 품질을 개선하기 위해 응답들 간의 비교를 통해 학습하는 것입니다.

SFT와 RM은 협력적으로 작용하여 모델을 향상시키는데, SFT로 기초 학습을 통해 모델이 어느 정도 좋은 응답을 생성할 수 있게 한 다음, RM을 이용해 그 응답 중에서 사용자가 더 선호할 만한 응답을 학습하는 방식으로 모델의 대화 품질을 개선합니다.

반응형