SFTlabel과 RMlabel은 일반적으로 기계 학습 및 인공지능 모델 훈련에서 사용되는 레이블링 된 데이터셋의 종류를 나타냅니다. 두 데이터셋은 각각 다른 목적을 가지고 있으며, 모델의 성능을 개선하는 데 중요한 역할을 합니다. 각각의 특징을 아래에 설명하겠습니다.
SFTlabel과 보상 모델 RMlabel 인공지능 훈련 데이터셋
SFTlabel (Supervised Fine-Tuning Label)
SFTlabel은 지도 학습(Supervised Learning)을 통해 모델을 파인튜닝하기 위해 사용됩니다. SFTlabel은 주로 학습 데이터와 함께 답변을 포함하여, 모델이 특정 입력에 대해 올바른 출력을 생성하도록 훈련합니다.
구조
- `data_id`: 각 데이터 항목의 고유 ID.
- `data_category`: 데이터가 속한 카테고리.
- `question_type`: 질문의 유형.
- `question_count`: 해당 질문 유형의 빈도.
- `question`: 입력되는 질문 텍스트.
- `answer`: 질문에 대한 모델이 예측해야 할 정답 텍스트.
json 예시
{
"dataset_info": {
"name": "SFT Dataset",
"description": "QA dataset for supervised fine-tuning",
"version": "1.0"
},
"data_info": [
{
"data_id": "1",
"data_category": "QA",
"question_type": "open-ended",
"question_count": 1,
"question": "What is the capital of France?",
"answer": "The capital of France is Paris."
},
{
"data_id": "2",
"data_category": "General Knowledge",
"question_type": "multiple-choice",
"question_count": 1,
"question": "Which planet is closest to the Sun?",
"answer": "Mercury."
}
]
}
사용 사례
LLaMA와 같은 언어 모델이 특정 작업에서 더 나은 성능을 내도록 하는 데 사용됩니다. 예를 들어, QA 시스템에서 사용자 질문에 대한 명확한 답변을 생성할 수 있도록 학습하는 데 이용됩니다.
특징
- 각 데이터 항목에 question과 answer 필드가 포함되어 있어, 모델이 정답을 정확히 생성하도록 학습.
- 주로 입력-출력 매핑 관계를 명확히 정의.
RMlabel (Reward Model Label)
RMlabel은 보상 모델(Reward Model)을 훈련하기 위해 사용됩니다. 이 보상 모델은 모델이 생성한 다양한 응답 중에서 더 나은 응답을 선택하는 방법을 배우도록 합니다. 즉, 어느 응답이 사용자에게 더 유용하거나 적절한지를 평가할 수 있도록 훈련하는 것입니다.
구조
- `data_id`: 각 데이터 항목의 고유 ID.
- `input`: 모델이 응답을 생성해야 하는 입력 텍스트.
- `responses`: 입력에 대한 여러 개의 응답 목록.
- `rank`: 각 응답에 대한 순위나 점수, 더 좋은 응답일수록 높은 점수를 가짐.
json 예시
{
"dataset_info": {
"name": "RM Dataset",
"description": "Ranking dataset for reward model training",
"version": "1.0"
},
"data_info": [
{
"data_id": "1",
"prompt": "Explain quantum mechanics in simple terms.",
"responses": [
{
"text": "Quantum mechanics is the study of very small particles...",
"rank": 1
},
{
"text": "It is a branch of physics that explains subatomic particles...",
"rank": 2
}
]
},
{
"data_id": "2",
"prompt": "What are the benefits of renewable energy?",
"responses": [
{
"text": "Renewable energy reduces carbon emissions...",
"rank": 1
},
{
"text": "It is a sustainable and eco-friendly alternative...",
"rank": 2
}
]
}
]
}
사용 사례
모델의 출력을 평가하고 개선하기 위해 사용됩니다. 특히, 대화형 AI 모델에서 인간이 더 선호하는 응답을 학습하도록 하여, 최종적으로 사용자가 만족할 만한 대화 품질을 높이는 데 기여합니다.
특징
- 각 prompt에 대해 여러 responses가 포함되며, 각 응답에 대해 순위(rank)가 부여됨.
- 응답의 품질을 비교하며 모델이 더 나은 응답을 생성하도록 학습.
SFT와 RM의 차이점
훈련 방법
- SFTlabel은 지도 학습을 통해 특정 입력에 대해 원하는 출력을 학습합니다. 입력과 출력이 명확히 정해져 있어 모델이 주어진 예제들을 정답으로 예측하도록 학습하는 방식입니다.
- RMlabel은 보상 학습을 위해 다양한 출력 결과에 대한 평가 기준을 학습합니다. 여러 응답을 제공한 후 이 응답들의 상대적인 순위를 평가하여 모델이 더 나은 응답을 생성하도록 학습하는 방식입니다.
사용 목표
- SFT는 모델을 특정한 작업에 대해 정밀하게 맞추기 위한 것입니다.
- RM은 생성된 응답의 품질을 개선하기 위해 응답들 간의 비교를 통해 학습하는 것입니다.
SFT와 RM은 협력적으로 작용하여 모델을 향상시키는데, SFT로 기초 학습을 통해 모델이 어느 정도 좋은 응답을 생성할 수 있게 한 다음, RM을 이용해 그 응답 중에서 사용자가 더 선호할 만한 응답을 학습하는 방식으로 모델의 대화 품질을 개선합니다.