최근 핫한 기술분야에 있는 인공지능, 그중에서도 챗 GPT4 등 GPT 모델은 가장 핫한 기술 이슈 중 하나일 것입니다. 언어모델 기반의 챗봇은 챗GPT만 있는 것은 아닙니다. 구글의 Gemini, MS의 Copilot 등이 뉴스를 통해 알려진 바가 있습니다. 오늘은 제가 직접 유, 무료 버전을 모두 사용해 본 쳇 GPT4와 거의 대등한 어쩌면 더 우수한 것 같은 챗GPT와 클로드 (Claude)에 대해 비교 설명해 보겠습니다.
GPT vs. Claude
OpenAI의 GPT(Generative Pre-trained Transformer)는 2018년 최초로 공개된 대규모 언어모델(LLM: Large Language Model) 기반 기술입니다. GPT는 인터넷 데이터를 활용해 사전 학습된 트랜스포머 기반 모델로, 후속 버전인 GPT-2(2019년), GPT-3(2020년), 2023년 3월 GPT-4에 이르기까지 지속적으로 모델 크기와 성능이 향상되었습니다.
특히 GPT-4는 약 1조 개의 매개변수를 가진 초대형 모델로, 텍스트뿐 아니라 이미지에 대한 이해/생성 능력을 갖추게 되었습니다.
반면 Anthropic의 Claude는 2022년 공개된 AI 모델로, 구성적 언어모델(Constitutive Language Model) 기반 기술입니다. 구성적 언어모델 접근법을 통해 명시적 규칙과 제약을 부여함으로써 출력의 안전성과 일관성을 높이는 데 중점을 두고 있습니다.
2023년 6월 Claude 2.0에서 모델 거부권 기술 등으로 윤리성과 안전성이 대폭 강화되었습니다.
모델 교육 방식 비교
1. 대규모 언어 모델(LLM) 학습 방식의 GPT :
- OpemAI의 GPT 모델은 대표적인 대규모 언어모델(LLM)로, 엄청난 양의 텍스트 데이터를 사전 학습시켜 모델을 구축하는 방식입니다.
- 구체적으로는 셀프-어텐션(Self-Attention) 기반의 트랜스포머 아키텍처를 사용하며, 인터넷에서 수집한 방대한 텍스트 코퍼스를 자가회귀(Autoregressive) 언어모델링 기법으로 학습합니다.
- 이 과정에서 명시적인 규칙이나 지식은 주입되지 않고, 오로지 데이터에 내재된 통계적 패턴만을 학습하게 됩니다.
- GPT-3의 경우 1750억 개의 매개변수를 갖춘 초대형 모델로, 텍스트 생성뿐 아니라 다양한 자연어 처리 태스크에 전이학습될 수 있음이 입증되었다.
2. 구성적 언어 모델(CLM) 학습 방식의 Claude :
- Anthropic의 Claude는 구성적 언어모델(Constitutive Language Model) 접근법 기반입니다.
- GPT와 마찬가지로 대규모 텍스트 데이터로 사전학습되지만, 여기에 더해 인간이 설계한 명시적 규칙과 제약조건을 통합하는 구성적 언어모델 기술을 적용하고 있습니다.
- 구체적으로 Claude는 학습 과정에서 다양한 프롬프트와 지침을 활용해 원하는 속성(예: 정직성, 안전성 등)을 갖출 수 있도록 하고 있습니다.
- 또한 반례학습(Counterexample Learning) 등의 기법을 통해 부적절한 출력을 방지하도록 훈련받습니다.
두 모델의 장점과 단점
GPT와 같은 순수 LLM 접근법의 장점은 데이터만 충분히 확보되면 놀라운 성능을 발휘할 수 있다는 점입니다. 반면 명시적 지식의 부재로 부적절하거나 유해로운 결과가 발생할 수 있고, 모델의 추론 경로를 해석하기 어렵다는 단점이 있습니다.
이에 반해 Claude의 구성적 접근법은 모델의 행동과 출력에 대한 통제력이 높고, 안전성과 해석가능성을 증진시킬 수 있는 강점이 있습니다.
하지만 인간의 가이드라인 설계에 많은 노력이 필요하고, 지나치게 제약적일 경우 모델 성능이 저하될 수 있다는 한계도 존재합니다. 결국 두 가지 접근법은 상호 보완적인 장단점을 지니고 있어, 향후 대규모 모델의 성능과 구성적 모델의 안전성을 절충할 수 있는 방법으로 새로운 모델의 개발이 기대됩니다.
인공지능 분야 직접 참여하고 있지 않으면 모델 방식이나 기술방식에 대한 설명은 무의미할 것입니다. 아래 바로가기 링크를 두었으니 직접 체험해 보시면 보다 많은 것을 경험하게 될 것입니다.