OpenAI의 Deliberative Alignment

OpenAI가 오늘 AI 안전성 확보를 위한 새로운 접근 방식인 Deliberative Alignment(DA)를 공개했습니다. 이는 AI 모델의 윤리적 판단과 안전성 확보에 있어 의미있는 진전을 보여주는 발표이고 리즈닝으로 성능을 극대화 하는 최근 추세와도 딱 맞는 접근 방법이라 생각합니다.

또한 DA는 안전성, 견고성, 일반화 능력 등 대부분의 중요 지표에서 기존 방식들을 크게 개선했으며, 특히 Jailbreak 방어를 위해 과도하게 응답을 거부하는 것 사이의 trade-off를 획기적으로 줄인 부분은 인상적으로 보입니다(이 부분 어려운 부분이죠..).

Deliberative Alignment란?

DA는 AI 모델이 응답을 생성하기 전에 명시적인 추론 과정을 거치도록 하는 기술입니다. 이는 마치 인간이 중요한 결정을 내릴 때 여러 측면을 고려하고 심사숙고하는 것과 유사한 프로세스를 AI에 구현한 것입니다.

주요 특징

단계적 추론: Chain-of-thought 방식으로 판단
투명한 의사결정: 추론 과정을 명확하게 확인 가능
유연한 정책 적용: 상황에 따른 맞춤형 판단

학습 데이터 생성 방식은 매우 직관적입니다. 먼저 (prompt, completion) 쌍의 데이터 셋을 o 스타일 모델로 부터 생성하고 시스템 프롬프트에 safety 정책 스펙을 입력하고 CoT(Chain-of-Thought), completion을 생성한 뒤 시스템 프롬프트를 제거하고 모델을 학습하게 되면 자연스래 CoT 내에서 정책을 고려해 의사결정 사고과정을 수행할 수 있게 됩니다.

기존 접근 방식과의 차이점

클로드의 Constitutional AI

CAI: 학습 단계에서 정책을 보완한 응답 출력 학습
DA: CoT로 정책 학습, test-time 추론과 판단

CAI와 DA의 주요 차이점은 학습 방식과 추론 과정의 처리에 있습니다.

간단히 말해, CAI는 효율적이고 직접적인 출력 제어에 중점을 두는 반면, DA는 추론 과정의 투명성과 설명 가능성을 강조하는 접근 방식이라고 할 수 있습니다.

학습 데이터 생성 과정 자체에 CoT가 포함되어 DA 학습 데이터 품질이 더 좋고 투명할 것이라 예상할 수 있겠지만 인퍼런스시 CoT 오버헤드 단점이 있죠.

Constitutional Classifiers

CC: 분류기 기반 학습/판단
DA: 모델 내재화된 추론적 판단

이 둘에 대해서 바로 비교는 어려울 거 같습니다. CC는 외부 모니터링을 통한 실용적인 안전장치인 반면, DA는 모델 내부에 안전한 의사결정 과정을 통합하는 근본적인 접근방식 이라서요. 오히려 상보적인 관계에 가깝다고 해야 될 거 같습니다.

효과

DA의 실제 적용시 CoT 내에서 투명하게 판단 근거를 확인 할 수 있기 때문에 오탐시 이에 대한 보강 근거를 찾기가 용이할 것입니다. 또한 매우 복잡한 윤리적 문제에 대해서 논리적인 판단이 이전 방법들 보다 정확하게 될 수 있을 것입니다.

필자가 CoT를 좋아하는 응답 성능 이외에 두번째 이유는 CoT로 모델을 디버깅(?) 할 수 있기 때문입니다. 모델이 어떻게 생각하고 판단하는지 들여다 보는 것은 모델로 특정 문제를 대응하기 위한 가장 좋은 근거가 되기 때문입니다.

결국 아래와 같은 DA의 장점이 있을 거 같네요.

복잡한 윤리적 판단
- 맥락 고려가 필요한 경우
- 다양한 이해관계가 얽힌 상황
정책 준수 검증
- 규정 준수 여부 확인
- 투명한 판단 근거 제시
안전성 확보
- 잠재적 위험 요소 식별
- 적절한 대응 방안 도출

물론 초거대 모델에 내재화된 방식이기 때문에 새로운 윤리 규칙이 보강되어야 될 경우에 모델의 재학습이 불가피할 것으로 보입니다. 따라서 결국 단순한 분류기(CC) 기반으로 대응되는 영역과 작은 모델 기반으로 대응되어야 될 문제 영역을 잘 디자인하고 대응하는 정책 정의가 필요할 것으로 보입니다. 거대 모델을 재학습하는 것보다는 작은 모델을 학습하는게 비용적으로나 대응 속도 측면에서나 때로는 나을 수 있기 때문입니다.

정리

OpenAI의 Deliberative Alignment 발표는 AI 안전성 확보를 위한 의미있는 이정표가 될 것으로 보이고 무엇보다 이 분야의 OpenAI의 노력이 돋보이네요.

끝!

Deliberative Alignment란?

주요 특징

기존 접근 방식과의 차이점

클로드의 Constitutional AI

Constitutional Classifiers

효과

정리

이 글 공유하기:

이것이 좋아요:

Related Post