RLHF를 사용한 GPT-2 미세 조정을 통한 긍정적 감정 표현 생성

2025-07-06

이 프로젝트는 인간 피드백으로부터의 강화 학습(RLHF)을 사용하여 사전 훈련된 GPT-2 모델을 미세 조정하여 긍정적인 감정을 표현하는 문장을 생성하는 참조 구현을 제공합니다. 이 프로세스는 세 가지 단계로 구성됩니다. 1. 지도 학습 미세 조정(SFT): stanfordnlp/sst2 데이터 세트에서 GPT-2를 미세 조정합니다. 2. 보상 모델 훈련: 감정을 예측하기 위한 보상 헤드가 있는 GPT-2 모델을 훈련합니다. 3. 근접 정책 최적화(PPO)를 통한 강화 학습: 보상 모델이 긍정적으로 평가하는 문장을 생성하도록 SFT 모델을 최적화합니다. 이 세 단계는 세 개의 Jupyter Notebook에 구현되어 단계별 접근 방식을 제공합니다. 사전 훈련된 GPT-2 모델을 다운로드하려면 Hugging Face 액세스 토큰이 필요합니다.

(github.com)

AI 감정 분석

백만 명 서명으로 촉구: 게임 죽이기를 멈춰라!

46주년 워크맨: 향수와 논쟁