회로 추적: 거대 언어 모델의 계산 그래프 밝히기
2025-04-02

연구원들은 크로스 레이어 트랜스코더(CLT)를 사용하여 심층 학습 모델의 내부 작동 방식을 해석하는 새로운 방법을 제시했습니다. CLT는 모델의 활성화를 드물고 해석 가능한 특징으로 분해하고, 특징 간의 상호 작용의 인과 그래프를 구성하여 모델이 어떻게 출력을 생성하는지 보여줍니다. 이 방법은 다양한 프롬프트(예: 약어 생성, 사실 회상, 간단한 덧셈 등)에 대한 모델의 응답을 성공적으로 설명하며, 섭동 실험을 통해 검증되었습니다. 주의 메커니즘을 완전히 설명할 수 없다는 등의 한계는 있지만, 거대 언어 모델의 내부 작동 방식을 이해하는 데 귀중한 도구를 제공합니다.