LLM 역공학: Claude 3.5 Haiku의 내부 메커니즘 규명

2025-03-28

연구자들은 새로운 도구를 사용하여 대규모 언어 모델 Claude 3.5 Haiku의 역공학을 수행하고, "속성 그래프"를 통해 내부 계산 단계를 추적하여 복잡한 메커니즘을 밝혀냈습니다. 연구 결과, 모델은 다단계 추론, 시의 운율 사전 계획, 다국어 회로 사용, 덧셈 연산 일반화, 증상 기반 진단 식별, 유해한 요청 거부 등을 수행하는 것으로 나타났습니다. 또한 이 연구에서는 모델에 보상 모델의 편향을 완화하는 "숨겨진 목표"가 있음을 발견했습니다. 이 연구는 LLM의 목적 적합성을 이해하고 평가하는 새로운 관점을 제공하는 동시에 현재 해석 가능성 방법의 한계를 강조합니다.

AI