오픈소스 도구, 거대 언어 모델의 내부 작동 방식 공개
2025-05-29

Anthropic이 거대 언어 모델의 '사고 과정'을 추적하는 새로운 오픈소스 도구를 공개했습니다. 이 도구는 속성 그래프를 생성하여 모델이 결정에 도달하는 내부 단계를 시각화합니다. 사용자는 Neuronpedia 플랫폼에서 이러한 그래프를 대화형으로 탐색하고 다단계 추론 및 다국어 표현과 같은 동작을 연구할 수 있습니다. 이번 공개는 거대 언어 모델의 해석 가능성에 대한 연구를 가속화하고 AI 기능의 발전과 내부 메커니즘에 대한 이해의 차이를 메우는 것을 목표로 합니다.
AI