강화학습: AlphaGo에서 AlphaGo Zero까지

2025-03-26

본 글에서는 강화학습(RL)의 기본 개념과 고전적인 알고리즘을 쉽게 설명합니다. AlphaGo가 인간 바둑 챔피언을 이긴 이야기로 시작하여 RL의 핵심 아이디어, 즉 에이전트가 환경과 상호 작용하여 누적 보상을 극대화하는 전략을 학습한다는 개념을 설명합니다. MDP, 벨만 방정식, 동적 계획법, 몬테카를로 방법, TD 학습(SARSA, Q러닝, DQN), 정책 경사 방법(REINFORCE, Actor-Critic, A3C), 진화 전략 등의 핵심 내용을 자세히 설명하고, AlphaGo Zero를 예로 들어 RL의 실제적인 응용 사례를 보여줍니다.