MDP

※ 본 게시물은 Pytorch 기초 강의 9. DQN 포스팅의 이해를 위해 작성한 부가 포스팅입니다. 강화학습(Reinforcement Learning) 강화학습 : 보상(reward), 처벌(penalty)를 미리 설계하고 스스로 환경을 경험하며 학습(from.포스팅) = 환경과 상호작용하여 좋은 점수를 얻는 방향으로 성장 = 사람은 목표를 설정해주고 당근과 채찍을 이용해 성장시키는 코치의 역할 강화학습의 구성요소 1. 에이전트(agent) : 인공지능 플레이어 2. 환경(environment) : 에이전트가 솔루션을 찾기 위한 무대 3. 행동(action) : 에이전트가 환경 안에서 시행하는 상호작용 4. 보상(reward) : 에이전트의 행동에 따른 점수 혹은 결과 강화학습의 사례 - 알파고 - 로..
Js.Y
'MDP' 태그의 글 목록