에이전트(학습 대상자)가 환경으로부터 스테이트(정보)를 받아 올바른 행동을 했을경우 보상을 받고 에이전트는 보상을 최대화 하는 방식으로 행동하는것
인공신경망
최상의 보상을 받는 학습된 에이전트를 만들기 위해 강화학습 알고리즘을 인공신경망과 결합한다 이후 꾸준히 반복 학습으로 인해 에이전트는 학습이 진행될때마다 발전된다.
철권을 강화학습으로 적용시킬려고 합니다!
근데 생각보다 이론은 잘쓰이고 있네요
상대가 초풍을 썻을 때 에이전트는 어떤 행동이 좋은지 데이터 라벨들로 명확하게 정의가 가능해서 강화학습으로 학습시키는것도 가능해 보입니다
초풍을 썻을때 앉거나, 백대쉬로 피하거나, 횡으로 피하거나, 초풍보다 빠른 기술을 쓰거나 등 좋은 선택의 여지들을 컴퓨터가 알아듣기 쉽게 정의가 가능하고 에이전트가 상대방의 체력을 깍으면 공격 보상을 받고 공격을 당하면 체력 보상이 떨어지고
치트엔진으로 실시간으로 상대방이 무슨 기술 쓰는지 그 기술이 어떤 속성을 가지고 있는지 다 정의가 됩니다
이제 위치값이랑 맵크기만 구하면 됩니다!