인텔 AI 교육 - Module-16(강화 학습)
(해당 자료들은 인텔 AI for Future Workforce내용을 학습하고 가공한 내용입니다.)
< Module - 16 >
#강화 학습
1. 정의
2. 관련 용어
(1) 상태(State)
위치나 속도 등 에이전트가 필요한 구체적 정보
(2) 에이전트(Agent)
주인공이자 학습하는 대상, 또는 환경속에서 행동하는 개체
(3) 동작(Action)
에이전트가 실제 행동한 내용
(4) 보상(Reward)
에이전트가 행동을 했을 때 받게되는 보상으로 행동을 유발한다.
(5) 처벌(Punishment)
보상과 반대로 하지 말아야할 행동을 하지 않게끔 유도한다.
2. 강화 학습 예제
쥐가 미로를 통과해 치즈를 찾는 과정을 강화 학습 예제로 사용하였다.
- 쥐는 치즈로 가는 길을 선택해야 한다.
- 쥐는 잘못된 길들을 기억해서 다시 그곳에 들어가지 않도록 해야 한다.
위의 용어들을 앞의 상황에 대입해 보았다.
(1) 상태(State)
미로에서 쥐의 현재 위치를 나타낸다.
(2) 에이전트(Agent)
쥐
(3) 동작(Action)
치즈를 향해 올바른 경로로 움직인다.
(4) 보상(Reward)
치즈
(5) 처벌(Punishment)
쥐가 치즈를 얻지 못한다.
#Q-러닝
강화학습에서 탐욕스러운 형태라고 할 수 있다. 행동들을 비교하여 어떤 행동이 도움이 되지 않는지, 또는 보상이 극대화되는지 'Q-table'에 기록한다. 쥐의 상황에서 Q-러닝을 대입한다면 가장 짧은 시간에 치즈를 얻는 결과를 말한다.
참고 자료
https://namu.wiki/w/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5/%EC%9A%A9%EC%96%B4?rev=56