인텔 AI 교육

인텔 AI 교육 - Module-16(강화 학습)

Regain 2023. 7. 28. 13:40

(해당 자료들은 인텔 AI for Future Workforce내용을 학습하고 가공한 내용입니다.)

 

< Module - 16 >

#강화 학습

1. 정의

2. 관련 용어

  (1) 상태(State)

    위치나 속도 등 에이전트가 필요한 구체적 정보

  (2) 에이전트(Agent)

    주인공이자 학습하는 대상, 또는 환경속에서 행동하는 개체

  (3) 동작(Action)

    에이전트가 실제 행동한 내용

  (4) 보상(Reward)

    에이전트가 행동을 했을 때 받게되는 보상으로 행동을 유발한다.

  (5) 처벌(Punishment)

    보상과 반대로 하지 말아야할 행동을 하지 않게끔 유도한다.

 

2. 강화 학습 예제

  쥐가 미로를 통과해 치즈를 찾는 과정을 강화 학습 예제로 사용하였다.

  • 쥐는 치즈로 가는 길을 선택해야 한다.
  • 쥐는 잘못된 길들을 기억해서 다시 그곳에 들어가지 않도록 해야 한다.

  위의 용어들을 앞의 상황에 대입해 보았다.

(1) 상태(State)

    미로에서 쥐의 현재 위치를 나타낸다.

  (2) 에이전트(Agent)

    쥐

  (3) 동작(Action)

    치즈를 향해 올바른 경로로 움직인다.

  (4) 보상(Reward)

    치즈

  (5) 처벌(Punishment)

    쥐가 치즈를 얻지 못한다.

 

 

#Q-러닝

  강화학습에서 탐욕스러운 형태라고 할 수 있다. 행동들을 비교하여 어떤 행동이 도움이 되지 않는지, 또는 보상이 극대화되는지 'Q-table'에 기록한다. 쥐의 상황에서 Q-러닝을 대입한다면 가장 짧은 시간에 치즈를 얻는 결과를 말한다.

 

 

 

참고 자료

https://namu.wiki/w/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5/%EC%9A%A9%EC%96%B4?rev=56