강화 학습 뜻? 보상을 통한 전략을 학습(머신러닝의 1종)

강화 학습 뜻과 개념 설명
강화 학습 뜻과 개념 설명

강화 학습 뜻과 개념에 대해서 이야기해봅시다.




강화 학습 뜻과 개념 알기

강화 학습 뜻(Reinforcement Learning)인공지능(AI) 모델이 행동에 따른 주변 환경과의 상호작용에서 받는 보상을 최대화 시키는 방법으로 전략을 찾고 행동을 학습하는 방식을 의미합니다.

강화 학습(Reinforcement Learning)은 행동에 따른 결과를 보상의 형태로 얻고 보상을 가장 많이 받을 수 있는 방식이 무엇인지를 스스로 학습하도록 하는 머신러닝(Machine Learning) 기법의 일종입니다.

강화학습은 정답 데이터인 레이블을 통해서 학습하는 지도 학습(Supervised Learning)과 다릅니다. 가장 대표적인 모델은 구글 딥마인드의 알파고(AlphaGo) 입니다.

강화 학습의 구성 요소로는 에이전트(Agent), 환경(Environment), 상태(State), 행동(Action), 보상(Reward), 가치(Value)가 있습니다.

강화 학습의 종류로는 모델 기반 알고리즘(Model-Based Algorithm)과 모델 자유 강화 학습(Model-Free Algorithm) 2가지 종류가 있습니다.




강화 학습 뜻과 개념 설명

강화 학습 뜻(Reinforcement Learning)은 에이전트(Agent)의 행동에 따른 보상을 통해서 전략을 학습하도록 하는 머신러닝(Machine Learning)의 한 종류를 의미합니다.

강화 학습(Reinforcement Learning)은 게임의 보상 원리를 활용합니다. 강화학습은 보상을 이용하여 인공지능이 상황을 해결해나가도록 하는 머신러닝 학습 방법입니다. 게임에서 많이 활용되는 기법입니다.

강화학습의 가장 대표적인 예는 구글(Google)의 바둑 인공지능인 알파고(AlphaGo)가 있습니다.

강화 학습에는 6가지 구성 요소가 있습니다. 강화 학습의 6가지 구성 요소는 에이전트(Agent), 환경(Environment), 상태(State), 행동(Action), 보상(Reward), 가치(Value)입니다.

[강화 학습의 6가지 구성 요소]

구분내용
1에이전트(Agent)
2환경(Environment)
3상태(State)
4행동(Action)
5보상(Reward)
6가치(Value)

강화학습은 미로 속의 쥐를 예시로 들 수 있습니다. 미로 곳곳에 치즈를 배치하고 미로 속에 쥐를 한 마리 풀어 놓는 것을 가정해볼 수 있습니다. 여기서 치즈는 보상(Reward)이고 쥐는 에이전트(Agent)이며 미로는 환경(Environment)입니다. 쥐는 후각으로 치즈를 찾아내며 미로를 빠져나올 수 있습니다.

쥐가 미로에서 헤매지 않도록 치즈를 활용하였고 치즈는 결국 쥐가 헤매지 않고 잘 찾았다는 것에 대한 보상이 될 수 있습니다. 중간 중간에 쥐가 취하는 행동들은 상태(State)로 표현될 수 있습니다. 그리고 쥐가 최종적으로 미로를 빠져 나온 결과는 가치(Value)가 됩니다.

강화 학습은 보상을 활용하여 상황을 해결해나가도록 합니다.

강화 학습은 2가지 종류가 있습니다. 강화 학습의 2가지 종류는 모델 기반 알고리즘(Model-Based Algorithm)과 모델 자유 강화 학습(Model-Free Algorithm)입니다.

[강화 학습의 2가지 종류]

구분내용
1모델 기반 알고리즘(Model-Based Algorithm)
2모델 자유 강화 학습(Model-Free Algorithm)

모델 기반 알고리즘(Model-Based Algorithm)은 에이전트(Agent)가 환경의 모든 구조를 알고 있어서 행동에 대한 장기적인 기대값인 가치(Value)를 최대화하는 방향으로 학습할 수 있는 알고리즘입니다.

모델 자유 강화 학습(Model-Free Algorithm)은 상태(State) 공간이 너무 크거나 환경(Environment)의 불확실성이 존재하여 환경의 구조를 알 수 없는 경우 에이전트의 현재 시점에서 기대값을 구할 수 없으므로 시행착오를 통해서 직접 행동을 수행하면서 가치를 계산하는 알고리즘입니다.

강화학습은 마치 문제를 풀었을 때 채점을 해주고 높은 점수를 얻은 답을 찾는 방식과 유사합니다. 문제를 잘 해결하는 행동에 대해서는 보상을 해줍니다. 강화 학습은 행동주의 심리학과도 연관되어 있습니다.

강화학습은 문제에 미리 답을 정해 놓지 않습니다. 지도 학습(Supervised Learning)의 경우 문제에 대한 답이 미리 마련되어 있지만 강화학습은 그렇지 않습니다. 그리고 인공지능의 문제 해결 방식에 대해서 피드백을 제공해야 합니다. 따라서 강화학습은 비지도학습(Unsupervised Learning)으로도 볼 수 없습니다.

강화 학습은 게임 분야에서 만이 활용될 수 있는데 현재 상태에서 인공지능이 어떤 행동을 하였을 때 결과가 나오고 나온 결과에 점수를 매기는 방식입니다. 반복적인 행동을 통해서 결과를 살펴 보는 것입니다. 단기 보상에 대한 활용과 장기 보상에 대한 탐색을 조절하면서 최종적으로 보상에 대한 기대값을 최대화할 수 있도록 하는 것이 강화 학습의 핵심 원리입니다.