지도 학습 개념? 머신러닝의 대표적 학습 방법 중 1개

지도 학습 개념에 대해서 이야기해봅시다.

Table of Contents

지도 학습 개념에 대해 알기

지도 학습(Supervised Learning)은 머신러닝(Machine Learning) 알고리즘(Algorithm)에서 가장 일반적으로 사용되고 있는 학습 기법 중 하나입니다.

지도 학습(Supervised Learning) 방법은 사람이 컴퓨터에게 정답을 가르쳐주는 과정이 필요한 방법입니다. 인공지능(AI)이나 컴퓨터에게 문제와 정답이 모두 포함되어 있는 데이터를 학습 시켜서 컴퓨터가 원리를 이해할 수 있도록 하고 이를 통해 더 복잡하고 어려운 문제를 풀 수 있도록 하는 방법입니다.

머신러닝에서 정답에 해당하는 부분을 레이블(Label)이라고 합니다.

자도 학습에서는 문제와 정답을 포함한 데이터를 가지고 모든 학습이 완료되면 이후에는 컴퓨터가 원리를 이해한 상태에서 더 복잡하고 어려운 계산을 할 수 있게 됩니다.

지도 학습은 레이블의 형식에 따라서 2가지로 분류됩니다. 지도 학습의 2가지 분류는 분류(Classification)와 회귀(Regression) 입니다. 분류는 데이터의 군집화를 통해서 데이터가 속하는 군집을 찾고 분류합니다. 회귀는 수치나 통계학적 방법으로 예측 결과 값이 연속적인 값을 가질 때 사용할 수 있는 방법입니다.

지도 학습은 과거에 대한 학습을 통해서 미래의 데이터를 추측하거나 예측하는 기법입니다.

지도 학습 개념에 대한 설명

지도 학습(Supervised Learning)은 머신러닝(Machine Learning)의 학습 방법 중 가장 대표적인 학습 방법 중 하나로 레이블(Label)에 존재하는 데이터를 사용하여 모델을 학습시키는 기법을 의미합니다.

지도 학습(Supervised Learning)에서는 인공지능이나 컴퓨터에게 문제와 정답 데이터를 먼저 알려주고 학습시키는 과정이 반드시 필요한 학습 방법입니다.

머신러닝의 지도 학습에서 정답에 해당하는 부분을 레이블(Label)이라고 부릅니다.

지도 학습 개념은 머신러닝의 한 방법이며 데이터와 이에 해당하는 레이블(Label)을 사용하여 모델을 학습하는 방법입니다. 지도학습은 입력 데이터와 레이블의 관계를 학습하여 모델을 만들고 실제 데이터가 입력되었을 때 레이블을 출력할 수 있는 함수를 학습 시키는 것을 주 목적으로 합니다.

지도 학습을 통해서 새로운 데이터가 모델에 입력되었을 때도 함수를 통해 출력되는 결과값이 보다 정확해지고 보다 잘 예측할 수 있도록 수행하는 방법입니다.

지도 학습은 레이블의 형식에 따라서 분류(Classification)와 회귀(Regression) 2가지로 분류할 수 있습니다.

[지도 학습의 분류]

구분	내용
1	분류 (Classification)
2	회귀 (Regression)

지도 학습의 분류(Classification)에 대해서 이야기해봅시다.

분류의 방법에서는 문제와 정답을 학습한 인공지능이 데이터의 군집화를 통해 데이터가 속해 있는 군집을 찾고 분류 문제를 해결할 수 있도록 해줍니다. 분류에서는 예측하고자 하는 목표 값이 범주형 변수인 경우에 사용합니다. 예측 결과가 연속적인 값이 아니라 이산 값을 가지고 있는 형태입니다. 연속적이 아니라 단속적인 값인 것입니다. 이산 값이기 때문에 분류의 방법이 될 수 있는 것입니다.

정답 데이터인 레이블이 이진 데이터이거나 범주형 데이터인 경우에도 지도학습은 주어진 데이터가 어떤 범주에 속하는지 분류하는 문제를 학습할 수 있습니다. 예를 들어 자기공명영상인 MRI에서 결과 이미지를 인공지능이 보고 판단하여 특정 질병의 존재를 예측하거나 텍스트로 된 문장이 들어왔을 때 문장의 긍정과 부정을 예측하는 분류 문제에 활용하는 것이 대표적인 예가 될 수 있습니다.

지도 학습의 회귀(Regression)에 대해서 이야기해봅시다.

회귀의 방법은 수치나 통계학적 방법으로 답을 도출하는 방법입니다. 회귀 방법은 어떤 데이터들의 특징을 바탕으로 값을 예측하게 됩니다. 회귀의 방법에서는 종속 변수가 수치형이 됩니다. 회귀의 방법에서는 예측에 대한 결과 값이 연속성이 있는 경우 사용합니다.

정답 데이터인 레이블 데이터가 연속적인 값인 경우에도 지도학습은 회귀 문제를 풀 수 있게 됩니다. 대표적인 예는 주식 가격의 변동이나 재무 정보를 통해 이후 주식 가격을 예측하거나 상품의 판매량 정보를 통해 이후 판매량을 예측하는 회귀 문제가 있습니다.

지도 학습은 사람이 일정 나이가 되면 초등학교에 입학해서 교육 받는 과정이 시작되고 이후 중학교를 거쳐 고등학교, 대학교를 통해 정규 교육 과정을 받는 것처럼 컴퓨터도 마찬가지로 사람이 컴퓨터에게 문제와 정답이 있는 데이터를 이용하여 학습 과정을 거쳐서 인공지능의 성능을 성장 시키는 원리입니다.

컴퓨터가 구구단을 알려주는 과정을 거칠 때 ” 5 × 5 = 25 ” 와 같이 문제와 정답이 있는 데이터를 학습 시키는 과정을 통해서 구구단의 1단부터 9단까지 학습을 완료하게 되며 학습이 완료되면 컴퓨터는 구구단의 원리를 이해하고 “781,351 × 158,683 = 12,432,971,733” 과 같은 복잡한 계산을 할 수 있게 되는 것입니다.

지도 학습 알고리즘에서는 데이터와 레이블의 관계를 모델로 만드는 것을 목표로 합니다.

분류(Classification) 알고리즘의 대표적인 예로는 출력 값의 범위를 0과 1 사이로 제한하여 0과 1 사이의 결과 값을 도출하는 로지스틱 회귀 알고리즘(Logistic Regression Algorithm)이 대표적인 예입니다.

회귀(Regression) 알고리즘의 대표적인 예로는 수치형 데이터를 입력 데이터로 받아서 이를 종속 변수 값으로 출력 데이터로 결과를 도출하는 선형 회귀 알고리즘(Linear Regression Algorithm)이 대표적인 예시입니다.

지도 학습 알고리즘에 대한 평가는 입력된 데이터에 대해서 모델의 예측 값이 얼마나 실제 레이블과 가까운지를 측정하여 성능을 평가하게 됩니다. 일반적으로 머신러닝을 진행할 때 데이터를 훈련 데이터와 검증 데이터로 나누고 모델의 성능을 평가할 때 학습에 사용되지 않은 검증 데이터를 사용하게 됩니다.

데이터는 독립변수와 종속 변수로 구성되어야 하며 충분히 많은 데이터가 수집 되어야 하고 이를 지도 학습 방식으로 훈련 시키면 머신러닝 모델을 만들 수 있게 됩니다. 컴퓨터에게 독립 변수와 종속 변수의 관계를 학습하도록 하면 컴퓨터는 사람이 계산할 수 없는 관계를 설명할 수 있는 공식을 만들어 낼 수 있습니다.

지도 학습은 원인에 대한 결과를 학습하는 과정으로도 볼 수 있습니다. 과거에 대한 학습을 통해서 새로운 값이 들어오면 결과값이 어떻게 될 지를 예측할 수 있도록 해주는 것입니다.