-
지도학습과 비지도학습이란? (Feat. 회귀, 분류)Machine Learning (ML) 2022. 4. 28. 01:40
개요
여기 코끼리 사진이 있다.
이 사진을 보고 코끼리 라고 인지한 것은 내 도메인 지식으로 사진을 판단한것이라고 볼 수 있다.
이는 색깔이 회색이고, 코가 길고, 긴 상아를 갖고있는 등의 특징을 인지하여
우리가 그동안 알게 모르게 학습된 코끼리의 모습이라고 결정지을수 있는 요인일것같다.
그렇다면, 위 예시를 머신러닝으로 빗대어 보았을때
기계는 어떻게 학습을하고 그 결과로 사람의 결과와 비슷하게 맞출 수 있을까? 에 대해 글을 작성하려한다.
지도학습
- 정답을 알려주며 학습시키는것.
- 즉, 문제와 정답이 주어진 상황에서 학습을 통해 예측 값을 도출 하는 것을 의미한다.
예를들면 컴퓨터에게 이 사진은 코끼리다 라고 직접 학습시키는 방식이다.
ex) 컴퓨터에게 사전에 고양이 사진을 학습 시켜 놓고,
강아지 사진을 보여 주었을 때, 이를 고양이 인지 강아지 인지 정답을 맞춰낸다.
문제 (X) → 독립 변수 → ,예측(Predictor)변수, 설명(Explanatory), Feature (열, 컬럼, 특성)
정답 (y) → 종속 변수 → 반응(Response)변수, 타겟(Target), 레이블(Label)
대문자 X 와 소문자 y 를 쓰는 이유 ?
X 는 행렬의 형태이기 때문에 대문자로 표기하고
y 는 1차원 array 형태이기 때문에 소문자로 표현한다
지도학습은 크게 두가지로 나눌수 있는데,
분류
- 분류 모델은 범주형 데이터를 타겟 데이터로 갖고, 회귀와 반대로 연속성을 띄지 않는다.
- 연속성을 지니는 연속값이 아닌 이산값을 가지고 있다.
- 클러스터링(Clustering)은 비 지도 학습(Unsupervised Learning)의 일종이다.
이산값이란 ?
0 과 1 로 처리할 수 있는 값으로써 연속적이 아닌 단속적인 값을 뜻한다.
- 이진분류
어떤 데이터에 대해 0과 1로 분류하는 이진분류가 있다.
ex) 이 사진은 코끼리인가? - True or False
- 다중분류
이진 분류에서 답의 개수만 증가한 형태를 말한다.
다중분류는 3가지 이상의 결과로 분류할 수 있다.
ex) 키와 몸무게가 주어졌을때, 이 사람은 정상체중인지, 과체중인지, 체중미달인지 분류하는것을 말한다.
회귀
회귀는 '연속하는 숫자' 를 예측하는 방법이다.
데이터셋이 주어졌을때 각 특성(Feature) 을 토대로 값을 예측하는것을 말한다.
그 값은 보통 실수형 타입을 갖는다.
ex) oo초등학교 o학년 a반의 학생들의 성적
ex) Y 와 Y 의 원인이 되는 X 간의 관계를 예측하기 위한 방법
ex) 아파트의 방 개수, 화장실 크기 등의 독립 변수에 따라서 아파트 가격인 종속 변수가 어떤 관계를 가지는지?
즉, 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링 하는 기법을 말한다.
회귀부분에서 대표 알고리즘으로 쓰이는 '선형회귀' 에 대해서는 다음 글에서 좀 더 자세히 알아보도록 하자.
https://battlecoding.tistory.com/49
선형 회귀 (Linear Regression) 모델이란?
실제 데이터를 바탕으로 모델을 만들어 예측하는데 있어 가장 직관적이고 간단한 모델은 선 (line) 이다. 예측한 모델을 설명할 수 있는 선을 찾아 분석하는 방법을 선형회귀분석 이라고 한다. 예
battlecoding.tistory.com
비지도학습
- 정답을 알려주지 않고, 비슷한 데이터들을 군집화 하는것.
- 클리스터링 (Clustering)
여러 동물들의 사진을 사전에 학습시켜 놓은 상태라고 가정 해 보자.
이 사진들을 토대로 각각의 공통점을 찾아 분류를 짓는 과정을 갖는다.
ex) 코끼리, 사자, 토끼, 사슴, 강아지, 고양이 등
다리가 4개인 동물 - 코끼리, 사자, 사슴, 강아지, 고양이
위 예제를 풀어보자면,
정답이 무엇인지 알려주지 않은 상태이므로 컴퓨터는 이 동물이 무엇이라고 결론을 정의할 수는 없지만,
비슷한 특성을 가진 그룹을 만들어 군집화 하여 그 값을 예측 할 수 있다.
'Machine Learning (ML)' 카테고리의 다른 글
선형 회귀 (Linear Regression) 모델이란? (0) 2022.10.27 Tabular Data 란? (0) 2022.10.27 알고리즘과 모델이란? (0) 2022.10.27 머신러닝을 사용하는 이유? (0) 2022.10.26 머신러닝이란? (0) 2022.04.28 - 정답을 알려주며 학습시키는것.