ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 지도학습과 비지도학습이란? (Feat. 회귀, 분류)
    Machine Learning (ML) 2022. 4. 28. 01:40

     

    개요

    여기 코끼리 사진이 있다.

    이 사진을 보고 코끼리 라고 인지한 것은 내 도메인 지식으로 사진을 판단한것이라고 볼 수 있다.

    이는 색깔이 회색이고, 코가 길고, 긴 상아를 갖고있는 등의 특징을 인지하여

    우리가 그동안 알게 모르게 학습된 코끼리의 모습이라고 결정지을수 있는 요인일것같다.

     

    그렇다면, 위 예시를 머신러닝으로 빗대어 보았을때

    기계는 어떻게 학습을하고 그 결과로 사람의 결과와 비슷하게 맞출 수 있을까? 에 대해 글을 작성하려한다.

     

    지도학습

    • 정답을 알려주며 학습시키는것.
      • 즉, 문제와 정답이 주어진 상황에서 학습을 통해 예측 값을 도출 하는 것을 의미한다.

    예를들면 컴퓨터에게 이 사진은 코끼리다 라고 직접 학습시키는 방식이다.

    ex) 컴퓨터에게 사전에 고양이 사진을 학습 시켜 놓고,

    강아지 사진을 보여 주었을 때, 이를 고양이 인지 강아지 인지 정답을 맞춰낸다.

     

     

    문제 (X) → 독립 변수 → ,예측(Predictor)변수, 설명(Explanatory), Feature (열, 컬럼, 특성)

    정답 (y) → 종속 변수 → 반응(Response)변수, 타겟(Target), 레이블(Label)

     

     

    대문자 X 와 소문자 y 를 쓰는 이유 ?

    X 는 행렬의 형태이기 때문에 대문자로 표기하고

    y 는 1차원 array 형태이기 때문에 소문자로 표현한다

     

     

    지도학습은 크게 두가지로 나눌수 있는데,

    분류

    • 분류 모델은 범주형 데이터를 타겟 데이터로 갖고, 회귀와 반대로 연속성을 띄지 않는다.
      • 연속성을 지니는 연속값이 아닌 이산값을 가지고 있다. 
      • 클러스터링(Clustering)은 비 지도 학습(Unsupervised Learning)의 일종이다.

    이산값이란 ?

    0 과 1 로 처리할 수 있는 값으로써 연속적이 아닌 단속적인 값을 뜻한다.

     

     

     

    1. 이진분류

    어떤 데이터에 대해 0과 1로 분류하는 이진분류가 있다.

    ex) 이 사진은 코끼리인가? - True or False

     

    1. 다중분류

    이진 분류에서 답의 개수만 증가한 형태를 말한다.

    다중분류는 3가지 이상의 결과로 분류할 수 있다.

     

    ex) 키와 몸무게가 주어졌을때, 이 사람은 정상체중인지, 과체중인지, 체중미달인지 분류하는것을 말한다.

     

    회귀

    회귀는 '연속하는 숫자' 를 예측하는 방법이다.

    데이터셋이 주어졌을때 각 특성(Feature) 을 토대로 값을 예측하는것을 말한다.

    그 값은 보통 실수형 타입을 갖는다.

    ex) oo초등학교 o학년 a반의 학생들의 성적

    ex) Y 와 Y 의 원인이 되는 X 간의 관계를 예측하기 위한 방법

    ex) 아파트의 방 개수, 화장실 크기 등의 독립 변수에 따라서 아파트 가격인 종속 변수가 어떤 관계를 가지는지?

     

    즉, 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링 하는 기법을 말한다.

     

    회귀부분에서 대표 알고리즘으로 쓰이는 '선형회귀' 에 대해서는 다음 글에서 좀 더 자세히 알아보도록 하자.

    https://battlecoding.tistory.com/49

     

    선형 회귀 (Linear Regression) 모델이란?

    실제 데이터를 바탕으로 모델을 만들어 예측하는데 있어 가장 직관적이고 간단한 모델은 선 (line) 이다. 예측한 모델을 설명할 수 있는 선을 찾아 분석하는 방법을 선형회귀분석 이라고 한다. 예

    battlecoding.tistory.com

     

    비지도학습

    • 정답을 알려주지 않고, 비슷한 데이터들을 군집화 하는것.
      • 클리스터링 (Clustering)

    여러 동물들의 사진을 사전에 학습시켜 놓은 상태라고 가정 해 보자.

    이 사진들을 토대로 각각의 공통점을 찾아 분류를 짓는 과정을 갖는다.

    ex) 코끼리, 사자, 토끼, 사슴, 강아지, 고양이 등

     

    다리가 4개인 동물 - 코끼리, 사자, 사슴, 강아지, 고양이

     

    위 예제를 풀어보자면,

    정답이 무엇인지 알려주지 않은 상태이므로 컴퓨터는 이 동물이 무엇이라고 결론을 정의할 수는 없지만,

    비슷한 특성을 가진 그룹을 만들어 군집화 하여 그 값을 예측 할 수 있다.

    'Machine Learning (ML)' 카테고리의 다른 글

    선형 회귀 (Linear Regression) 모델이란?  (0) 2022.10.27
    Tabular Data 란?  (0) 2022.10.27
    알고리즘과 모델이란?  (0) 2022.10.27
    머신러닝을 사용하는 이유?  (0) 2022.10.26
    머신러닝이란?  (0) 2022.04.28

    댓글

Designed by Tistory.