이번 글에서는 머신러닝을 처음 접하는 분을 대상으로, 기본 용어와 개념 몇 가지를 정리해 보려고 합니다.
목차
1. 머신러닝이란
2. 지도 학습
3. 비지도 학습
작성하면서 참고한 자료
Machine Learning, Andrew Ng
https://www.coursera.org/learn/machine-learning
머신러닝이란
머신러닝(machine learning)의 정의에 대해 알아봅시다.
[머신러닝은] 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야이다.
- Arthur Samuel, 1959
어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E에 의해 성능이 향상되었다면, 이 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다.
- Tom Mitchell, 1997
두 번째 정의에서, 바둑을 두는 컴퓨터 프로그램을 생각해 보면,
E는 수많은 바둑 경기의 경험
T는 바둑을 두는 작업
P는 프로그램이 다음 경기에서 이길 확률
과 같이 예시를 들어볼 수 있겠습니다.
지도 학습
대부분의 머신 러닝 시스템은 크게 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나눌 수 있습니다. 이 중 지도 학습은 데이터에 원하는 답이 포함되어 있어서, 입력 데이터와 출력 사이에 어떠한 관계가 있을 것임을 이미 알고 있는 경우입니다. 예를 들어 집값을 예측하는 문제에서는 학습할 데이터마다 대응하는 '집값'이 포함되어 있고, 스팸 메일을 필터링하는 문제에서는 학습할 데이터마다 대응하는 '스팸 여부'가 포함되어 있을 것입니다.
지도 학습 문제들은 크게 회귀(regression)와 분류(classification) 문제로 나뉩니다. 회귀 문제에서 원하는 답은 연속된 값입니다. 즉 입력 변수들을 연속함수에 매핑하고자 하는 문제입니다. 분류 문제에서는 원하는 답이 불연속한 값입니다. 즉 입력 변수들을 불연속한 카테고리에 매핑하고자 합니다. 예를 들어 집값을 예측하는 문제는 집값이 연속한 수치 값이므로 회귀이고, 스팸 메일을 필터링하는 문제는 스팸이다, 아니다로 불연속한 카테고리가 생기므로 분류입니다.
비지도 학습
비지도 학습은 데이터에 원하는 답이 포함되어 있지 않아서, 변수들의 영향이나 결과의 형태를 모르는 상황에서 데이터로부터 어떠한 구조를 만들어낼 수 있게 해 줍니다. 이러한 구조를 만들어내는 방식은 보통 군집(clustering)이라고 부르는 방식으로, 데이터 내 변수들 간의 관계로부터 데이터를 군집화합니다.
다만 모든 비지도 학습이 군집을 기반으로 하는 것은 아닙니다. 또, 비지도 학습은 예측 결과에 대한 피드백이 주어지지 않습니다.
다음 글에서는 지도 학습 중 회귀 문제를 푸는 방법인 선형 회귀(linear regression)에 대해 알아보도록 하겠습니다.
'Data Science > Machine Learning' 카테고리의 다른 글
단순 선형 회귀 (0) | 2022.03.27 |
---|