관리 메뉴

개발이야기

[Machine Learning 이론] 머신러닝 개론 2 본문

Machine Learning /Machine Learning 이론

[Machine Learning 이론] 머신러닝 개론 2

안성주지몬 2018. 12. 24. 00:00

이번에는 머신러닝의 종류에 대해서 알아보자.
머신러닝은 학습방법에 따라 3가지 종류로 분류된다. 
사람이 입력과 출력을 모두 제공하는 지도학습, 입력만 제공하는 비지도학습, 어떤 환경에서 특정 목표를 달성하기 위해 스스로 학습하는 강화학습이다. 현시점에서 활용빈도로 보면 지도학습이 가장 많고, 그 다음이 비지도학습, 마지막은 강화학습이라고 할 수 있다.

지도학습
지도학습은 가장 많이 활용되는 머신러닝의 종류로 스팸메일 필터링, OCR 문자 인식 등이 이에 해당한다.
지도학습은 머신러닝에 입력과 출력을 모두 제공해 학습하게 하는 것으로, 일종의 최적화 문제로 생각할 수 있다.

비지도학습
비지도학습은 입력 데이터의 구조를 파악하거나 관계를 분석하는 방법이라고 할 수 있다. 비지도학습은 '지식 발견'이라고도 하는데, 이는 학습결과로 생각하지 못한 지식을 발견하거나 입력 데이터 간의 그룹 또는 특성 등을 발견할 수 있어서이다.

회귀 = Regression
회귀는 연속적인 숫자 변수들 간의 상관관계를 파악하는 것이다. 특히 종속변수와 독립변수 사이의 연관성을 분석하는 것을 목적으로 한다.  주어진 변수 간의 상관관계를 파악하는 것이 회귀다. 

분류
분류는 말그대로 데이터를 나누는 것이다. ex) 붓꽃을 종류별로 분류하기 

군집화 
군집화는 데이터를 유사한 특성을 가진 무리로 묶는 것을 의미하낟. 군집화는 비지도학습에서 사용하는 것으로 출력 데이터 없이 입력 데이터만으로 이뤄지며, 일반적으로 데이터의 특성을 파악하거나 이해하기 위해 많이 적용된다.

회귀 : 선형회귀, 서포트 벡터 회귀, 랜덤 포레스트 회귀, 베이지안 회귀
분류 : 로지스틱 회귀, 서포트 벡터 머신, 렌덤 포레스트, 의사결정 트리
군집화 : K- 평균, 가우시안 혼합

머신러닝 프로세스
머신러닝을 적용하는 프로세스는 머신러닝에서 데이터 다음으로 중요하다. 일반적으로 머신러닝을 적용해 원하는 결과를 얻는 데는 많은 시간과 노력이 많다.
1. 첫번째 전치리 : 머신러닝 학습에 사용될 데이터인 학습용 데이터셋을 준비하는 과정이다
- 학습용 데이터셋 (Training Dataset) : 학습에 사용할 데이터를 만드는 과정,
2. 두번째 전처리 : 학습용 데이터셋에 포함된 변수 중에 어떤 것을 학습에 사용할지를 결정하는 데, 이 과정을 Feature Selection이라고 한다. 학습에 지대한 영향을 미치는 중요한 과정이다.
- 머신러닝 알고리즘 학습 : 선택한 머신러닝 알고리즘과 준비된 학습용 데이터셋을 이용해 학습해보는 과정으로 프로그램을 통해 진행되며 사람의 개입은 거의 없다.
- 파라미터 최적화 : 선택한 머신러닝 알고리즘에는 적용 가능한 파라미터 값들을 조정해 결과물의 품질을 높이는 과정이다.
- 후처리 : 학습결과의 품질평가가 주된 목적, 대부분의 머신러닝에 한 가지 알고리즘이나 모델만을 적용하지 않으므로 다수의 모델과 알고리즘 중 어떤 것이 가장 좋은 결과를 가져오는지, 각 알고리즘이 주어진 문제에 어떻게 반응하는지를 평가한다.
- 최종모델 : 최종으로 완성된 모델을 이용해 학습용 데이터셋이 아닌 실제 데이터에 적용한다.

"No Free Lunch Theorem"
'공짜 점심은 없다'는 의미의 'No Free Lunch Theorem", 머신러닝은 마법이 아닙니다. 학습용 데이터셋에서 종속변수와 독립변수의 관계를 분석하고 이를 기반으로 모델을 만드는 것이므로 철저하게 학습용 데이터셋에서 종속됩니다. 따라서 언제나 그렇듯이 해결하려는 문제를 잘 정의하고, 연관된 데이터를 잘 정제하고, 머신러닝을 적용해 최적화해야합니다.


*위 내용들은 모두 '머신러닝을 이용한 알고리즘 트레이딩 시스템 개발(안명호, 류명호 지음, 한빛미디어 출판)' 을 공부하며 정리하는 내용들입니다.   

Comments