기계학습 정리
오류가 있을수도 있으며 댓글로 남겨주시면 바로 수정하겠습니다 ^.^

참고한 문서는 <유튜브 - 모두의 딥러닝 시즌1> https://youtu.be/BS6O0zOGX4E 과
대학교 강의시간에 배운 내용을 바탕으로 작성하였습니다.
학습(델타룰) : 정답과 출력을 비교하여 그 차이를 가중치 조정에 반영
Activation Function (활성 함수) : 값을 0과 1로 바꿔줌 (신경망의 출력을 결정)
1. linear function
ex) y = Wx + b
W를 찾는 법 (cost function을 활용해 gradient descent 사용)
2. non-linear function
-> 비선형 함수를 사용하는 이유는 딥러닝 모델의 레이어 층을 깊게 가져갈 수 있기 때문
- sigmoid (0과 1사이의 값이 나옴)
- tanh
- ReLU
Cost Function (Loss Function) : 최적의 매개변수를 찾게 만드는 지표
-> Cost Function을 minimize하는 것이 목표
<손실 함수를 계산하는 방법>
- MSE(Mean Squared Error) -> Linear Hypothesis
- BCE(Binary Cross Entropy
손실함수 -> gradient descent -> 최저점 찾을 수 있다.
ANN(Artificial Nueral Network)
1969년 ANN is a linear function
1) OR, AND만 풀 수 있음 -> XOR 못푼다 (첫번째 빙하기)
1986년 Multi-layer perceptron
1) 중간층의 오차를 어떻게 전달 할 것인가 -> Back propagation algorithm-> XOR 문제 해결 (선을 구부릴수 있어짐)
2) 여러 층 쌓으면 오차가 전달이 안됨 -> Vanishing Gradient Problem (두번째 빙하기)
2009년 Deep Neural Network
1) Sigmoid(Vanishing Gradient 문제 일으킴) -> New Activation Function (ReLU)
2) Drop out 등장
Linear Problems
One Perceptron -> Binomial(이항식) Clssifier
Multinomial Classification :
cost Function -> Cross Entropy(출력 분포와 정답분포의 유사도 계산)
softmax :
softmax값 one-hot으로 표현해주는 argmax(최대값)
Non-linear Problems
비선형 분리 문제 -> 선형 분리 분제
- SVM 커널 함수 (커널 -> 고차원 공간으로 사상 -> 같은 차원에서 다른 곳으로 옮김 (kerner trick사용)
- Single-Layer Perceptron (선을 찾는 문제) -> Multi-layer Perceptron