Study/Machine Learning

기계학습 정리

거북목개발자 2021. 12. 6. 20:24
728x90

오류가 있을수도 있으며 댓글로 남겨주시면 바로 수정하겠습니다 ^.^

 

참고한 문서는 <유튜브 - 모두의 딥러닝 시즌1> https://youtu.be/BS6O0zOGX4E 

대학교 강의시간에 배운 내용을 바탕으로 작성하였습니다.

 

학습(델타룰) : 정답과 출력을 비교하여 그 차이를 가중치 조정에 반영

 

Activation Function (활성 함수) : 값을 0과 1로 바꿔줌 (신경망의 출력을 결정)

1. linear function

    ex) y = Wx + b 

    W를 찾는 법 (cost function을 활용해 gradient descent 사용)

 

2. non-linear function 

  -> 비선형 함수를 사용하는 이유는 딥러닝 모델의 레이어 층을 깊게 가져갈 수 있기 때문

  1. sigmoid (0과 1사이의 값이 나옴)
  2. tanh
  3. ReLU

Cost Function (Loss Function) : 최적의 매개변수를 찾게 만드는 지표

-> Cost Function을 minimize하는 것이 목표

 

<손실 함수를 계산하는 방법>

  1. MSE(Mean Squared Error) -> Linear Hypothesis
  2. BCE(Binary Cross Entropy

손실함수 -> gradient descent -> 최저점 찾을 수 있다.


ANN(Artificial Nueral Network)

1969년 ANN is a linear function 

1) OR, AND만 풀 수 있음 -> XOR 못푼다 (첫번째 빙하기)

 

1986년 Multi-layer perceptron 

1) 중간층의 오차를 어떻게 전달 할 것인가 -> Back propagation algorithm-> XOR 문제 해결 (선을 구부릴수 있어짐)

2) 여러 층 쌓으면 오차가 전달이 안됨 -> Vanishing Gradient Problem (두번째 빙하기)

 

2009년 Deep Neural Network 

1) Sigmoid(Vanishing Gradient 문제 일으킴) -> New Activation Function (ReLU)

2) Drop out 등장 

 

Linear Problems

One Perceptron -> Binomial(이항식) Clssifier

 

Multinomial Classification :

    cost Function -> Cross Entropy(출력 분포와 정답분포의 유사도 계산)

 

softmax :

softmax값 one-hot으로 표현해주는 argmax(최대값)

 

Non-linear Problems

비선형 분리 문제 -> 선형 분리 분제

- SVM 커널 함수 (커널 -> 고차원 공간으로 사상 -> 같은 차원에서 다른 곳으로 옮김 (kerner trick사용) 

- Single-Layer Perceptron (선을 찾는 문제) -> Multi-layer Perceptron

 

 

728x90