딥러닝 학습전략

2023. 3. 29. 14:12_Study/AI

728x90

#0329

 

Vanisihing gradient problem과 해결책

 

ReLU 함수를 사용하여 해결

- gradient가 0에 가까워지면 (미분하다보면 0에 가까우면) weight가 안바뀌는 문제 발생

 

loss function : 손실함수

 

과잉 적합과 과잉 적합 회피 전략

- 너무 작은 차수(1차 다항식)를 사용하면? -> underfitting:과소 적합 (데이터에 비해 모델 용량이 작은 상황)

- 모든 점을 고려하면 training set에는 완벽할 수 있으나 모르는 샘플에 대해 극단적인 현상 발생

 

과잉 적합 회피 전략

- 데이터 양을 늘림

- 데이터의 양을 늘릴 수 없는 상황에서는 훈련 샘플을 변형하여 인위적으로 늘리는 데이터 증대(data augmetation) 사용

 

 

 

딥러닝이 사용하는 손실함수

- 시험 점수의 역할

: 점수가 낮은 학생에게 패널티를 주어 동기부여

: 그러나 점수가 낮거나 높거나 비슷한 벌점을 받으면 공정성이 깨지고 공부 의욕을 꺾음

 

이는 신경망 학습도와 비슷하다.

신경망 가중치 : 학생, 손실 함수: 시험 점수

 

 

MSE(평균제곱오차)

문제점

- 교정에 사용하는 값, 즉 gradient가 벌점

- 오차 e가 더 큰데 gradient가 더 작은 상황이 발생하면

- 학습이 느려지거나 학습이 안되는 상황을 초래할 가능성 발생

 

 

교차 엔트로피

엔트로피 entropy

: 확률 분포의 무작위성(불확실성)을 측정하는 함수

 

교차 엔트로피 cross entropy

두 확률 분포 P와 Q가 다른 정도를 측정하는 함수

 

 

 

 

 

모멘텀을 이용한 gradient 감소

 

 

 

참고 : 파이썬으로 만드는 인공지능

seed값을 고정하여 비교

error 가 날 경우 삭제, or CPU로