📚[5] Loss functions

Study node

2024-02-01 스터디

앞선 3개의 챕터에서는 linear regression, shallow network 그리고 deep network에 대해 공부했다. 각 챕터에서 input과 output을 맵핑하는 family of functions를 살펴보았고, 각 family of functions는 파라미터 $\phi$ 에 의해 결정된다. 이러한 모델들을 학습하는 것은 우리가 풀고자 하는 문제에 대하여 가능한 최선의 “input → output”을 맵핑하는 파라미터 $\phi$를 찾는 것이다. 본 챕터에서는 “best possible” 맵핑이 의미하는 것이 무엇인지를 정의한다.

이러한 정의는 input/output pair가 있는 훈련데이터, $\{ \bold{x_i, y_i} \}$ 가 필요하다. loss function 혹은 cost function, $L[\phi]$는 학습시키는 모델의 prediction, $\bold{f[x_i, \phi]}$와 이에 대응하는 ground-truth, $\bold{y_i}$ 가 얼마나 서로 “다른지”에 대한 값을 return한다. 학습 중에는, 학습 데이터의 input과 output의 맵핑을 가능한한 loss가 최소가 되도록하는 파라미터 $\phi$를 찾는다. 챕터2에서 MSE Loss를 보았는데 이게 왜 적절한 함수였는지를 살펴본다.

본 챕터는 $\R$(실수)를 갖는 출력에 대하여 왜 MSE를 사용했는지에 대해 설명하고 다른 타입의 prediction에 대한 loss function을 설계하는 방법을 제공하는 framework을 제공한다.

Take Home

모델이 입력, $\bold{x}$를 받아서 출력, $\bold{y}$를 직접 계산하는 관점에서 출력에 대한 “확률 분포”를 예측하는 관점으로 옮긴다. 정리 하자면, 출력 space에서 정의된 확률 분포, $Pr(\bold{y|\theta})$ 의 파라미터, $\theta$를 예측하는 모델, $\theta = f[\bold{x, \phi}]$ 를 설계한다.
확률 분포의 관점에서 출력을 해석하기 때문에 자연스럽게 모델을 학습하는 것은 likelihood 를 최대화하는 방향으로 생각할 수 있다. 하지만 편의상, loss를 minimize 하는 것이 일반적이기 때문에 $-1$을 곱하여 negative log-likelihood 를 최소화하여 모델을 학습한다.

이는 loss를 최소화 한다는 점에서 언어적으로 conventional 할 뿐만 아니라 precision이 제한되는 컴퓨터에서 계산상 정확도에서 이점이 있다.
이러한 흐름에서 자연스럽게 MSE Loss가 negative log-likelihood criterion의 일종이라는 것을 유도하였고, 여기에는 variance가 동일하다는 가정이 있다는 것을 수학적으로 보인다. variance 가 상수인 모델을 homoscedastic 하다고 하며, variance가 입력에 따라 다른 모델을 heteroscedastic 하다고 한다.
다양한 출력, 다양한 tasks 에 대하여 loss function을 설계하는 framework을 공부한다.
1. output space에 적절한 probability distribution을 선택한다.
2. probability distribution의 파라미터, $\theta$ 중 어떤 값을 예측할지 설정하고, 이를 예측하는 모델, $\bold{f}[\bold{x}, \phi]$ 를 설계한다.
3. Negative log-likelihood를 적용한다.
4. 출력은 maximum을 return 할 수도, 확률 분포 자체를 return 할 수도 있다.
마지막으로 Cross-Entropy Loss와 Negative log-likelihood criterion이 본질적으로 equivalence 하다는 것을 수학적 보인다.

5.1 Maximum Likelihood

5.1에서는 loss function을 설계하기 위한 기초 단계를 공부한다. 모델 $\bold{f[x, \phi]}$ 를 생각해보자. 지금까지는 input $\bold{x}$에 대하여 prediction, $\bold{y}$를 “직접” 계산하였다. 지금부터는 우리의 관점을 옮겨 모델을 input $\bold{x}$ 가 주어졌을 때 가능한 출력 $\bold{y}$에 대한 conditional probability, $Pr(\bold{y_i}|\bold{x_i})$ 를 계산하는 것으로 본다.

5.1.1 Computing a distribution over outputs

이러한 관점은 “도대체 어떻게 모델이 확률 분포를 계산하는데?” 라는 질문을 낳는데 대답은 간단하다.,

parametric distribution, $Pr(\bold{y|\theta})$ 를 선택한다.
그리고 우리의 “모델”이 저 $\theta$를 예측하도록 한다.

예를 들어, 우리의 prediction 하고자 하는 출력의 domain이 실수라고 해보자 ($y \in \R$). 여기서 우리는 univariate normal distribution (고등학생 때 배우는 일변수 가우시안 분포) 을 선택할 수 있다 (step 1). 이러한 분포는 $\mathcal{N}(\mu, \sigma^2)$ 와 같이 나타내어진다. 모델은 이러한 mean, $\mu$와 variance, $\sigma$만을 예측하면 된다 (step 2).

Take Home

5.1 Maximum Likelihood

5.1.1 Computing a distribution over outputs

5.1.2 Maximum Likelihood Criterion