Chapter 2μ—μ„œλŠ” 1D linear regression ν™œμš©ν•œ supervised learning 을 μ†Œκ°œν•œλ‹€. ν•˜μ§€λ§Œ μ΄λŸ¬ν•œ λͺ¨λΈμ€ μž…λ ₯/좜λ ₯의 관계λ₯Ό ν•˜λ‚˜μ˜ β€œline” 으둜만 ν‘œν˜„ν•œλ‹€. λ³Έ μ±•ν„°μ—μ„œλŠ” μ΄λŸ¬ν•œ β€œlines” λŠ” β€œpiecewise linear function(쑰각 μ„ ν˜•ν•¨μˆ˜?)” 둜 ν‘œν˜„λ  수 있고, 이듀은 μž„μ˜μ˜ λ³΅μž‘ν•œ κ³ μ°¨μ›μ˜ μž…λ ₯/좜λ ₯의 관계λ₯Ό ν‘œν˜„ν•˜κΈ°μ— μΆ©λΆ„ν•˜λ‹€λŠ” 것을 보인닀.

3.1. Neural network Example

Shallow neural networs λŠ” multivariate inputs $\bold{x}$λ₯Ό output, $\bold{y}$ 에 λ§΅ν•‘ν•˜λŠ” νŒŒλΌλ―Έν„° $\phi$ 둜 κ΅¬μ„±λœ ν•¨μˆ˜, $\bold{y=f[x, \phi]}$ 이닀. μ΄λ“€μ˜ ν’€ μ •μ˜λŠ” 3.4.μ—μ„œ ν• κ±°κ³  κ·Έ 전에 λ¨Όμ € scalar input, output, $x, y$, λ₯Ό λ§΅ν•‘ν•˜λŠ” 10개의 νŒŒλΌλ―Έν„°, $\{\phi_0, \phi_1, \phi_2, \phi_3, \theta_{10}, \theta_{11}, \theta_{20}, \theta_{21}, \theta_{30}, \theta_{31}\}$ 둜 κ΅¬μ„±λœ λ„€νŠΈμ›Œν¬ $f[x, \phi]$ λ₯Ό 톡해 메인 아이디어λ₯Ό μ†Œκ°œν•œλ‹€. λ¨Όμ € μ•„λž˜μ™€ 같이 μ •μ˜λœλ‹€.

Untitled

μœ„ μ‹μ˜ 계산을 3λ‹¨κ³„λ‘œ λ‚˜λˆ„μ–΄ λ³Ό μˆ˜μžˆλ‹€.

  1. μž…λ ₯ λ°μ΄ν„°μ˜ 3개의 linear functions, $(\theta_{10}+\theta_{11}x), (\theta_{20}+\theta_{21}x), (\theta_{30}+\theta_{31}x)$.

  2. μœ„μ—μ„œ κ³„μ‚°ν•œ 3개의 linear function을 activation function, $a[\bullet]$ 에 먹인닀.

    λ‹€μ–‘ν•œ activation funcionts 쀑 일뢀

    λ‹€μ–‘ν•œ activation funcionts 쀑 일뢀

  3. activation function을 ν†΅κ³Όν•œ 3개의 쀑간 결과듀을 $\phi_0, \phi_1, \phi_2, \phi_3$ 둜 weighted sum ν•œλ‹€.

activation functionμœΌλ‘œλŠ” λ‹€μ–‘ν•œ 선택지가 μžˆλŠ”λ°, μš°λ¦¬λŠ” κ·Έ μ€‘μ—μ„œ rectified linear unit, ReLUλ₯Ό μ‚¬μš©ν•œλ‹€. ReLUλŠ” μ•„λž˜μ™€ 같이 μ •μ˜λœλ‹€.

Untitled

Untitled

ReLUλŠ” input이 0보닀 μž‘μœΌλ©΄ 0을, κ·Έλ ‡μ§€ μ•ŠμœΌλ©΄ input κ·ΈλŒ€λ‘œλ₯Ό return ν•œλ‹€. 첫 번째 식을 보면 μ–΄λ–€ 식이 (family of equations) μž…λ ₯/좜λ ₯의 관계λ₯Ό λ‚˜νƒ€λ‚΄λŠ”μ§€ κ΅¬λΆ„ν•˜κΈ° μ–΄λ €μš΄λ°, κ·Έλƒ₯ λͺ¨λ“  10개의 νŒŒλΌλ―Έν„°λ“€μ— λŒ€ν•œ 식, $\bold{\phi}$, 둜 κ΅¬μ„±λ˜μ–΄ μž…λ ₯/좜λ ₯의 관계λ₯Ό μ •μ˜ν•œλ‹€κ³  μ΄ν•΄ν•˜λ„ μ’‹λ‹€.

λ§Œμ•½ μš°λ¦¬κ°€ λͺ¨λ“  νŒŒλΌλ―Έν„°λ₯Ό μ•Œκ³  μžˆλ‹€λ©΄ $y$λ₯Ό 예츑 (inference)ν•  수 μžˆλ‹€. κ·Έλ ‡λ‹€λ©΄ μ£Όμ–΄μ§„ dataset, $\{x_i, y_i\})_{i=1...I}$ 에 λŒ€ν•΄μ„œ νŒŒλΌλ―Έν„° $\phi$κ°€ 이듀을 μ–Όλ§ˆλ‚˜ 잘 μ •μ˜ν•˜λŠ”μ§€μ— λŒ€ν•œ L2 Loss, $L[\phi]$도 ꡬ할 수 μžˆλ‹€. 그리고 μ΄λŸ¬ν•œ 평가 μ§€ν‘œμ— 따라 μ΄λŸ¬ν•œ lossλ₯Ό μ΅œμ†Œν™” ν•˜λŠ” 졜적의 νŒŒλΌλ―Έν„°, $\hat{\phi}$ 도 찾을 수 μžˆλ‹€.

3.1.1. Neural Network Intuition

사싀 첫번째 식은 μ΅œλŒ€ 4개의 linear regions 을 κ°€μ§ˆ 수 μžˆλŠ” continuous piecewise linear functions 을 λ‚˜νƒ€λ‚Έλ‹€. μ•„λž˜ Figureλ₯Ό 보라. (각각의 region을 ν•˜λ‚˜μ˜ member of family of equations으둜 봐도 μ’‹λ‹€.)

Untitled

μ™œ μ €λ ‡κ²Œ λ˜λŠ”μ§€ μ„€λͺ…ν•˜κΈ° μœ„ν•΄ 첫번째 식을 2λ‹¨κ³„λ‘œ λ‹€μ‹œ λ‚˜λˆˆλ‹€. λ¨Όμ €, μ•„λž˜μ™€ 같은 쀑간 값듀을 λ¨Όμ € μ†Œκ°œν•œλ‹€.

Untitled