Chapter 2μμλ 1D linear regression νμ©ν supervised learning μ μκ°νλ€. νμ§λ§ μ΄λ¬ν λͺ¨λΈμ μ λ ₯/μΆλ ₯μ κ΄κ³λ₯Ό νλμ βlineβ μΌλ‘λ§ νννλ€. λ³Έ μ±ν°μμλ μ΄λ¬ν βlinesβ λ βpiecewise linear function(μ‘°κ° μ νν¨μ?)β λ‘ ννλ μ μκ³ , μ΄λ€μ μμμ 볡μ‘ν κ³ μ°¨μμ μ λ ₯/μΆλ ₯μ κ΄κ³λ₯Ό νννκΈ°μ μΆ©λΆνλ€λ κ²μ 보μΈλ€.
Shallow neural networs λ multivariate inputs $\bold{x}$λ₯Ό output, $\bold{y}$ μ λ§΅ννλ νλΌλ―Έν° $\phi$ λ‘ κ΅¬μ±λ ν¨μ, $\bold{y=f[x, \phi]}$ μ΄λ€. μ΄λ€μ ν μ μλ 3.4.μμ ν κ±°κ³ κ·Έ μ μ λ¨Όμ scalar input, output, $x, y$, λ₯Ό λ§΅ννλ 10κ°μ νλΌλ―Έν°, $\{\phi_0, \phi_1, \phi_2, \phi_3, \theta_{10}, \theta_{11}, \theta_{20}, \theta_{21}, \theta_{30}, \theta_{31}\}$ λ‘ κ΅¬μ±λ λ€νΈμν¬ $f[x, \phi]$ λ₯Ό ν΅ν΄ λ©μΈ μμ΄λμ΄λ₯Ό μκ°νλ€. λ¨Όμ μλμ κ°μ΄ μ μλλ€.
μ μμ κ³μ°μ 3λ¨κ³λ‘ λλμ΄ λ³Ό μμλ€.
μ λ ₯ λ°μ΄ν°μ 3κ°μ linear functions, $(\theta_{10}+\theta_{11}x), (\theta_{20}+\theta_{21}x), (\theta_{30}+\theta_{31}x)$.
μμμ κ³μ°ν 3κ°μ linear functionμ activation function
, $a[\bullet]$ μ λ¨ΉμΈλ€.
λ€μν activation funcionts μ€ μΌλΆ
activation functionμ ν΅κ³Όν 3κ°μ μ€κ° κ²°κ³Όλ€μ $\phi_0, \phi_1, \phi_2, \phi_3$ λ‘ weighted sum νλ€.
activation functionμΌλ‘λ λ€μν μ νμ§κ° μλλ°, μ°λ¦¬λ κ·Έ μ€μμ rectified linear unit, ReLUλ₯Ό μ¬μ©νλ€. ReLUλ μλμ κ°μ΄ μ μλλ€.
ReLUλ inputμ΄ 0λ³΄λ€ μμΌλ©΄ 0μ, κ·Έλ μ§ μμΌλ©΄ input κ·Έλλ‘λ₯Ό return νλ€. 첫 λ²μ§Έ μμ 보면 μ΄λ€ μμ΄ (family of equations) μ λ ₯/μΆλ ₯μ κ΄κ³λ₯Ό λνλ΄λμ§ κ΅¬λΆνκΈ° μ΄λ €μ΄λ°, κ·Έλ₯ λͺ¨λ 10κ°μ νλΌλ―Έν°λ€μ λν μ, $\bold{\phi}$, λ‘ κ΅¬μ±λμ΄ μ λ ₯/μΆλ ₯μ κ΄κ³λ₯Ό μ μνλ€κ³ μ΄ν΄νλ μ’λ€.
λ§μ½ μ°λ¦¬κ° λͺ¨λ νλΌλ―Έν°λ₯Ό μκ³ μλ€λ©΄ $y$λ₯Ό μμΈ‘ (inference)ν μ μλ€. κ·Έλ λ€λ©΄ μ£Όμ΄μ§ dataset, $\{x_i, y_i\})_{i=1...I}$ μ λν΄μ νλΌλ―Έν° $\phi$κ° μ΄λ€μ μΌλ§λ μ μ μνλμ§μ λν L2 Loss, $L[\phi]$λ ꡬν μ μλ€. κ·Έλ¦¬κ³ μ΄λ¬ν νκ° μ§νμ λ°λΌ μ΄λ¬ν lossλ₯Ό μ΅μν νλ μ΅μ μ νλΌλ―Έν°, $\hat{\phi}$ λ μ°Ύμ μ μλ€.
μ¬μ€ 첫λ²μ§Έ μμ μ΅λ 4κ°μ linear regions μ κ°μ§ μ μλ continuous piecewise linear functions μ λνλΈλ€. μλ Figureλ₯Ό 보λΌ. (κ°κ°μ regionμ νλμ member of family of equationsμΌλ‘ λ΄λ μ’λ€.)
μ μ λ κ² λλμ§ μ€λͺ νκΈ° μν΄ μ²«λ²μ§Έ μμ 2λ¨κ³λ‘ λ€μ λλλ€. λ¨Όμ , μλμ κ°μ μ€κ° κ°λ€μ λ¨Όμ μκ°νλ€.