지금까지 배웠던 알고리즘 중 하나인 logistic regression을 Neural Network로 어떻게 해석할 수 있을지에 대해서 알아본 다음에 Neural network에 대해 설명하고자 한다!!

Deep learning: 최근 산업에서 사용이 매우 증가하고 특히 computer vision, natural language processing 등에 사용이 된다. 그렇다면 어떻게 그리고 왜 deep learning의 사용이 증가하게 되었을까?

Computational power: GPU등을 이용하여 복잡한 computation이 가능하게 됨
Data available: Internet등에서 데이터들이 많아지게 됨 → 특히 deep learning이 많은 데이터가 있을 때 효과적임
Algorithm : 새로운 알고리즘이 생기게 됨

Logistic Regression

CS231n 4-2. Setting Up Architecture (Neural Network)

goal 1.0: 사진 속에 고양이를 찾기 (1: 고양이가 존재 0: 고양이 존재X)

computer science에서 사진은 3차원 정보를 가진다(with RGB, 64X64X3) input image가 64X64X3의 크기(픽셀)을 가지고 있을 때 이를 vector로 만들어준다. vector로 만들어야지만 logistic regression에 input으로 들어갈 수 있기 때문이다. 이 값을 특정 weight와 곱해준 후 이 값을sgimoid 를 이용해 값을 0과 1 사이로 만든다.(logistic regression이 classification에 사용) 이때 logistic regression에서 $θ$ 를 이용해 hypothesis를 만들었지만 여기서는 이 값들의 집합인 weight w( $w = \sum_{i} θ_{i}$ )로 표현을 한다. 참고로 이때 w의 size는 (1,64X64X3)이 되는데 sigmoid의 input은 하나의 실수 값이어야하기 때문이다.

이 함수(특히, weight w,b)를 학습시키는 방법은 다음과 같다

parameters w,b를 초기화 시킨다
최적의 parameters w,b의 값을 찾는다 $<=>$ defining loss function(최적값의 proxy-근사값) ➡️ $L = - [y lo g \overset{y}{^} + (1 - y) lo g (1 - \overset{y}{^})]$ fromMLE 결국 이 loss function을 최소화하는 것이 최적의 parmeter을 구하는 것과 같은 의미를 가짐 using Gradient Descent $w = w - α \frac{\partial L}{\partial w}, b = b - \frac{α \partial L}{\partial b}$ 각각의 step에서 조금씩 내려가 결국 loss가 최소화되는 지점으로 가게 된다. $σ^{'} = σ (1 - σ)$ 를 이용!
찾은 최적의 parameter w,b를 이용해 예측을 진행한다 $\overset{y}{^} = σ (w x + b)$

각각의 weight는 위 사진에서처럼 input과 선으로 연결되기 때문에 각 input마다 weight를 곱해서 모두 더해야한다. $\sum w_{i} x_{i}$ 따라서 이 logisitic regression의 parmeter의 개수는 12,228+1이다.(input마다 weight가 존재!) 결국 이 parameter는 input size와 연관이 있게 되는데 이도 추후에 수정을 거칠 예정이다.

Neural Network Vocab (neuron & model)

neuron= linear + activation linear: wx+b 부분에 해당하며 이 linear한 부분에서의 output을 activation function에 넣는다

model= architecture + parameters 위에서의 예시처럼 one-neuron network라는 architecture와 w,b parameters가 합쳐서 하나의 모델이라고 말한다. 즉, 내가 좋은 모델을 찾았다라는 것은 특정 문제에 알맞는 parameter과 알맞는 architecture을 찾았다는 것이다! 이때 architecture는 neural network등 오늘날 많이 발전했고 parameter들은 오늘날 더 많아졌다

goal 2.0: 고양이/사자/이구아나 사진을 이미지에서 찾기(중복가능)

찾아야하는 object가 늘어났기 때문에 그 수에 맞게 새로운 neuron을 추가해준다. 이때 각각의 neuron은 모든 input vector들과 연결이 되어 있고 각각의 neuron은 고유한 parameter $w_{i}^{[1]}, b_{i}^{[1]}$ 을 가져 이 값이 activaiton function(sigmoid)에 들어가 학습을 진행해 예측을 내놓게 된다.

이때 같은 input을 공유하는 neuron들의 모임을 layer이라고 하며 layer들 안에 neuron들은 서로 indpendent하다는 특징을 가지고 있다. 그리고 각각의 neuron들은 $a_{i}^{j}$ 의 형식을 지니는데 이때 j는 layer의 순서를 나타내며 i는 같은 layer내에서 index를 나타낸다.

이와 같은 모델에서 output은 더 이상 특정 실수가 아닌 vector(여기서는 prediction을 진행하는 $\overset{y}{^}$ 가 3개이기 때문에 크기가 3인 vector)가 되고 각각의 neuron은 고유한 parameter을 가지기 때문에 parameter의 개수는 (12288+1)X3이 된다

logistic regression에서는 결국 vector로 표현된 label data가 필요하다. 그렇다면 여기서 각각의 neuron이 어떤 역할은 label vector에서의 object 순서와 관련이 있게 된다. 즉, 특정 순서의 뉴런은 곧 특정 object를 학습을 하는데 그 순서가 label data와 같다는 것이다. (이 예시에서!)

🪴 Quartz 4.0

Explorer

CS229 11. Introduction to Neural Networks

Logistic Regression

goal 1.0: 사진 속에 고양이를 찾기 (1: 고양이가 존재 0: 고양이 존재X)

goal 2.0: 고양이/사자/이구아나 사진을 이미지에서 찾기(중복가능)

Graph View

Table of Contents

Backlinks