(gpt said..) : upstream gradient란 loss function으로 향하는 gradient를 의미한다. 즉, 신경망의 출력에서 시작하여 loss funciton까지 역방향으로 전파되는 gradient를 말한다. upstream gradient는 모델의 weight 및 bias를 업데이트 하기 위해 사용된다.
[local gradient]
(gpt said..) : local gradient는 주로 activation function에 대한 gradient를 나타내는데 사용된다. 각 뉴런의 activation function에서 계산되는 gradient로서 해당 뉴런의 input에 대한 gradient를 나타낸다. local gradient는 역방향 gradient 전파 중에 각 layer에서의 오차를 계산하는데 도움이 된다.
[ Downstream gradient ] : 입력쪽으로 흘러가는 gradient로, local gradient에 upstream gradient를 곱해주는 것이다.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
결과적으로 앞쪽으로 더 나아가 gradient descent방식으로 weight들이 Loss에 미치는 영향력을 수식에 대입해서 구하고, weight를 update시키고 다시 영향력 구하고, 다시 또 update시키는 방식으로 진행된다.