2-4 Gradient Descent, 2-7.computation graph

2018. 11. 13. 21:32

2-4 Gradient Descent

로지스틱 회귀분석 모델을 보았는데요, 싱글 트레이닝 example에서 얼마나 잘하는지를 측정하는 비용함수를 보았었는데요, 또한, 파라티터 w와 b가 전체 트레이닝 세트에서 얼마나 잘하는지를 측정하는 비용함수도 같이 봤습니다. 이제는 기울기 강하 알고리즘을 어떻게 이용하여 w와 b를 트레이닝세트에서 트레이닝 또는 학습할 수 있는지 배워보도록 하겠습니다. 복습하자면, 이것이 어디서 많이 눈이 익숙한 로지스틱 회귀분석 알고리즘이죠.

2번째 줄에는 J라는 비용함수가 있습니다. 이 함수는 파라티터 w와 b에 대한 함수입니다. 그리고 이것은 평균값으로 정의되죠. 그러므로 1 나누기 m 곱하기 이 loss함수의 합입니다. 그렇게해서 loss함수는 각각의 트레이닝 example에 대해서 알고리즘에 결과값 ŷ(i)이 얼마나 잘 쌓거나 ground true label y(i)과

얼마나 잘 비교되는지 측정합니다. 전체 공식은 오른쪽에 펼쳐져있습니다. 자 그래서, 비용함수는 트레이닝세트에서 파라티터 w와 b가 얼마나 잘 하는지를

측정하는데요 w와 b라는 파라티터를 배우기 위해서는, w와b가 비용함수 J(w, b)를 최소화시키는 값을 찾는게 자연스러운 단계이겠죠? 이것이 gradien descent의 모습입니다.

이 표에서는 가로축이 공간 매개 변수 w와 b를 나타냅니다. 실제로 w는 다 큰 다이멘션일 수 있지만 표에 나타내기 위해 w와 b가 실수라고하겠습니다. J(w, b, ) 비용함수는 그러면 이 가로축 w와 b 표면 어딘가에 있을 것입니다. 표면의 높이는 특정지점에서 J(w, b)의 값을 가르키는데요 저희는 J라는 비용함수가 최소값이 되는 w와 b의 값을 구해야 합니다. 알고보면, 이 J 비용함수는 볼록함수입니다. 하나의 그릇 모양이라고 할 수 있는데요, 이것이 볼록함수이고, 이런 여러개의 local이 있는 비볼록 함수와는 다르죠. 이렇게 정의된 비용함수 J(w, b)는 볼록하고, 그렇기 때문에 이와 같은 비용함수 J를 이용하는 것입니다. 로지스틱 회귀분석에서 말이죠. 파라티터의 적합한 값을 찾으려면, w와 b를 최초값으로 초기화해야 합니다. 이 빨간 점이 상징하듯이 말이죠. 로지스틱 회귀분석에서는 거의 모든 초기화 방법이 잘 구현됩니다. 일반적으로 0으로 초기화시키는데요, 무작위로 초기화 시키는 방법도 효율적입니다. 그렇지만 대부분의 사람은 보통 이러한 방법은 잘 사용하지 않죠. 이 함수가 볼록함수이기 때문에 어느 지점에서 초기화하더라도 똑같은 지점에 도달하거나 거의 비슷한 점에 도달할 것입니다.

기울기 강하 가 하는 것은, 처음 시작점에서 시작해서 가장 기울기가 높은 내리막길 방향으로 이동합니다. 그렇기 때문에 기울기 강하 이후로는 이 점에 도착할 수도 있습니다. 그 이유는, 기울기 강하 가 가장 경사가 높은 내리막길 방향으로 향하기 때문입니다. 최대한 빠른 속도로 말이죠. 이것이 기울기 강하 의 반복업무 중 하나입니다. 기울기 강하를 2번 진행한 이후, 이곳으로 넘어갈 수도 있습니다. 3번째에는 여기로 말이죠, 이것이 이제는 표에 가려질텐데요, 결과적으로 이상적으로는 전역최적점으로 모이거나 근접한 지점에 도달할 것입니다. 이 그림은 기울기 강하 알고리즘을 나타내고 있습니다. 조금 더 상세히 적어보겠습니다.

조금 더 쉽게 나타내기위해 J(w)라는 함수가 있다고 해보겠습니다. 이 값을 최소화시키고 싶은데요, 이렇게 생겼다고 해보겠습니다. 더 쉽게 그리리 위해서,

일단은 b를 무시하고, 다차원이 아닌 1차원적인 표로 만들겠습니다. 기울기 강하 가 이렇게해서, 해당 update를 계속 반복적으로 진행할 것입니다. w값을 갖고 업데이트할 것입니다. 콜론표시로 w를 업데이트함을 표시할텐데요, w를 w 빼기 알파로하고, 이것은 derivative dJ(w)/dw입니다. 이것을 알고리즘이 합쳐질때까지 반복하겠습니다. 알아둘 점은, 여기 알파는 학습 속도를 뜻하고, 한번에 얼마만큼 기울기 강하를 진행할 수 있는지 조절해줍니다. 학습 속도인 알파를 어떻게 선택하는지는 나중에 자세히 이야기하겠습니다. 2번째로, 여기 이 값은 derivative입니다. 이것은 업데이트 또는 w에 얼마나 변화를 줄지 여부를 알려주는 값입니다. 기울기 강하를 도입하기 위한 코드를 만들기 시작하면 dw라는 변수가 derivative를 나타내도록 규칙을 만들 것입니다. 그렇게해서 코드를 만드는 경우, w : 는 w 빼기 알파 곱하기 dw 라고 적어볼 텐데요 dw를 변수 이름으로 만들어서 이 derivative 항을 뜻하게 만듭니다.

자 이제 해당 기울기 강하 업데이트가 말이 되도록 만들겠습니다. w가 여기 있었다고 하죠. 그러면 비용함수 J(w)에서 이 지점에 있습니다. 기억할 것은, derivative의 정의가 특정 지점에서 함수의 기울기라는 것입니다. 함수의 기울기는 높이 나누기 너비, 맞죠? 이 작은 삼각형에서 말이죠, 기울기는 J(w) 에서 이 탄젠트 지점이 됩니다. 그렇게해서, derivative는 양수입니다. W는 w 빼기 학습 속도 곱하기 derivative 값만큼 업데이트 되는 것입니다. derivative값은 양수이고, 그렇기 때문에 w에서 빼게되는 것인데요 그러므로 왼쪽으로 진행합니다. 만약 이 큰 w값으로 시작했다고하면 기울기 강하는 알고리즘이 천천히

파라티터를 줄이도록 할 것입니다. 다른 예제로, 만약 w가 여기 있었다고 하면 이 지점에서는 dJ/dw의 기울기는 음수일 것입니다. 이 경우, 기울기 강하 업데이트는 알파 곱하기 음수의 값을 뺄 것입니다. 결과적으로 w를 천천히 증가시킬텐데요, w를, 기울기 강하 의 반복을 통해 점점 더 크게 만드는 효과가 있습니다. 그러므로 왼쪽에서 초기화를 진행하던 오른쪽에서 진행하던, 기울기 강하는 이 전역 최소값을 향해 움직일 것입니다.

여러분이 derivative이나 미적분학에 익숙해 있지 않으신 경우이거나, dJ(w)/dw가 뜻하는 바가 무엇인지 잘 모르시더라도 너무 걱정하지 마십시요. derivative에 대해서는 다음 비디오에서 더욱 자세히 다루겠습니다. 미적분학을 잘 아시면, 신경망이 어떻게 작동하는지 잘 이해하실 수 있을 것입니다. 하지만, 미적분학에 익숙하지 않더라도 다음 비디오를 통해, derivative와 미적분학에 대한 직관적인 부분을 다뤄서 신경망을 잘 다룰 수 있도록 하겠습니다. 일단은 이런 항이 기울기를 뜻한다는 것을 이해하시고, 현재 매개 변수 값에서의 함수 기울기를 찾고 가장 높은 기울기에서, 비용함수 J인 경우, 어느 방향으로 이동할지 여부를 알아내는 것입니다. 오로지 w가 파라티터인 경우, J(s)에 대한 기울기 강하를 적었습니다. 로지스틱 회귀분석에서는 비용함수가 w와 b라는 파라티터에 대한 함수입니다. 이 경우, 기울기 강하의 inner loop는, 이와 같이 생긴 것인데요, 반복해야하는 이 것은 아래와 같습니다. w를 w 빼기 학습 속도 곱하기 w에 대한 J(w, b) derivative로 업데이트 합니다. b는 b빼기 학습속도 곱하기 b에 대한 비용함수의 derivative로 b를 업데이트 합니다. 그래서 이 밑에 있는 2개의 공식이 실제로 도입하는 업데이트입니다. 따로 말씀 드릴 부분이 있는데요, 미적분학에서 쓰는 표기가 어떤 분들에게 조금 헷갈릴 수 있는데요. 미적분학을 이해하는 것이 굉장히 중요하다고 할 수 없지만 이런 것을 보면, 너무 많이 생각하지 않으시길 바랍니다. 여기서 보이는 미적분학에서 쓰는 항은 이렇게 쓰는데요, 이 구부려진 모양입니다. 이 심볼은, 이렇게 멋지게 쓰인 것은 소문자 d이구요 조금 특화된 글꼴로 쓰는데 이러한 표기를 보면, J(w, b)의 기울기라는 것입니다. w방향으로 J(w, b)함수가 얼마나 기울고 있는지를 나타냅니다. 미적분학에서의 규칙이 아주 타당하다고는 생각되지 않지만, 이 규칙이오히려 더 헷갈리게 만드는 것 같은데요 만약 J가 2개 또는 그 이상의 변수로 이루어져 있을 시, 소문자 d를 쓰는 대신에 이 우습게 생긴 심볼을 사용합니다. 이것을 partial derivative(편미분) 심볼이라고 하는데요. 일단 신경쓰지 마십시요. 그리고 J가 만약 한개의 변수를 가진 함수라면 소문자 d를 사용합니다. 그렇기 때문에 이 우습게 생긴 partial derivative 심볼을 사용하는 경우와 소문자 d를 위와 같이 사용하는 경우의 차이는 J 함수가 2개 이상의 변수를 가지고 있는지의 차이입니다. 그런 경우, 이 partial derivative 심볼을 쓰고, 1개의 변수가 있는 경우, 소문자 d를 사용합니다. 이런 것이 바로 미적분학에서 쓰이는 조금은 웃긴 표기법인데요. 오히려 더 헷갈리게 만드는 것 같습니다. partial derivative 심볼를 보시면 단순히 함수의 기울기가 이 변수들 중 하나에 대하여 계산된다고 생각하면 됩니다. 비슷하게, 앞서 다룬 미적분학 표기법을 동일하게 적용합니다, 그 이유는 여기서는 J가 2개의 입력값이 있기 때문이죠. 이 밑에 있는 부분은 이 partial derivative 심볼과 같이 쓰여야 합니다. 이 것은 거의 똑같은데요, 소문자 d가 의미하는 것과 거의 비슷합니다. 마지막으로 이것을 코드에 도입시킬 때는, 이 양이, 즉 w를 업데이트하는 정도의 양을, dw 변수로 코드에서는 표기될텐데요 이 값 맞죠? b를 업데이트하고 싶은 정도는 코드에서의 db 변수로 표기될 것입니다. 자 이렇게 gradiend descent를 도입할 수 있는 것입니다. 만약 여러분이 미적분학을 수년동안 접하지 않으셨다면, 지금 본인의 현재 편안한 정도의 레벨보다 미적분학에서 더 많은 derivative를 다룬다고 생각하실텐데요, 만약 여러분이 이렇게 느끼시면 걱정하지 마십시요. 다음 비디오에서는 derivative에 대한 조금 더 직관적인 이해를 돕도록 하겠습니다. 미적분학에 대한 깊은 수학적인 지식없이도 직관적인 미적분학의 이해만으로도 신경망을 조금 더 효율적으로 만들 수 있을 것입니다. 다음 비디오로 넘어가서 derivatice에 대해 조금 더 이야기해보도록 하겠습니다.

2-7.computation graph

*쉽게 생각하면,

J = 3(x+z*g), u=z*g, v=x+z*g

에서 각 x,z,g,u,v에 대해 편미분한 값(x,z,g,u,v가 1씩 증가할때 J는 얼마만큼 변하는지 알아보는 것)

지난 강의에서 이전 비디오에서는, 산출 그래프응 이용한 예제를 통해서 J함수를 계산하는 방법을 배웠습니다. 이제 깨끗한 전환을 통해산출 그래프에 대해 알아보도록 하겠습니다. 그리하겨, 이 그래프를 통해 J함수의 derivative를 계산하는 방법을 알아보겠습니다.

여기 산출 그래프가 있습니다. 여러분이 J의 v에 대한 derivative를 계산하고 싶다고 해보겠습니다. 이것을 무엇일까요? 여기 v의 값을 갖고 살짝 변경한다고 하면 J의 값은 어떻게 변할까요? 여기서 J는 v의 값의 3배로 정의됩니다. 그리고 현재 v의 값은 11입니다. 만약에 v의 값을 11.001로 조금 높히면, J는 3v 이기 때문에, 현재 시점에는 그 값이 33입니다. 이 값은 그러면 33.003으로 되겠죠. 그러면 v의 값이 0.001로 늘어났습니다. 그러면 최종 결과는 J가 3배로 늘어난다는 것입니다. 그러면 J의 v에 대한derivative는 3입니다. J의 증가분은 v의 증가분의 3배이이 때문입니다. 이 예제는 이전 비디오에서 다뤘던 예제와 유사한데요, f(a)=3a 였던 예제와 말이죠. 그 이후, df/da를 약간 심플하게 만들어서 가지고 왔는데요, 대충 표현하면, df/da = 3으로 나타낼 수 있습니다. 그러므로 이렇게 J = 3v로 나타나는데요, 이 경우, dJ/dv는 3이 됩니다. 여기서는 J가 f의 역할을 하는데요, 이전 비디오 예제에서 v는 a의 역할을 학구요, 그러므로 후 방향전파의 용어에서 만약 여기 마지막 변수 결과값의 derivative를 산출하고 싶은 경우, 주로 가장 신경쓰는 변수이기도 합니다만, v에 대한 값인데요, 후 방향전파의 첫번째 단계를 진행했습니다. 이 그래프에서 one step backwards라고 합니다.

다른 예제를 하나 더 보겠습니다. dJ/da 는 무엇일까요? 다시 말해, a의 값을 올리면, 이것이 J의 값에 어떤 영향을 미칠까요? 예제를 통해 살펴보겠습니다.

여기서 a의 값은 5입니다. 이제 이 값을 5.001로 올려보겠습니다. 순영향은 v가 이전에는 a+u였죠,이 값이 11이였는데요, 이제 이 값이 11.001이 될 것입니다. 그리고 이미 위와 같이 봤습니다만, J의 값은 33.003으로 증가합니다. 그러면 여기서 볼 수 있는 것은 0.001만큼 증가시키면 J는 0.003만큼 증가합니다. 여기서 a 증가라고 하는 것은 여기 5라는 값에 새로운 값을 대입시키는 것입니다. 그러면 a의 변화는 그래프의 오른족으로 반영되어 J의 값이 33.003이 될 것입니다. 그러면 J의 증가가 a의 증가분과 비교하였을 때 3배가 되는 것입니다. 그러면 여기 derivative값은 3이라는 것입니다. 이것을 간단히 분해해서 설명하면 a를 변경하면 그 변경한 값이 v를 변경할 것입니다. 그렇게 v가 변경되면 그 변화는 또 J를 변경시킬 것입니다. 그러므로 값을 증가시켰을 때의 총 J의 총 변화는, a의 값을 아주 조금 올렸을 때, a를 변경하면서, v를 증가시키게 됩니다. 그러면 v는 얼마나 늘어날까요? dv/da로 결정된 만큼 증가할 것입니다. 그리고 v의 변화량이 J를 증가시킬 것입니다. 그리하여 미적분에서는 이것을 chain rule이라고 하는데요, a가 v에 영향을 주면, J에 영향을 주고, a의 값을 약간 변경하면서 J가 변하는 양은 a를 변화시킬때 변하는 v의 양 곱하기 v값이 변할때 변하는 J의 양입니다. 다시 말씀드리면, 미적분에서는 이것을 chain rule이라 합니다.

이번 계산을 통해 배운 것은, 값을 0.001로 증가시키면, v도 똑같은 양 만큼 변한다는 것입니다. 그러므로 dv/da의 값은 1이 됩니다. 이전에 끝낸 값을 대입시키면, dv/dJ는 3이되고, dv/da는 1이 됩니다. 이 값의 곱셈은 3곱하기 1이구요, 그러면, 알맞은 값인 dJ//da의 값이 3이 나옵니다. 이렇게 나온 값과 같이,

dJ/dv, 즉, 이 변수에 대한 derivative값인데요, 이 값을 통해 dJ/da도 계산을 할 수 있습니다. 또 다른 역산출의 예입니다. 표기법에 관련해 한가지 말씀드릴 것이 있는데요, 후 방향전파 도입을 위해 코드를 쓰는 경우, 여러분이 정말로 신경쓰는 결과값 변수가 있을 것입니다. 이런 결과값 변수는 여러분이 최적화 시키고 싶은 값이디고 하죠. 이런 케이스의 경우, 최종 결과값 변수는 J입니다. 여러분의 산출 그래프에서 마지막 노드에 해당하는 부분입니다. 그러므로, 수 많은 산출 그래프들이 최동 결과값 변수에 대한 derivative값을 산출하려고 할 것입니다. 즉, 다른 어떤 변수에 대한 최종 결과값 변수의 d 겠죠. 이것을 dvar라고 하겠습니다. 이렇게 최종 결과값 변수에 대한 derivative값 J와 같이 계산하는 경우가 많을 것입니다. 중간중간 변수들이 있는 경우이죠. 변수들은 a, b, c, u, 또는 v와 같을 수 있습니다. 이것을 소프트웨어에 도입시키면 이런 변수를 뭐라고 부를까요? 한가지 할 수 있는 방법은 파이썬에서, 아주 긴 이름을 부여할 수 있습니다. dFinalOurputVar/dvar와 같이 말이죠. 하지만 이것은 너무 긴 변수 이름이겠죠. 제 생각에는 dJdvar라고 부를 수도 있을 것 같습니다. 하지만 여려분은 dJ에 대해서 derivative값을 갖기 때문에, 즉, 여기 최종 결과값 변수에 대해서 말이죠.

그러므로 새로운 표기법을 소개하겠습니다. 코딩에서, 여기 이것을 산출할때, 그냥 dvar이라는 변수이름을 사용하겠습니다. 여기 이 양을 나타내기 위해서 말이죠. 그러므로 코드에서 쓰는 dvar는 J와 같은 최종 결과값 변수의 derivative를 나타낼 것입니다. 가끔씩은 코딩에서 여러 중간 값의 양에 대한 마지막 l을 나타낼 것입니다. 그러므로 코딩에서 여기 이 부분은 dv를 사용해서 이 값을 나타냅니다. 그러면 dv는 3이 될 것입니다. 그러면 여러분의 코드는, 여기 이것을 da로 표기하느데요, 여기서 이 값은 3이라는 것을 알아냈는데요, 저희는 이 산출 그래프를 통해 부분적으로 후 방향전파 진행했는데요, 나머지 부분은 다음 슬라이드에서 진행하겠습니다. 이제 깨끗한 버전의 산출그래프로 이동하겠습니다. 반복하자면, 이제까지는 여기서 거꾸로가서, dv의 값이 3이라는 것을 알아냈습니다. 그리고 dv의 정의, 이것은 그냥 변수 이름이구요, 코드가 dJ/dv입니다. da의 값이 3이라는 것을 찾았습니다. da는 역시 여러분의 코드에서 쓰이는 변수 이름인데요, 이것은, dJ/da의 값입니다. 그리고 우리는 우리가 어떻게 이렇게 두 모서리를 거꾸로 갈 수 있는지 조심해야 한다. 그럼 계속해서 derivative를 계산해보겠습니다. u의 값을 보겠습니다. dJ/du 는 무엇일까요? 이전에 계산했던 것과 비슷하게, u는6이라는 값으로 시작합니다. u의 값을 6.001로 증가시키면, v는 이전에 11이였는데요, 이 값이 11.001이 됩니다. 그럼 J는 33에서 33.003이 됩니다. 그러면 J의 증가분은 3배인데요, u에 대한 분석은 우리가 이미 실행한 a에 대한 분석과 매우 흡사합니다. 이것은 dJ/dv 곱하기 dv/du로 계산되는데요, 이것은 이전에 계산한것과 같이 3입니다. 그리고 이것은 1이구요. 그러면 후 방향전파에서 또 한단계 진행했는데요, du는 또, 3이라는 결과를 계산합니다. 그리고 du 당연히 여기 dJ/du 입니다. 마지막 예제로 들어가겠습니다. dJ/db는 무엇일까요? 여기서 b의 값을 바꿔도 된다고 해봅시다. b를 조금 바꿔서 J의 값을 최소화 시키거나 최대화시키기 위해서 말이죠. 그러면 여기 J비용함수의 기울기는 또는 derivative는 b의 값을 조금 바꾸는 경우 어떻게 될까요? 미적분학의 chain rule을 이용하여, 2가지 값의 곱하기로 나타낼 수 있습니다. 여기 dJ/du 곱하기 du/db로 말이죠.

그 원리는, b를 조금 바꾼다고하면, 즉 b를 3에서 3.001로 말이죠. J가 미치는 영향은, 먼저 U가 먼저 영향을 받을 것입니다. 그러면 u는 얼마나 영향을 받을까요? u는 b곱하기 c로 정의되는데요, 그럼 이값은 6에서 b가 3인 경우에 말이죠, 6.002로 변할 것입니다. 여기서 c의 값은 2이기 때문에 그렇습니다., 그러면 du/db는 2라는 것을 알려줍니다. 그러면 b를 0.001로 증가시키면, u는 그것의 2배만큼 증가합니다. 즉, du/db는 2가 됩니다. 이제 u의 값이 2배로 늘어난 것을 확인할 수 있는데요, b가 늘어난 것과 비교했을 때 말이죠, 그러면 dJ/du는 무엇일까요? 이것은 이미 3이라는 것을 알아냈었습니다. 그럼 이 값들을 곱해서 dJ/db가 6이라는 것을 알 수 있습니다. 그리고 두번째 부분에 대한 설명입니다. u의 값이 0.002 만큼 늘어나면 J의 영향은 어떻게 되는지에 대go 설명말이죠, dJ/du가 3이라는 사실은 u가 0.002만큼 늘어나면 J의 값은 그것의 3배만큼 늘어난다는 뜻입니다. 즉, J는 0.006만큼 늘어나겠죠. 이것은 dJ/du가 3이라는 사실에 근거합니다. 수학적인 부분을 자세히 보면, d가 3.001이 된다는 것을 알게되고, 그러면 u는 6.002가 되면, 결국 v는 11.002가 됩니다. 그러면 저것은 a+u이고, 저것은 5+u가 됩니다. J는 3곱하기 v이며, 그 값은 33.006이 됩니다. 이렇게해서 dJ/db값은 6이 나오게 되는데요, 이 부분을 채우기 위해서는, 거꾸로 가는 경우 말이죠, 이건 db이고 그 값이 6입니다. db는 쉽게 말해 dJ/db의 파이썬 변수 코드 이름입니다. 마지막 예제는 자세히 들어가진 않겠습니다. dJ를 계산하면, 여기 이 값은 dJ/du 곱하기 du가 되는데요, 그러면 여기 이 값은 9가 되고, 이 값은 3곱하기 3입니다. 이 예제는 자세히 다루지 않겠습니다. 여기 마지막 단계를 통해, dc가 이렇다는 것을 알아낼 수 있습니다. 이 비디오에서 중요한 내용은, 여기 예제에서와 같이 derivative를 계산하고, 여기 모든 derivative들을 계산할때, 가장 효율적인 방법은 여기 빨간색 화살표와 같은 방향으로 오른쪽에서 왼쪽으로의 계산을 진행하는 것입니다. 특리 v에 대한 derivative를 먼저 계산하겠습니다. 그러면 저것이 a에 대해서 derivative를 찾는 것과 u에 대해서 derivative를 찾을 때 유용하게 쓰입니다. 그리고 여기 이 예제에서 u에 대한 derivative 여기 이 항과 여기 이 항의 같은 경우과 같이 말이죠. 이것들은 결과적으로 b에 대해서 derivative를 찾는데 유용하게 쓰입니다. c에 대해서 derivative를 구할때도 마찬가지로 말이죠. 이제까지 산출 그래프 내용을 이야기 했는데요, 또, 최적화 시키고 싶은 J비용함수에서 계산하는 forward, left to right 계산법에 대해 알아봤습니다 그리고 derivative를 산출하기 위한 backwards, right to left 계산법도 알아봤습니다. 여러분이 만약 미적분학이나 chain rule에 대한 내용이 생소하게 들리시면, 저도 이런 내용을 빨리 진행해서 넘어갔는데요, 자세한 내용을 모르시더라도 걱정하지 마십시요. 다음 비디오에서는 로지스틱 회귀분석법에 연관지어 다시 그 내용을 알아보도록 하겠습니다. 그리하여 산출법을 도입하기 위해서 정확히 어떻게 해야하는지 로지스틱 회귀분석 모델의 derivative를 계산하기 위한 방법을 다뤄보겠습니다.

저작자표시 비영리 변경금지

'C Lang > deep learning' 카테고리의 다른 글

2-15.broadcasting, some tips (0)	2018.11.15
3-1.vectorization, 3-2.vectorizing logistic regression (0)	2018.11.14
2-8.logistic regression gradient descent (0)	2018.11.13
2-1.Neural networks and deep learning,2-2.logistic regression,1-3.Logistic Regression Cost Function (0)	2018.11.12
1-1.what is neural network, 1-2.supervized learning with neural networks (0)	2018.11.12

가치관제작소

2-4 Gradient Descent, 2-7.computation graph

'C Lang > deep learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바