Skip to content

computation graph

  • AccumulateGrad: 把反传下来的梯度累积加到param.grad: param.grad += incoming_gradient
  • conv1.weight的(16, 3, 3, 3)中
    • 16: output channels
    • 3: input channels
    • 3, 3 : kernel size

computational graph

  • MaxPool2DWithIndicesBackward: indice是当使用maxpool的时候因为取的是局部窗口的最大值,所以记录下最大值的位置。MaxPool没有参数(weight/bias),只是一个操作,所以也不需要AccumulateGrad

a

added full connected layer:

  • TBackward: Transpose, 自动把weight做transpose .t()
  • AddmmBackward: add + matrix multiplication. - addmm(input, weight.T, bias)Linear(input, weight, bias)
  • ViewBackward : .view().reshape(),

add fc layer

这些node上带backward的都是在做反向传播的时候会用到的