assignment :

a2.pdf

part 1

B

image.png

f5cbcd22e3820c5c8ebadd00d990007.jpg

C

image.png

image.png

D E

image.png

768763535c9e4e7a988ca640936e2ba.jpg

Part 2

A

Adam 中的 $m$是梯度的滑动平均(即“动量”),它能平滑掉梯度中的噪声,使参数更新方向主要受最近一段时间的平均梯度影响,而不是单个小批量的偶然波动。这样可以防止参数更新方向频繁大幅度变化(即“抖动”),让学习过程更加稳定。低方差的更新有助于更快收敛,并减少陷入局部极小值或鞍点的风险。