数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1035|回复: 0

一文搞懂梯度下降法

[复制链接]
发表于 2024-8-29 09:31 | 显示全部楼层 |阅读模式
一文搞懂梯度下降法

原创 盗籽者老宋 程序员老宋 2024 年 07 月 24 日 20:14 湖北

梯度下降法,堪称训练神经网络的黑魔法。掌握该魔法,要先搞懂「梯度」的概念。

梯度是什么东东?



怎么个下降法



潜在的问题

● 陷入局部最小

梯度下降法可能会陷入局部最小值,而不是全局最小值。比如:如果初始位置位于局部最小值的附近,那么梯度下降法可能会很快找到该局部最小值然后停止,而不是全局最小值。

● 遭遇鞍点



鞍点如上图所示,鞍点处的梯度为 0,但既不是极小值,也不是极大值。遭遇鞍点时,梯度下降法会终止。

● 学习率的选择

「式 1」 可以看到,学习率 η 的选择至关重要。

如果学习率设置得太小,那么梯度下降法就会非常缓慢地收敛,浪费计算资源。

如果学习率设置得太大,那么梯度下降法可能会在最小值附近来回震荡,无法收敛。

参考资料

[1] geogebra 方向导数: https://www.geogebra.org/m/Bx8nFMNc

盗籽者老宋

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-1 11:33 , Processed in 0.082987 second(s), 17 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表