写点什么

李宏毅学习视频笔记:Gradient Descent

2019 年 11 月 29 日

李宏毅学习视频笔记:Gradient Descent

1.首先复习传统的 Gradient Descent 的过程:


下面介绍 Adagrad 方法:



下面这张 ppt 表明,分子上的梯度越大,更新幅度就越大,但是 Adagrad 的分母上梯度之和越大,反而更新幅度越小。



其实 Adagrad 可体现出不同时刻梯度的变化情况(反差),比如某个梯度一直很小,突然某个时刻变得很大,那么此时这个比较大的梯度就在梯度和中比较突出。



接下来老师举了一个二次项函数求最值的过程,可知在 x0 处,最优的梯度步长为 [公式] ,其中 2ax0+b 是一次导数,分母 2a 则是二次导数。则可猜想最优的步长是一次导数除以二次导数。



如下图,a 点的一次微分和二次微分都比较小,b 点的一次微分和二次微分都比较大,那么其实是不好确定 a 点与 b 点哪个点更新梯度的幅度更大,因为需要拿一次微分除以二次微分。



而 Adagrad 更新公式的分母用之前所有一次项梯度的均方根来替代二次项梯度:



  1. feature scaling


假设现在的问题是 [公式] ,特征 x1 和 x2 的量级是不同的,那么此时如果参数 w2 有一个小的改动,y 值就会有很大的变动,所以 w2 的更新幅度都很大。



相关文章:


http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/Gradient Descent (v2).pdf


https://www.bilibili.com/video/av35


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/78254440


2019 年 11 月 29 日 08:00147

评论

发布
暂无评论
发现更多内容

架构师训练营第一周学习总结

跨域刀

极客大学架构师训练营

【架构师week01】作业

高程

架构师 作业

架构师训练营第1周作业

一叶知秋

架构师训练营学习总结

weijin

架构师训练营 - Task Week 1

brave heart

极客大学架构师训练营

信息的表示与存储-浮点数的表示

引花眠

计算机基础

架构师-Week1作业

龙7

极客大学架构师训练营

架构homework1-2

蜡笔小晗

week01-就餐卡系统架构设计

强哥

极客大学架构师训练营

架构师-悟性和技能

yupi

《架构师训练营》第一周学习总结

架构师训练营Week 01 学习总结

Just顾

【第一周】食堂就餐卡架构设计

星星

架构训练学习总结一

mylove321

ARTS打卡 第3周

引花眠

ARTS 打卡计划

架构师训练营第1周-食堂就餐卡系统设计

海滨

极客大学架构师训练营

「架构师训练营」第 1 周作业 - 食堂就餐卡系统设计

butterfly

就餐卡系统设计文档 【第一周】

mylove321

把生活找回来

zhoo299

随笔杂谈

食堂就餐卡系统设计

走过路过飞过

架构师如何进行软件架构设计学习总结

一点点..

架构师、架构

stars

架构师训练营第1周学习总结

一叶知秋

架构师训练营week01-食堂就餐卡系统设计

Just顾

架构方法 - 架构师如何做架构总结(1)

Paula_l

「架构师训练营」第一周总结

极客

训练营第一周学习总结

毛叫

极客时间 极客大学架构师训练营

食堂就餐卡系统设计

漫步跑小鸡

作业一:食堂就餐卡系统设计

亮灯

【架构师week01】总结

高程

总结 架构师

架构师0期第一周总结

Nan Jiang

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

李宏毅学习视频笔记:Gradient Descent-InfoQ