【Machine Learning, Coursera】机器学习Week5 理解神经网络（四）

编程语言 2018-09-03 22:23:58 阅读次数: 0

理解神经网络(Neural Networks)（四）

本节内容：神经网络算法实现的注意事项

1. Unrolling Parameters

神经网络算法需要处理一系列的矩阵：
$\Theta^{(1)},\Theta^{(2)},\Theta^{(3)},...$
$D^{(1)},D^{(2)},D^{(3)},...$
为了能够使用现有的优化函数，如matlab中的fminunc()，我们需要将矩阵中的元素“铺开”，使其变成一个长向量。下图提供了matlab中元素铺开和还原的代码。

总结：
这里写图片描述
$\\$

2. Gradient Checking

BP算法的实现非常复杂，大型的神经网络训练一次的时间成本是很大的。有时候我们的代码会出现一些后期调试难以发现的bug，我们需要在正式训练前修正它们，以免给后期调试带来麻烦。
梯度检验(gradient checking)就是一种验证算法是否存在问题的方法。它是对梯度的数值估计，它的原理是，对于连续函数 $J(\theta)$ 和一个很小的 $\epsilon$ ，有

J (θ) \approx \frac{J (θ + ϵ) - J (θ - ϵ)}{2 ϵ}

$J(\theta)≈\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon}$

对于含有多个参数的 $J(\theta)$ ，可分别对每个参数进行如下梯度检验：
这里写图片描述
总结：

在实现过程中尤其需要注意的一点是，在训练分类器之前一定要关闭梯度调试，否则会导致训练极其缓慢。
这里写图片描述
$\\$

3. Random Initialization

使用梯度下降算法或者其他高级优化算法都需要初始化参数 $\Theta$ 。如果将所有参数全部初始化为0，会导致在每一层训练得到的激励值和误差值都相同，更新之后的参数值也都相同。这意味着我们只学习到了一种特征，这样的训练结果是没有意义的。
这里写图片描述
因此，我们需要随机初始化(random initialization)参数，其目的是打破对称。我们在某一特定范围内生成参数值，如 $[-\epsilon,\epsilon]$ . 这里的 $\epsilon$ 和梯度检验的 $\epsilon$ 无关。
具体用代码表示如下。Theta1生成一个10x11的矩阵，Theta2生成一个1x11的向量。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42395916/article/details/81908543

【Machine Learning, Coursera】机器学习Week5 理解神经网络（四）

【Machine Learning, Coursera】机器学习Week5 理解神经网络（三）——参数求解

【Machine Learning, Coursera】机器学习Week4 理解神经网络（二）——应用

【Machine Learning, Coursera】机器学习Week4 理解神经网络（一）——基础知识

andrew ng machine learning week5 神经网络

Machine Learning - Coursera week5 Backpropagation in Practice

Machine Learning - Coursera week5 cost function and backpropagation 2

Machine Learning - Coursera week5 cost function and backpropagation 1

第四周（神经网络表示）-【机器学习-Coursera Machine Learning-吴恩达】

第五周（反向神经网络）-【机器学习-Coursera Machine Learning-吴恩达】

神经网络-机器学习（machine learning）笔记（Andrew Ng）

andrew ng machine learning week4 神经网络

【Machine learning】神经网络

周志华《Machine Learning》学习笔记 6 —— 神经网络

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY5-神经网络

machine learning 机器学习入门（四)

Machine Learning:神经网络基础

Machine Learning（机器学习）

机器学习(Machine Learning)

机器学习（Machine Learning）

【Machine Learning, Coursera】机器学习Week6 机器学习应用建议

Machine Learning--week4 神经网络的基本概念

Machine Learning - Coursera week1

【Machine Learning@Andrew Ng, Coursera】机器学习Week1 单变量线性回归笔记

【Machine Learning@Andrew Ng, Coursera】机器学习Week1 导论部分重点笔记

【Machine Learning@Andrew Ng, Coursera】机器学习Week2 多变量线性回归笔记

【Machine Learning, Coursera】机器学习Week3 逻辑回归笔记

【Machine Learning, Coursera】机器学习Week3 过拟合和正则化

【Machine Learning, Coursera】机器学习Week6 偏斜数据集的处理

机器学习之Coursera Andrew Ng 《Machine Learning》 week 6 test 2

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)