【深度学习笔记】浅层神经网络

编程语言 2023-08-11 17:46:08 阅读次数: 0

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记，视频由网易云课堂与 deeplearning.ai 联合出品，主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习，视频的链接如下：

https://mooc.study.163.com/course/2001281002

也欢迎对神经网络与深度学习感兴趣的网友一起交流 ~

目录

1 神经网络的结构

3 随机初始化

1 神经网络的结构

你可以把很多 sigmoid 单元堆叠起来，构建一个神经网络。神经网络的每个节点对应两个计算步骤：前一层输出的线性组合（z 值），以及非线性激活（a 值）。

对于包含 2 层 sigmoid 单元的神经网络，用 $x$ 表示输入特征，第一层参数 $W^{[1]}, \, b^{[1]}$ ，第二层参数 $W^{[2]}, \, b^{[2]}$ ，有

$z^{[1]} = W^{[1]} \, x + b^{[1]}$

$a^{[1]} = \sigma(z^{[1]})$

$z^{[2]} = W^{[2]} \, x + b^{[2]}$

$a^{[2]} = \sigma(z^{[2]})$

神经网络可以分成输入层（Input Layer）、隐藏层（Hidden Layer）和输出层（Output Layer）。上图中的神经网络被称为双层神经网络（2 Layer Neural Network），输入层不被计算，原因是输入层不包含参数和非线性激活过程。

在使用监督学习的神经网络中，训练集包含了输入 x 和输出 y，隐藏层的含义是，在训练集中，你无法看到中间节点的数值。

2 激活函数

当构建神经网络时，你可以选择隐藏层用哪一个激活函数，以及输出单元用什么激活函数。

tanh 函数是 sigmoid 函数的平移版本。通常情况下，tanh 函数比 sigmoid 函数更好。但是这两个函数有一个·缺点：当 z 很大或很小时，函数的梯度值接近 0，这个问题被称为”梯度消失问题”。

另外两个常用的激活函数是 ReLU 函数和带泄露的 ReLU 函数。

3 随机初始化

当训练神经网络时，初始化权重的选取非常重要。对于 Logistic 回归，你可以将初始权重设为 0。但是对于神经网络，在初始值全 0 的情况下，神经网络中的隐藏单元都在进行完全相同的计算，这时隐藏单元的数量将失去意义。

问题的解决方案是随机初始化权重 $W$ ，通常的做法是使用 random 函数随机生成数值，为了避免初始权值太大导致梯度下降法变慢，可以乘上一个小的系数，比如 0.01，不过偏置值 $b$ 是可以初始化为 0 的。

猜你喜欢

转载自blog.csdn.net/sxyang2018/article/details/131446702

【深度学习笔记】浅层神经网络

1.3）深度学习笔记------浅层神经网络

深度学习笔记（四）——神经网络和深度学习（浅层神经网络）

深度学习(二)浅层神经网络

深度学习——浅层神经网络

Coursera吴恩达《神经网络与深度学习》课程笔记（4）-- 浅层神经网络

吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述

Coursera吴恩达课程笔记 1.4《神经网络与深度学习》-- 浅层神经网络

吴恩达deep learning ai 笔记总结(1-3) 神经网络与深度学习-浅层神经网络

【深度学习_1.3】搭建浅层神经网络模型

深度学习（四）浅层神经网络及其向量化

吴恩达深度学习——浅层神经网络

吴恩达深度学习笔记3-Course1-Week3【浅层神经网络】

吴恩达深度学习笔记 3.1~3.11 浅层神经网络

吴恩达深度学习笔记（一） —— 浅层神经网络

吴恩达深度学习笔记(15-21)总结-浅层神经网络总结

吴恩达深度学习神经网络与深度学习浅层神经网络课程作业

吴恩达深度学习神经网络和深度学习浅层神经网络

deeplearning.ai学习笔记（2）—— 浅层神经网络

07-浅层神经网络学习笔记2

06-浅层神经网络学习笔记1

03.神经网络与深度学习-第三周-浅层神经网络

吴恩达神经网络与深度学习——浅层神经网络习题3

吴恩达神经网络与深度学习——浅层神经网络

第一门课神经网络和深度学习(浅层神经网络3)

01.神经网络和深度学习——week3 浅层神经网络

神经网络和深度学习（二）浅层神经网络

(1-2)神经网络与深度学习 | 浅层和深层神经网络

01.神经网络和深度学习 W3.浅层神经网络

吴恩达深度学习学习笔记——C1W3——浅层神经网络——练习题

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)