2018/12/14 Deep Neural Network Training(1)

其他 2018-12-24 15:47:35 阅读次数: 0

Loss Function and Optimization

损失函数
如何优化

线性分类器
损失函数是量化的评估线性分类器的标准。损失函数是优化的目标。
损失函数的定义：
当初始化W很小的时候，S–>0,此时L–>c-1（其中c代表类的个数）
线性代数
有限字长
当我们在训练集上训练出来的分类器训练的很好的时候，这时候会出现一个过拟合效应，原因是我们的训练集并没有很好的表现现实中的状况。接下来就需要避免过拟合问题。

加入约束项（惩罚函数）
lambda 属于一个超参数。
奥卡姆剃刀
复杂性带来的多样式是一些系统适应环境的一种方式，比如人、人类社会
SoftMax 分类器：评分–>概率问题
这个score有了一个信息学意义，即概率分布
一个单样本问题转化为
整合起来如何找到最好的W？

最优化方法

随机搜索（random search），就是暴力搜索
超级非凸不一定是不连续的–>2
梯度下降
超参数 step-size 步长
随机梯度下降
为了缩减计算量，我们认为样本空间足够的大，我们在其中随机的抽取一个小的BATCH。N is a minibatch

BP

链式法则
upstream gradient & local gradient(这个是要会算的)
分支处的梯度可以直接加起来，因为其是线性的
雅克比

problem

KL散度的定义
accurate 是如何算出来的以及loss是如何算出来的？？？？
一些计算概念

训练过程

一次性准备：激活函数，数据预处理，权重初始化，正则化，梯度
训练过程：参数更新，超参数（网络参数选项）
验证评估：模型整合

激活函数

all kinds of activation functions
sigmoid and tanh 有啥区别呢？？？？

sigmoid 很容易饱和，杀死梯度；只能往一个方向走（this is also why you want zero-mean data）;计算量稍大
数值计算是一个很重要的问题
TANH
relu ：simple 但是存在无法更新的区域
leaky relu :keep properties ; Prelu；这两个的表现很好
Elu :不会选
Maxout 计算量太大，不会选

数据预处理

preprocess the data
零均值（随机采样，一个很重要的思路；统计意义上，一幅图像的均值和很多张图像的均值相差不大）和归一化为了更快地收敛
PCA and Whitening(图像一般不会再做了)

假定小的随机数：值不停地在衰减，所以每一层衰减的很快。求和抵消不了指数衰减（？）。bp传不回去
比较大的随机数：产生震荡，所有的层都几近饱和，所以梯度也会为0
xavier初始化(激活函数是tanh)，每个数除以根号下N ,求方差，后面还会有平方项
用relu的话/根号下2n

batch normalization

训练过程

double check that the loss is reasonable
learning rate 选择要使loss减小
accurate 是如何算出来的以及loss是如何算出来的？？？
1e-3—1e-5之间学习率经验值

random search vs. grid search

大量的依赖于经验
update and values的比值约为0.01经验值

掌握它的思路是发现新问题的一个重要因素

满足自私的唯一的办法就是利他

猜你喜欢

转载自blog.csdn.net/the__future/article/details/84997531

2018/12/14 Deep Neural Network Training(1)

Deep Neural Network Training

Tips for Training Deep Neural Network

Neural Network and Deep Learning

Deep Neural Network

005 Deep Neural Network

李宏毅深度学习_Tips for Training Deep Neural Network

Neural Networks and Deep Learning--Course1week4--Building your Deep Neural Network -Step by Step

Neural Networks and Deep Learning--Course1week4--Deep Neural Network - Application v8

deeplearning.ai-lecture1-building deep neural network steps

Training Recurrent Neural Network

Neural Networks and Deep Learning--Course1week2--Logistic Regression with a Neural Network

Neural Network(1)-Introduction of Neural Network

Building your Deep Neural Network: Step by Step

Deep Neural Network - Application v3

《ImageNet Classification with Deep Convolutional Neural Network》

deep_learning_初学neural network

A Deep Neural Network Approach To Speech Bandwidth Expansion

Relation Classification via Convolutional Deep Neural Network

DL_C1_week4-1(Build Deep Neural Network)

Note——Neural Network and Deep Learning （1）[神经网络与深度学习学习笔记（1）]

ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network

Neural Networks and Deep Learning (Week 4)——Deep Nural Network

deeplearning.ai-lecture1-building deep neural network-summary

DL_C1_week4_2(build a deep neural network 2)

吴恩达深度学习(一)-第四周(1)：Building your Deep Neural Network

风格迁移学习笔记(1):Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast

Mixed-Precision Training of Deep Neural Networks

课程一(Neural Networks and Deep Learning)，第二周（Basics of Neural Network programming）—— 1、10个测验题（Neural N

Neural Networks and Deep Learning(1)

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)