神经网络搭建-人工智能实践

首先,神经网络的实现过程:

第一,   准备数据库,提取特征,作为输入为给神经网络(Neural Network,NN)

第二,   搭建NN结构,从输入到输出(先搭建计算图,再用会话执行)(NN前向算法--->计算输出)

第三,  大量特征数据喂给NN,迭代优化NN参数,直到模型达到要求(NN反向算法--->优化参数训练模型)

第四, 使用训练好的模型完成预测和分类

后面,我们分别来看看前向传播和反向传播的实现范式.


我们先来看看前向传播:(这一部分来自于pku教程的讲解并借鉴了前辈的一些概述)

前向传播就是搭建模型的计算过程,让模型具有推理能力,可以针对一组输入给出相应的输出。

在研究前向传播前,我们先得搞明白什么叫做神经网络的层数是怎么定义的,

神经网络层数=隐藏计算层+1个输出层,隐藏计算层就是运算中产生的中间参数,如下图所示。

神经网络复杂度(NN复杂度):层数+参数来表现。

为方便理解,我们举这么一个例: 

生产一批零件,体积为x1,重量为x2,1、2都代表下标。体积和重量就是我们选择的特征,把它们喂入神经网络,当体积和重量这组数据走过神经网络后会得到一个输出。

假如输入的特征值是:体积0.7  重量0.5

由搭建的神经网络可得,隐藏层节点a11=x1*w11+x2*w21=0.14+0.15=0.29,同理算得节点a12=0.32,a13=0.38,最终计算得到输出层Y=-0.015,这便实现了前向传播过程。

推导:

第一层 X是输入为1X2矩阵 用x表示输入,是一个1行2列矩阵,表示一次输入一组特征,这组特征包含了 体积和重量两个元素。 

W 前节点编号,后节点编号(层数) 为待优化的参数 ,它的上标代表层数

参数的产生在我的上一篇水文里面有提到。

对于第一层的w 前面有两个节点,后面有三个节点 w应该是个两行三列矩阵,

我们这样表示: 

神经网络共有几层(或当前是第几层网络)都是指的计算层,输入不是计算层,所以a为第一层网络,a是一个一行三列矩阵。 

我们这样表示:a(1)=[a11, a12, a13]=XW(1)

第二层参数要满足前面三个节点,后面一个节点,所以W(2) 是三行一列矩阵。 我们这样表示: 

我们把每层输入乘以线上的权重w,这样用矩阵乘法可以计算出输出y了。 

先算出a的运算表达:a= tf.matmul(X,W1) 

在算出y的运算表达:y= tf.matmul(a, W2) 

由于需要计算结果,就要用with结构实现,所有变量初始化过程、计算过程都要放到 sess.run 函数中。

对于变量初始化,我们在sess.run中写入tf.global_variables_initializer实现对所有变量初始化,也就是赋初值。对于计算图中的运算,我们直接把运算节点填入sess.run 即可,比如要计算输出y,直接写 sess.run(y) 即可。

在实际应用中,我们可以一次喂入一组或多组输入,让神经网络计算输出y,可以先用tf.placeholder给输入占位。

如果一次喂一组数据shape的第一维位置写1,第二维位置看有几个输入特征;

如果一次想喂多组数据,shape的第一维位置可以写None表示先空着,第二维位置写有几个输入特征。

这样在feed_dict中可以喂入若干组体积重量了。 

代码示例:

#coding:utf-8

import tensorflow as tf
#定义输入和参数
#sess.run中喂一组数据
x = tf.placeholder(tf.float32, shape=(1, 2))
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
 
#定义前向传播过程
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#用会话计算结果,计算图节点的值
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    print"y in this case is:\n",sess.run(y, feed_dict={x: [[0.7,0.5]]})

1.楼上是sess.run中喂入一组数据的情况 ,在sess.run中用feed_dict={}喂入数据:第一组喂体积0.7、重量0.5 

#coding:utf-8
import tensorflow as tf
#定义输入和参数
#用placeholder定义输入(sess.run喂多组数据)
x = tf.placeholder(tf.float32, shape=(None, 2))
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))

a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#调用会话计算结果
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()  
    sess.run(init_op)
    print "the result in this case is:\n",sess.run(y, feed_dict={x: [[0.7,0.5],[0.2,0.3],[0.3,0.4],[0.4,0.5]]})
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)

2.楼上是输入多组数据组成的集合的情况。

停停停停,先思考哲学的奥义。

再看看反向传播:

  1. 其目的是为了优化模型参数,在所有参数上用梯度下降,使得NN模型在训练数据上的损失函数最小。损失函数的话,我会在后面的水文中更细致地讲解。

损失函数:(loss):预测值(y)与已知答案(y_)的差距

均方误差MSE:MSE(y,y_)就是我们高中数学的每个样本与均值差的平方之和再除以样本容量。

Loss=tf.reduce_mean(tf.square(y_-y))

反向传播训练方法:以减小loss值为优化目标。

以减小loss值为优化目标,常用的优化方法(优化器)有三种:

梯度下降、momentum优化器、adam优化器。

这三种优化方法用tensorflow的函数可以表示为:

train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)

train_step=tf.train.MomentumOptimizer(learning_rate, momentum).minimize(loss)

train_step=tf.train.AdamOptimizer(learning_rate).minimize(loss)

其中learning_rate表示学习率,表示参数更新的幅度,使用时,我们可以用一个表较小的值,比如0.001.

学习率:learning-rate,决定参数每次更新的幅度。

最后来看看老师最后给出的一份源代码:

#coding:utf-8
#导入模块,生成模拟数据集。numpy是python的科学计算模块
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8
SEED = 23455
 
#基于seed产生随机数
rdm = np.random.RandomState(SEED)
#随机数返回32行2列的矩阵 表示32组 体积和重量 作为输入数据集
X = rdm.rand(32,2)
#从X这个32行2列的矩阵中 取出一行 判断如果和小于1 给Y赋值1 如果和不小于1 给Y赋值0 
#作为输入数据集的标签(正确答案) 
Y_ = [[int(x0 + x1 < 1)] for (x0, x1) in X]
print "X:\n",X
print "Y_:\n",Y_
 
#1定义神经网络的输入、参数和输出,定义前向传播过程。
x = tf.placeholder(tf.float32, shape=(None, 2))
y_= tf.placeholder(tf.float32, shape=(None, 1))
 
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
 
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#2定义损失函数及反向传播方法。
loss_mse = tf.reduce_mean(tf.square(y-y_)) 
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss_mse)
#train_step = tf.train.MomentumOptimizer(0.001,0.9).minimize(loss_mse)
#train_step = tf.train.AdamOptimizer(0.001).minimize(loss_mse)
 
#3生成会话,训练STEPS轮
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    # 输出目前(未经训练)的参数取值。
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)
    print "\n"
    
    # 训练模型。
    STEPS = 3000
    for i in range(STEPS):
        start = (i*BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict={x: X[start:end], y_: Y_[start:end]})
        if i % 500 == 0:
            total_loss = sess.run(loss_mse, feed_dict={x: X, y_: Y_})
            print("After %d training step(s), loss_mse on all data is %g" % (i, total_loss))
    
    # 输出训练后的参数取值。
    print "\n"
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)

对于这份成品,有几处需要说明:

1.numpy是python的科学计算模块

2.我们规定BATCH_SIZE为输入数据组数(or规模),一次不可喂入过多数据,否则神经网络会噎住。

3.seed是伪随机,我们只是为了演示才用把seed规定了这样一个值。

4.是利用随机数生成一个数据集,Y是一个标签:我们人为(为了演示)给出一个零件是否合格的评判标准,体积+重量<1的认为是合格的,标记为1;否则认为不合格,标记为0。我们在第十四行实现了数据标注的功能,先用for循环在表中抽取一行x0和x1,再判断x0+x1,如果小于1就是真,y=1;否则是假的,y=0。然后我们可以把数据集X,Y打印出来

5.接下来我们再定义神经网络的输入参数和输出:x是输入的特征,是三十二位浮点型的量,只知道有两类特征(体积和重量),并不知道有多少组特征(所以写None)。Y_表示标准答案,表示合格是1不合格是0的标签,只有一个元素,非零即1.参数W要匹配输入和输出,w1是2*3,w2是3*1的矩阵,

6.前向传播过程中,a=tf.matmul(x,w1)和y=tf.matmul(a,w2)是计算过程描述,用矩阵乘法实现。反向传播中,需要指定损失函数loss,我们用均方误差计算loss,使用梯度下降实现训练过程,三种优化方法择一即可。

7.可以试着修改这份范式代码,看看运行出来的结果有什么不同。

猜你喜欢

转载自blog.csdn.net/qq_42229034/article/details/81945513