神经网络搭建-人工智能实践

首先，神经网络的实现过程：

第一，准备数据库，提取特征，作为输入为给神经网络（Neural Network，NN）

第二，搭建NN结构，从输入到输出（先搭建计算图，再用会话执行）（NN前向算法--->计算输出）

第三，大量特征数据喂给NN，迭代优化NN参数，直到模型达到要求（NN反向算法--->优化参数训练模型）

第四，使用训练好的模型完成预测和分类

后面，我们分别来看看前向传播和反向传播的实现范式.

我们先来看看前向传播：（这一部分来自于pku教程的讲解并借鉴了前辈的一些概述）

前向传播就是搭建模型的计算过程，让模型具有推理能力，可以针对一组输入给出相应的输出。

在研究前向传播前，我们先得搞明白什么叫做神经网络的层数是怎么定义的，

神经网络层数=隐藏计算层+1个输出层，隐藏计算层就是运算中产生的中间参数，如下图所示。

神经网络复杂度（NN复杂度）：层数+参数来表现。

为方便理解，我们举这么一个例：

生产一批零件，体积为x1，重量为x2，1、2都代表下标。体积和重量就是我们选择的特征，把它们喂入神经网络，当体积和重量这组数据走过神经网络后会得到一个输出。

假如输入的特征值是：体积0.7 重量0.5

由搭建的神经网络可得，隐藏层节点a11=x1*w11+x2*w21=0.14+0.15=0.29，同理算得节点a12=0.32，a13=0.38，最终计算得到输出层Y=-0.015，这便实现了前向传播过程。

推导：

第一层 X是输入为1X2矩阵用x表示输入，是一个1行2列矩阵，表示一次输入一组特征，这组特征包含了体积和重量两个元素。

W 前节点编号，后节点编号(层数) 为待优化的参数，它的上标代表层数

参数的产生在我的上一篇水文里面有提到。

对于第一层的w 前面有两个节点，后面有三个节点 w应该是个两行三列矩阵，

我们这样表示：

神经网络共有几层（或当前是第几层网络）都是指的计算层，输入不是计算层，所以a为第一层网络，a是一个一行三列矩阵。

我们这样表示：a(1)=[a11, a12, a13]=XW(1)

第二层参数要满足前面三个节点，后面一个节点，所以W(2) 是三行一列矩阵。我们这样表示：

我们把每层输入乘以线上的权重w，这样用矩阵乘法可以计算出输出y了。

先算出a的运算表达：a= tf.matmul(X,W1)

在算出y的运算表达：y= tf.matmul(a, W2)

由于需要计算结果，就要用with结构实现，所有变量初始化过程、计算过程都要放到 sess.run 函数中。

对于变量初始化，我们在sess.run中写入tf.global_variables_initializer实现对所有变量初始化，也就是赋初值。对于计算图中的运算，我们直接把运算节点填入sess.run 即可，比如要计算输出y，直接写 sess.run(y) 即可。

在实际应用中，我们可以一次喂入一组或多组输入，让神经网络计算输出y，可以先用tf.placeholder给输入占位。

如果一次喂一组数据shape的第一维位置写1，第二维位置看有几个输入特征；

如果一次想喂多组数据，shape的第一维位置可以写None表示先空着，第二维位置写有几个输入特征。

这样在feed_dict中可以喂入若干组体积重量了。

代码示例：

#coding:utf-8

import tensorflow as tf
#定义输入和参数
#sess.run中喂一组数据
x = tf.placeholder(tf.float32, shape=(1, 2))
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
 
#定义前向传播过程
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#用会话计算结果，计算图节点的值
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    print"y in this case is:\n",sess.run(y, feed_dict={x: [[0.7,0.5]]})

1.楼上是sess.run中喂入一组数据的情况，在sess.run中用feed_dict={}喂入数据：第一组喂体积0.7、重量0.5

#coding:utf-8
import tensorflow as tf
#定义输入和参数
#用placeholder定义输入（sess.run喂多组数据）
x = tf.placeholder(tf.float32, shape=(None, 2))
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))

a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#调用会话计算结果
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()  
    sess.run(init_op)
    print "the result in this case is:\n",sess.run(y, feed_dict={x: [[0.7,0.5],[0.2,0.3],[0.3,0.4],[0.4,0.5]]})
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)

2.楼上是输入多组数据组成的集合的情况。

停停停停，先思考哲学的奥义。

再看看反向传播：

其目的是为了优化模型参数，在所有参数上用梯度下降，使得NN模型在训练数据上的损失函数最小。损失函数的话，我会在后面的水文中更细致地讲解。

损失函数：（loss）：预测值（y）与已知答案（y_）的差距

均方误差MSE：MSE（y，y_）就是我们高中数学的每个样本与均值差的平方之和再除以样本容量。

Loss=tf.reduce_mean(tf.square(y_-y))

反向传播训练方法：以减小loss值为优化目标。

以减小loss值为优化目标，常用的优化方法（优化器）有三种：

梯度下降、momentum优化器、adam优化器。

这三种优化方法用tensorflow的函数可以表示为：

train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)

train_step=tf.train.MomentumOptimizer(learning_rate, momentum).minimize(loss)

train_step=tf.train.AdamOptimizer(learning_rate).minimize(loss)

其中learning_rate表示学习率，表示参数更新的幅度，使用时，我们可以用一个表较小的值，比如0.001.

学习率：learning-rate，决定参数每次更新的幅度。

最后来看看老师最后给出的一份源代码：

#coding:utf-8
#导入模块，生成模拟数据集。numpy是python的科学计算模块
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8
SEED = 23455
 
#基于seed产生随机数
rdm = np.random.RandomState(SEED)
#随机数返回32行2列的矩阵 表示32组 体积和重量 作为输入数据集
X = rdm.rand(32,2)
#从X这个32行2列的矩阵中 取出一行 判断如果和小于1 给Y赋值1 如果和不小于1 给Y赋值0 
#作为输入数据集的标签（正确答案） 
Y_ = [[int(x0 + x1 < 1)] for (x0, x1) in X]
print "X:\n",X
print "Y_:\n",Y_
 
#1定义神经网络的输入、参数和输出,定义前向传播过程。
x = tf.placeholder(tf.float32, shape=(None, 2))
y_= tf.placeholder(tf.float32, shape=(None, 1))
 
w1= tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2= tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))
 
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
 
#2定义损失函数及反向传播方法。
loss_mse = tf.reduce_mean(tf.square(y-y_)) 
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss_mse)
#train_step = tf.train.MomentumOptimizer(0.001,0.9).minimize(loss_mse)
#train_step = tf.train.AdamOptimizer(0.001).minimize(loss_mse)
 
#3生成会话，训练STEPS轮
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    # 输出目前（未经训练）的参数取值。
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)
    print "\n"
    
    # 训练模型。
    STEPS = 3000
    for i in range(STEPS):
        start = (i*BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        sess.run(train_step, feed_dict={x: X[start:end], y_: Y_[start:end]})
        if i % 500 == 0:
            total_loss = sess.run(loss_mse, feed_dict={x: X, y_: Y_})
            print("After %d training step(s), loss_mse on all data is %g" % (i, total_loss))
    
    # 输出训练后的参数取值。
    print "\n"
    print "w1:\n", sess.run(w1)
    print "w2:\n", sess.run(w2)

对于这份成品，有几处需要说明：

1.numpy是python的科学计算模块

2.我们规定BATCH_SIZE为输入数据组数（or规模），一次不可喂入过多数据，否则神经网络会噎住。

3.seed是伪随机，我们只是为了演示才用把seed规定了这样一个值。

4.是利用随机数生成一个数据集，Y是一个标签：我们人为（为了演示）给出一个零件是否合格的评判标准，体积+重量<1的认为是合格的，标记为1；否则认为不合格，标记为0。我们在第十四行实现了数据标注的功能，先用for循环在表中抽取一行x0和x1，再判断x0+x1，如果小于1就是真，y=1；否则是假的，y=0。然后我们可以把数据集X，Y打印出来

5.接下来我们再定义神经网络的输入参数和输出：x是输入的特征，是三十二位浮点型的量，只知道有两类特征（体积和重量），并不知道有多少组特征（所以写None）。Y_表示标准答案，表示合格是1不合格是0的标签，只有一个元素，非零即1.参数W要匹配输入和输出，w1是2*3，w2是3*1的矩阵，

6.前向传播过程中，a=tf.matmul(x,w1)和y=tf.matmul(a,w2)是计算过程描述，用矩阵乘法实现。反向传播中，需要指定损失函数loss，我们用均方误差计算loss，使用梯度下降实现训练过程，三种优化方法择一即可。

7.可以试着修改这份范式代码，看看运行出来的结果有什么不同。

神经网络搭建-人工智能实践

猜你喜欢