TensorFlow.js简介

本文翻译自Medium上的文章：A Gentle Introduction to TensorFlow.js，原文地址：https://medium.com/tensorflow/a-gentle-introduction-to-tensorflow-js-dba2e5257702

Tensorflow.js是一个基于deeplearn.js构建的库，可直接在浏览器上创建深度学习模块。使用它可以在浏览器上创建CNN(卷积神经网络)、RNN(循环神经网络)等等，且可以使用终端的GPU处理能力训练这些模型。因此，可以不需要服务器GPU来训练神经网络。本教程首先解释TensorFlow.js的基本构建块及其操作。然后，我们描述了如何创建一些复杂的模型。

一点提示

如果你想体验代码的运行，我在Observable上创建了一个交互式编码会话。此外，我创建了许多小型项目，包括简单分类、样式转换、姿势估计和pix2pix翻译。

入门

由于TensorFlow.js在浏览器上运行，您只需将以下脚本包含在html文件的header部分即可：

<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs@latest"> </script>

这将加载最新发布的版本。

张量(构建块)

如果您熟悉TensorFlow之类的深度学习平台，您应该能够认识到张量是操作符使用的n维数组。因此，它们代表了任何深度学习应用程序的构建块。让我们创建一个标量张量：

const tensor = tf.scalar(2);

这创造了一个标量张量。我们还可以将数组转换为张量:

const input = tf.tensor([2,2]);

这会产生数组[2,2]的常量张量。换句话说，我们通过使用tensor函数将一维数组转换为张量。我们可以使用input.shape来检索张量的大小。

const tensor_s = tf.tensor([2,2]).shape;

这里的形状为[2]。我们还可以创建具有特定大小的张量。例如，下面我们创建一个形状为[2,2]的零值张量。

const input = tf.zeros([2,2]);

操作符

为了使用张量，我们需要在它们上创建操作符。比如我们想要获得张量的平方

const a = tf.tensor([1,2,3]);
a.square().print();

x2的值为[1,4,9]。TensorFlow.js还允许链式操作。例如，要评估我们使用的张量的二次幂

const x = tf.tensor([1,2,3]);
const x2 = x.square().square();

x2张量的值为[1,16,81]。

张量释放

通常我们会生成大量的中间张量。例如，在前一个示例中，评估x2之后，我们不需要x的值。为了做到这一点，我们调用dispose()

const x = tf.tensor([1,2,3]);
x.dispose();

请注意，我们在以后的操作中不能再使用张量x。但是，对于每个张量来说都要调用dispose()，这可能有点不方便。实际上，不释放张量将成为内存负担。TensorFlow.js提供了一个特殊的运算符tidy()来自动释放中间张量:

function f(x)
{
    return tf.tidy(()=>{
        const y = x.square();
        const z = x.mul(y);
        return z
        });
}

请注意，张量y的值将被销毁，因为在我们评估z的值之后不再需要它。

优化问题

这一部分，我们将学习如何解决优化问题。给定函数f(x)，我们要求求得x=a使得f(x)最小化。为此，我们需要一个优化器。优化器是一种沿着梯度来最小化函数的算法。文献中有许多优化器，如SGD，Adam等等，这些优化器的速度和准确性各不相同。Tensorflowjs支持大多数重要的优化器。

我们将举一个简单的例子：f(x)=x⁶+2x⁴+3x²+x+1。函数的曲线图如下所示。可以看到函数的最小值在区间[-0.5,0]。我们将使用优化器来找出确切的值。

首先，我们定义要最小化的函数:

function f(x) 
{
  const f1 = x.pow(tf.scalar(6, 'int32')) //x^6
  const f2 = x.pow(tf.scalar(4, 'int32')).mul(tf.scalar(2)) //2x^4
  const f3 = x.pow(tf.scalar(2, 'int32')).mul(tf.scalar(3)) //3x^2
  const f4 = tf.scalar(1) //1
  return f1.add(f2).add(f3).add(x).add(f4)
}

现在我们可以迭代地最小化函数以找到最小值。我们将以a=2的初始值开始，学习率定义了达到最小值的速度。我们将使用Adam优化器:

function minimize(epochs, lr)
{
  let y = tf.variable(tf.scalar(2)) //initial value 
  const optim = tf.train.adam(lr);  //gadient descent algorithm 
  for(let i = 0 ; i < epochs ; i++) //start minimiziation 
    optim.minimize(() => f(y));
  return y 
}

使用值为0.9的学习速率，我们发现200次迭代后的最小值为-0.16092407703399658。

一个简单的神经网络

现在我们学习如何创建一个神经网络来学习XOR，这是一个非线性操作。代码类似于keras实现。我们首先创建两个输入和一个输出的训练，在每次迭代中提供4个条目:

xs = tf.tensor2d([[0,0],[0,1],[1,0],[1,1]])
ys = tf.tensor2d([[0],[1],[1],[0]])

然后我们创建两个具有两个不同的非线性激活函数的密集层。我们使用具有交叉熵损失的随机梯度下降算法，学习率为0.1:

function createModel()
{
  var model = tf.sequential()
  model.add(tf.layers.dense({units:8, inputShape:2, activation: 'tanh'}))
  model.add(tf.layers.dense({units:1, activation: 'sigmoid'}))
  model.compile({optimizer: 'sgd', loss: 'binaryCrossentropy', lr:0.1})
  return model
}

接下来，我们对模型进行5000次迭代拟合:

  await model.fit(xs, ys, {
       batchSize: 1,
       epochs: 5000
   })

最后在训练集上进行预测:

model.predict(xs).print()

输出应为[[0.0064339]，[0.9836861]，[0.9835356]，[0.0208658]]，这是符合预期的。

CNN模型

TensorFlow.js使用计算图自动进行微分运算。我们只需要创建图层、优化器并编译模型。让我们创建一个序列模型:

model = tf.sequential();

现在我们可以为模型添加不同的图层。让我们添加第一个输入为[28,28,1]的卷积层:

const convlayer = tf.layers.conv2d({
  inputShape: [28,28,1],
  kernelSize: 5,
  filters: 8,
  strides: 1,
  activation: 'relu',
  kernelInitializer: 'VarianceScaling'
});

在这里，我们创建了一个输入大小为[28,28,1]的conv层。输入将是一个大小为28x28的灰色图像。然后我们应用8个尺寸为5x5的核，将stride等于1，并使用VarianceScaling初始化。之后，我们应用一个激活函数ReLU。现在我们可以将此conv层添加到模型中:

model.add(convlayer);

Tensorflow.js有什么好处？我们不需要指定下一层的输入大小，因为在编译模型后它将自动评估。我们还可以添加最大池化层、密集层等。下面是一个简单的模型

const model = tf.sequential();

//create the first layer 
model.add(tf.layers.conv2d({
  inputShape: [28, 28, 1],
  kernelSize: 5,
  filters: 8,
  strides: 1,
  activation: 'relu',
  kernelInitializer: 'VarianceScaling'
}));

//create a max pooling layer 
model.add(tf.layers.maxPooling2d({
  poolSize: [2, 2],
  strides: [2, 2]
}));

//create the second conv layer
model.add(tf.layers.conv2d({
  kernelSize: 5,
  filters: 16,
  strides: 1,
  activation: 'relu',
  kernelInitializer: 'VarianceScaling'
}));

//create a max pooling layer 
model.add(tf.layers.maxPooling2d({
  poolSize: [2, 2],
  strides: [2, 2]
}));

//flatten the layers to use it for the dense layers 
model.add(tf.layers.flatten());

//dense layer with output 10 units 
model.add(tf.layers.dense({
  units: 10,
  kernelInitializer: 'VarianceScaling',
  activation: 'softmax'
}));

我们可以在任何层上应用张量来检查输出张量。但是这里的输入需要形状如[BATCH_SIZE，28,28,1]，其中BATCH_SIZE表示我们一次应用于模型的数据集元素的数量。以下是如何评估卷积层的示例:

const convlayer = tf.layers.conv2d({
  inputShape: [28, 28, 1],
  kernelSize: 5,
  filters: 8,
  strides: 1,
  activation: 'relu',
  kernelInitializer: 'VarianceScaling'
});

const input = tf.zeros([1,28,28,1]);
const output = convlayer.apply(input);

在检查输出张量的形状后，我们看到它有形状[1,24,24,8]。这是使用下面公式计算得到的:

const outputSize = Math.floor((inputSize-kernelSize)/stride +1);

在我们的用例中，结果为24。回到我们的模型，使用flatten()将输入从形状[BATCH_SIZE，a，b，c]转换为形状[BATCH_SIZE，axbxc]。这很重要，因为在密集层中我们不能应用2d数组。最后，我们使用了具有输出单元10的密集层，它表示我们在识别系统中需要的类别的数量。实际上，该模型用于识别MNIST数据集中的手写数字。

优化和编译

创建模型之后，我们需要一种方法来优化参数。有不同的方法可以做到这一点，比如SGD和Adam优化器。例如，我们可以使用：

const LEARNING_RATE = 0.0001;
const optimizer = tf.train.adam(LEARNING_RATE);

这将创建一个指定的学习速率的Adam优化器。现在，我们准备编译模型(将模型与优化器连接起来)

model.compile({
  optimizer: optimizer,
  loss: 'categoricalCrossentropy',
  metrics: ['accuracy'],
});

在这里，我们创建了一个模型，它使用Adam来优化损失函数，评估预测输出和真实标签的交叉熵。

训练

编译完模型后，我们就可以在数据集上训练模型。为此，我们需要使用fit()函数

const batch = tf.zeros([BATCH_SIZE,28,28,1]);
const labels = tf.zeros([BATCH_SIZE, NUM_CLASSES]);

const h = await model.fit(batch, labels,
            {
              batchSize: BATCH_SIZE,
              validationData: validationData,
              epochs: BATCH_EPOCHs
            });

注意，我们向fit函数提供了一批训练集。fit函数的第二个变量表示模型的真实标签。最后，我们有配置参数，如批量大小和epoch。注意，epochs表示我们迭代当前批次(而不是整个数据集)的次数。因此，我们可以将代码放在迭代训练集的所有批次的for循环中。

注意，我们使用了特殊关键字await，它会阻塞并等待函数完成代码的执行。这就像运行另一个线程，主线程在等待拟合函数执行完成。

One Hot编码

通常给定的标签是代表类的数字。例如，假设我们有两个类：一个橙色类和一个苹果类。然后我们会给橙色的类标签0和苹果的类标签1。但是，我们的网络接受一个大小为[BATCH_SIZE,NUM_CLASSES]的张量。因此，我们需要使用所谓的one hot编码

const output = tf.oneHot(tf.tensor1d([0,1,0]), 2);

//the output will be [[1, 0],[0, 1],[1, 0]]

因此，我们将1d张量标签转换为形状为[BATCH_SIZE,NUM_CLASSES]的张量。

损失和精度

为了检验模型的性能，我们需要知道损失和精度。为了做到这一点，我们需要使用history模块获取模型的结果

//h is the output of the fitting module
const loss = h.history.loss[0];
const accuracy = h.history.acc[0];

注意，我们正在计算作为fit()函数输入的validationData的损失和精度。

预测

我们完成了对模型的训练，得到了良好的损失和精度，是时候预测未知的数据元素的结果了。假设我们在浏览器中有一个图像或者我们直接从网络摄像头中获取，然后我们可以使用训练好的模型来预测它的类别。首先，我们需要把图像转换成张量

//retrieve the canvas
const canvas = document.getElementById("myCanvas");
const ctx = canvas.getContext("2d");

//get image data
imageData = ctx.getImageData(0, 0, 28, 28);

//convert to tensor 
const tensor = tf.fromPixels(imageData);

在这里，我们创建了一个画布并从中获得图像数据，然后转换成一个张量。现在张量的大小是[28,28,3]，但是模型需要四维向量。因此，我们需要使用expandDims为张量增加一个额外的维度：

const eTensor = tensor.expandDims(0);

这样，输出张量的大小为[1,28,28,3]，因为我们在索引0处添加了一个维度。现在，我们只需要使用predict()进行预测：

model.predict(eTensor);

函数predict会返回网络中最后一层，通常是softmax激活函数，的值。

转移学习

在前面的部分中，我们必须从头开始训练我们的模型。然而，这个代价有点大，因为它需要相当多的训练迭代。因此，我们使用了一个预先训练好的名为mobilenet的模型。它是一个轻量级的CNN，经过优化，可以运行在移动应用程序中。Mobilenet基于ImageNet类别进行训练。实际上，它是在1000个分类上进行了训练。

使用如下代码加载模型:

const mobilenet = await tf.loadModel(
      'https://storage.googleapis.com/tfjs-models/tfjs/mobilenet_v1_0.25_224/model.json');

我们可以使用输入、输出来检查模型的结构

//The input size is [null, 224, 224, 3]
const input_s = mobilenet.inputs[0].shape;

//The output size is [null, 1000]
const output_s = mobilenet.outputs[0].shape;

为此，我们需要大小为[1,224,224,3]的图像，输出将是大小为[1,1000]的张量，它包含ImageNet数据集中每个类的概率。

简单起见，我们将取一个0数组，并尝试预测1000个分类中的类别：

var pred = mobilenet.predict(tf.zeros([1, 224, 224, 3]));
pred.argMax().print();

运行代码后，我得到类别=21，这代表一个风筝o:

现在我们需要检查模型的内容，这样，我们可以得到模型层和名称:

//The number of layers in the model '88'
const len = mobilenet.layers.length;

//this outputs the name of the 3rd layer 'conv1_relu'
const name3 = mobilenet.layers[3].name;

如结果所见，我们有88个层，这在另一个数据集中再次训练代价是非常大的。因此，最基本的技巧是使用这个模型来评估激活(我们不会重新训练)，但是我们将创建密集层，在其他一些类别上进行训练。

例如，假设我们需要一个模型来区分胡萝卜和黄瓜。我们将使用mobilene tmodel来计算我们选择的某个层的激活参数，然后我们使用输出大小为2的密集层来预测正确的类。因此，mobilenet模型将在某种意义上“冻结”，我们只是训练密集层。

首先，我们需要去掉模型的密集层。我们选择提取一个随机的层，比如编号81，命名为conv_pw_13_relu:

const layer = mobilenet.getLayer('conv_pw_13_relu');

现在让我们更新我们的模型，使得这个层是一个输出层：

mobilenet = tf.model({inputs: mobilenet.inputs, outputs: layer.output});

最后，我们创建出一个可训练的模型，但我们需要知道最后一层输出形状：

//this outputs a layer of size [null, 7, 7, 256]
const layerOutput = layer.output.shape;

其形状为[null, 7,7256]，现在我们可以将它输入到密集层中:

 trainableModel = tf.sequential({
    layers: [
      tf.layers.flatten({inputShape: [7, 7, 256]}),
      tf.layers.dense({
        units: 100,
        activation: 'relu',
        kernelInitializer: 'varianceScaling',
        useBias: true
      }),
      tf.layers.dense({
        units: 2,
        kernelInitializer: 'varianceScaling',
        useBias: false,
        activation: 'softmax'
      })
    ]
  });

如你所见，我们创建了一个密集层，有100个神经元，输出层大小为2。

const activation = mobilenet.predict(input);
const predictions = trainableModel.predict(activation);

我们可以使用前面的部分的方法，使用特定的优化器来训练最后一个模型。