tensorflow学习(10):图像处理函数

一、图像编码处理

众所周知,一张RGB彩色想可以看成一个三维矩阵,矩阵中的每一个数字表示了图像上不同位置,不同颜色的亮度。但是图像在存储时不是直接记录这些距震中的数字,而是记录经过压缩编码之后的结果,因此要将一张图像还原成一个三维矩阵,需要解码。tensorflow提供了对JPEG和PNG格式图像的编码/解码函数。
下列代码解释了编码和解码的过程

import tensorflow as tf
import matplotlib.pyplot as plt

#读取原始数据,r表示UTF-8编码,rb表示非UTF-8编码
image_raw_data = tf.gfile.FastGFile('dog.jpg','rb').read()  

with tf.Session() as sess:
    #对图像的JPEG格式解码从而得到图像对应的三维矩阵。tensorflow还提供了tf.image.decode_png函数对png格式的图像进行解码
    #解码之后的结果为一个张量,在使用它的取值之前需要明确调用运行的过程
    image_data = tf.image.decode_jpeg(image_raw_data)
    #输出解码之后的三维矩阵
    print(image_data.eval())
    #可视化图像
    plt.imshow(image_data.eval())
    plt.show()

    #将表示一张图像的三维矩阵重新按照JPEG格式编码并存入文件中,打开这张图像,可以得到和原始图像一样的图像
    encoded_image = tf.image.encode_jpeg(image_data)
    with tf.gfile.GFile('F:/python-code/tensorflow_learning/dog1.jpg','wb') as f:
        f.write(encoded_image.eval())

二、图像大小处理

这里会牵涉到图像放大的方法,想要了解的请移步这里图像内插

1.tf.image.resize_images(input_image,output_size,method)
该函数是将整幅图像进行放大或缩小,其中method的取值如下:

method取值 图像大小调整算法
0 双线性插值法
1 最近邻居法
2 双三次插值法
3 面积插值法

接下来的代码放在上述代码的plt.show()之后即可

    #将image_data原本是0-255中的整数转换成0-1之间的浮点数
    image_data = tf.image.convert_image_dtype(image_data,dtype = tf.float32)
    resized = tf.image.resize_images(image_data,[300,300],method=0)
    plt.imshow(resized.eval())
    plt.show()

需要将0-255的像素值转化为0.0-1.0范围内的实数的原因:大多数API支持整数和实数类型的输入。如果实数类型,这些API会在内部将输入转化为实数后处理,在将输出转化为整数。如果有多个处理步骤,在实数和整数之间反复转化会导致精度损失,因此最好在图像处理前将其转化为实数类型

2.tf.image.resize_image_with_crop_or_pad(input_img, h,w)
该函数用于对图像进行裁剪或者填充。h,w分别表示输出图像的height,weight
如果输出图像的大小小于输入图像,那么这个函数会自动截取原始图像中居中的部分,如果输出图像的大小小于输入图像,那么这个函数会自动在原始图像的四周填充全零背景

    image_data = tf.image.resize_image_with_crop_or_pad(image_data,300,300)
    plt.imshow(image_data)
    plt.show()

3.tf.image.central_crop(input, alpha)
该函数用于按比例裁剪图像中间的部分,其中0<alpha<=1

    image_data = tf.image.central_crop(image_data,0.5)
    plt.imshow(image_data)
    plt.show()

三、图像翻转

    #上下翻转
    flipped = tf.image.flip_up_down(image_data)
    plt.imshow(flipped.eval())
    plt.show()

左右翻转和沿着对角线翻转函数如下所示
flipped = tf.image.flip_left_right(image_data)
flipped = tf.image.transpose_image(image_data)

另外,在训练时,需要对图像进行随机翻转,tensorflow提供了下述函数进行概率为50%的随机翻转:
flipped = tf.image.random_flip_left_right(image_data)
flipped = tf.image.random_flip_up_down(image_data)

四、图像色彩调整

和图像反转类似,调整图像的亮度,对比度,饱和度和色相在很多图像识别应用中都不应该影响识别结果。所以在训练神经网络模型时,可以随机调整训练图像的属性,从而使训练得到的模型尽可能小的收到无关因素的影响 。
色彩跳帧给定API可能导致像素的实数值超出0.0-1.0的范围,因此在输出最终图像前要将其值截断在0.0-1.0范围,否则会出错。
截断函数:tf.clip_by_value(input,0.0,1.0)

  1. 亮度调整
#将图像的亮度-0.5
adjusted = tf.image.adjust_brightness(image_data, -0.5)
#在[-max_delta, max_delta] 的范围随机调整图像的亮度
adjusted = tf.image.random_brightness(image_data, max_delta)
#调整完之后别忘了截断
adjusted = tf.clip_by_value(adjusted, 0.0 , 1.0)
  1. 对比度调整
#将图像的对比度减少到0.5倍
adjusted = tf.image.adjust_contrast(image_data, 0.5)
#将图像的对比度增加到5倍
adjusted = tf.image.adjust_contrast(image_data, 5)
#在[lower, upper]范围内随机调整对比度
adjusted = tf.image.random_contrast(image_data, lower, upper)
  1. 色相调整
#将色相加0.1
adjusted = tf.image.adjust_hue(image_data, 0.1)
#在[-max_delta, max_delta]范围内随机调整色相,0<max_delta<0.5
adjusted = tf.image.random_hue(image_data, max_delta)
  1. 饱和度调整
#将图像的饱和度-5
adjusted = tf.image.adjust_saturation(image_data, -5)
#将图像的饱和度+5
adjusted = tf.image.adjust_saturation(image_data, +5)
#在[lower, upper] 范围呃逆随机调整图像的饱和度
adjusted = tf.image.random_saturation(image_data, lower, upper)
  1. 图像标准化
    该操作将图像上的亮度均值变成0,方差变成1
adjusted = tf.image.per_image_standardization(image_data)

五、标注框

在很图像识别的数据集中,图像中需要关注的物体通常会被标注框圈出来。tensorflow提供了一些工具来处理标注框,以下代码展示了如何通过tf.image.draw_bounding_boxes函数在图像中加入标注框

    #将图像缩小一些,这样可视化能让标注框更加清楚
    image_data = tf.image.resize_images(image_data,[182,267],method=1)
    #tf.image.draw_bounding_boxes函数要求图像矩阵中的数字为实数,所以需要先将图像矩阵转化
    #成实数类型,而且其输入是一个batch数据,也就是多张图像组成的四维矩阵,所以需要将解码之后的图像矩阵加一维
    batched = tf.expand_dims(tf.image.convert_image_dtype(image_data,tf.float32),0)
    #给出每一张图像的所有标注框,一个标注框有四个数字,分别代表[ymin,xmin,ymax,xmax]
    #注意,这里给出的数字都是图像的相对位置,范围在0-1之间
    #boxes需要三维数组的原因,分别代表了[batch, N, 4]
    boxes = tf.constant([[[0.05,0.05,0.9,0.7],[0.35,0.47,0.5,0.56]]])
    result = tf.image.draw_bounding_boxes(batched, boxes)
    plt.imshow(result[0].eval())
    plt.show()

猜你喜欢

转载自blog.csdn.net/shanlepu6038/article/details/84765985