Openface (三) EYE GAZE 数据集

三维视线估计

1、Eyediap 数据集 :利用深度摄像头标注 RGB 视频中的眼睛中心点位置和乒乓球位置。把这两个位置映射到深度摄像头记录的三维点云中,从而得到对应的三维位置坐标。这两个三维位置坐标相减后即得到视线方向。
https://www.idiap.ch/en/dataset/eyediap
head_pose.txt :逐帧头部姿势参数。
eye_tracking.txt :逐帧 2D 和 3D 眼睛位置。
ball_tracking.txt :球目标的逐帧 2D 和 3D 位置。
screen_coordinates.txt :逐帧 2D 和 3D 屏幕坐标。
rgb_vga_calibration.txt:RGB Kinect 相机的校准参数。
depth_calibration.txt:深度相机的校准参数。
rgb_hd_calibration.txt:RGB高清摄像头的标定参数。

2、MPIIGaze :利用 RGB 摄像头的公开参数,将 gaze 目标以及眼睛位置坐标(通过一个三维的 6 关键点模型得到)通过算法变换到相机坐标下,然后再计算 gaze 作为 ground truth。但是这种标注方法不仅操作复杂,而且并不准确。
https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/gaze-based-human-computer-interaction/appearance-based-gaze-estimation-in-the-wild

3、MPIIGaze 与 MPIIFaceGaze 使用的是同一批数据,但并不是同一个数据集。MPIIGaze 数据集并不包含全脸图片;MPIIFaceGaze 的 ground truth 定义方式与 MPIIGaze 不同。
https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/gaze-based-human-computer-interaction/its-written-all-over-your-face-full-face-appearance-based-gaze-estimation/

原始数据集:http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze.zip
归一化数据:http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze_normalized.zip
图像保存在Maltab中,预处理需要调整RGB通道,水平翻转图像,并旋转90度。
new_image = original_image(:,:,[3 2 1]);
new_image = flip(new_image, 2);
new_image = imrotate(new_image, 90);

Label:
每个参与者文件夹中都有 pxx.txt 文件。其中保存信息:
Dimension 1:图像文件路径和名称。
Dimension 2~3:注视点在屏幕上的坐标,以像素为单位,实际屏幕尺寸可以在“校准”文件夹中找到。
Dimension 4~15:六个面部标志的 (x,y) 位置,即四个眼角和两个嘴角。
Dimension 16~21:基于 6 点的 3D 人脸模型、旋转和平移在相机坐标系中估计的 3D 头部姿态:我们在 [ Eye Tracking for Everyone] 中实现了相同的基于 6 点的 3D 人脸模型.
https://www.cnblogs.com/hansjorn/p/12575838.html
https://blog.csdn.net/qq_40136542/article/details/109343631

Dimension 22~24 (fc):相机坐标系中的人脸中心,是6个焦点标志人脸模型的平均3D位置。由于头部和面部的中心不同,头部平移略有不同。
Dimension 25~27 (gt):相机坐标系中的 3D 凝视目标位置。注视方向可以计算为gt - fc。
维度 28:哪只眼睛(左眼或右眼)用于 [ Appearance-based Gaze Estimation in the Wild] 中的评估子集。

每个参与者都有一个“校准”文件夹,其中包含
(1)Camera.mat:笔记本电脑相机的内在参数。“cameraMatrix”:相机的投影矩阵“distCoeffs”:相机畸变系数。“retval”:均方根 (RMS) 重投影误差。“rvecs”:旋转向量。“tvecs”:平移向量。
https://blog.csdn.net/weixin_43206570/article/details/84797361
(2) monitorPose.mat:相机坐标中图像平面的位置。“rvecs”:旋转向量。“tvecs”:平移向量。
(3)creanSize.mat:笔记本电脑屏幕尺寸。“height_pixel”:以像素为单位的屏幕高度。“width_pixel”:以像素为单位的屏幕宽度。“height_mm”:以毫米为单位的屏幕高度。“宽度_毫米”:

左轴显示在屏幕坐标系中估计和真实凝视位置之间的欧氏误差,以毫米为单位。右轴显示了相应的角度误差,这是根据数据集提供的摄像机和监视器校准信息以及3D注视估计任务的相同参考位置近似计算出来的。在这里插入图片描述
左轴是由估计的和真实的三维注视向量直接计算出来的角误差。右轴显示相应的欧几里德误差,该误差是通过将估计的三维注视向量与屏幕平面相交来近似的。
在这里插入图片描述

在这里插入图片描述

注视点估计
https://gazecapture.csail.mit.edu/
收集并公布了一个涵盖 1400 多人、240 多万样本的数据集,GazeCapture
数据集:https://gazecapture.csail.mit.edu/download.php
**[Eye Tracking for Everyone. CVPR 2016]**模型在 iPhone 上的误差是 1.71cm,在平板上的误差是 2.53cm;代码: https://github.com/CSAILVision/GazeCapture
[On-device few-shot personalization for real-time gaze estimation. ICCV 2019] 精简后的模型在 iPhone 上的误差为 1.78cm,在 Google Pixel 2 Phone 的处理速度达到 10ms/帧。

Guess you like

Origin blog.csdn.net/weixin_41386168/article/details/118939687