目次
序文
前回のブログでは、顔を特定し、顔上のキー ポイントを特定する方法について説明しました。これらには、5 点位置決めと 68 点位置決めが含まれます。位置決め後、位置情報を使用して、ドライバーの に適用できる閉眼検出などの関連操作を実行できます。疲労検出や、パソコンをよく使う人は目を閉じないとドライアイを引き起こす可能性があります。
重要なポイントを説明
今回のブログでは主に目を閉じて疲労運転を検知する方法を説明しますので、まず人間が目を閉じているかどうかをコンピュータに判断させる方法を理解する必要があります。前回のブログから、まずコンピューターに顔を認識させる必要があり、その後、認識された顔のキー ポイントの検索を続ける必要があることがわかります。ここで使用するのは 68 個のキーポイント検出です。
目に関しては、それぞれの目に6つのキーポイントがあります。ここでは、まばたきが発生したかどうかを判断する方法を使用できます。
目の 6 つの主要な点のうち、目が開いているときのユークリッド距離は 2 ~ 6 点と 3 ~ 5 点の間であることがわかります。 a i=2>の方が大きいです。点 1 と点 4 の間の距離がわずかに増加すると、式を設定できます。
同様に、図上では、ポイント 2 と 6 が減算され、ポイント 3 と 5 が減算されます。次に、1 点と 4 点の差を 2 倍で比較します。それらはすべて絶対値です。このように、目を開けているとEARの値が大きくなり、目を閉じているとEARの値が小さくなります。次に、ビデオ フレーム内の数フレーム以上で EAR の値がこのしきい値よりも低い場合に、しきい値を自分で設定します。次に、運転者が目を閉じていると仮定します。
論文で検証した結果、この方法の精度は非常に優れており、強力な堅牢性を備えていることがわかりました。
詳しいコードの説明
まず、ユークリッド距離を計算するためのツールキットも含まれるツールキットをインポートします。
from scipy.spatial import distance as dist
from collections import OrderedDict
import numpy as np
import argparse
import time
import dlib
import cv2
次に、68 個のキーポイントの位置情報を配置しました。
FACIAL_LANDMARKS_68_IDXS = OrderedDict([
("mouth", (48, 68)),
("right_eyebrow", (17, 22)),
("left_eyebrow", (22, 27)),
("right_eye", (36, 42)),
("left_eye", (42, 48)),
("nose", (27, 36)),
("jaw", (0, 17))
])
ここ"jaw", (0, 17)
は顎の位置のキー ポイント マークを表し、それぞれ 0 ~ 17 ポイントです。
次に、必要なモデルとビデオをプログラムにインポートします。キーポイント検出モデル。
ap = argparse.ArgumentParser()
ap.add_argument("-p", "--shape-predictor", required=True,
help="path to facial landmark predictor")
ap.add_argument("-v", "--video", type=str, default="",
help="path to input video file")
args = vars(ap.parse_args())
EYE_AR_THRESH = 0.3
EYE_AR_CONSEC_FRAMES = 3
ここではこれら 2 つのパラメータが非常に重要で、そのうち EYE_AR_THRESH は EAR のしきい値を表します。この閾値より高ければその時点で目は開いていることを意味し、この閾値より低ければ目を閉じている可能性があるので注意が必要である。そして、EYE_AR_CONSEC_FRAMES は、EAR 値が 3 フレーム以上を超えている場合、目を閉じていると識別できることを意味します。なぜ3フレームなのでしょうか? 1つのフレームに2つのフレームがある場合、他の要因の影響を受ける可能性があるためです。
COUNTER = 0
TOTAL = 0
次に、さらに 2 つのカウンタを設定します。しきい値未満の場合、COUNTER
の値は 1 つ増加します。COUNTER の値が以上の場合、 3、TOTALが1つ増えますが、これは記録された目が1回閉じられたことを意味します。
print("[INFO] loading facial landmark predictor...")
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(args["shape_predictor"])
ここではよく知られているもので、1 つは顔位置検出器、もう 1 つはキー ポイント検出器です。ここで個別に呼び出します。
(lStart, lEnd) = FACIAL_LANDMARKS_68_IDXS["left_eye"]
(rStart, rEnd) = FACIAL_LANDMARKS_68_IDXS["right_eye"]
次に、キーポイントを通る 2 つの ROI 領域 (左目領域と右目領域) のみを取得します。
print("[INFO] starting video stream thread...")
vs = cv2.VideoCapture(args["video"])
次に、ビデオで読み上げます。
while True:
# 预处理
frame = vs.read()[1]
if frame is None:
break
(h, w) = frame.shape[:2]
width=1200
r = width / float(w)
dim = (width, int(h * r))
frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
動画の表示枠を少し大きくする ここで注意したいのは、動画の表示枠が小さすぎると顔が検出されない可能性があるということです。次に、幅を 1200 に設定し、同じ比率で長さのサイズを変更します。最後にグレースケール画像に変換しました。
rects = detector(gray, 0)
ここでは顔を検出し、顔枠の4つの座標を取得する。グレースケール画像は処理する必要があることに注意してください。
for rect in rects:
# 获取坐标
shape = predictor(gray, rect)
shape = shape_to_np(shape)
ここでは、顔フレームのトラバースが実行され、68 個のキー ポイントが検出されます。
def shape_to_np(shape, dtype="int"):
# 创建68*2
coords = np.zeros((shape.num_parts, 2), dtype=dtype)
# 遍历每一个关键点
# 得到坐标
for i in range(0, shape.num_parts):
coords[i] = (shape.part(i).x, shape.part(i).y)
return coords
抽出されたキーポイントの座標は次のとおりです。
leftEye = shape[lStart:lEnd]
rightEye = shape[rStart:rEnd]
leftEAR = eye_aspect_ratio(leftEye)
rightEAR = eye_aspect_ratio(rightEye)
次に、左目と右目のそれぞれの EAR 値を計算しました。ここでの eye_aspect_ratio
関数は、EAR 値の計算に使用されます。
def eye_aspect_ratio(eye):
# 计算距离,竖直的
A = dist.euclidean(eye[1], eye[5])
B = dist.euclidean(eye[2], eye[4])
# 计算距离,水平的
C = dist.euclidean(eye[0], eye[3])
# ear值
ear = (A + B) / (2.0 * C)
return ear
ここでdist.euclidean
はユークリッド距離の計算を意味します。これは、式で EAR 値を計算することとまったく同じです。
ear = (leftEAR + rightEAR) / 2.0
# 绘制眼睛区域
leftEyeHull = cv2.convexHull(leftEye)
rightEyeHull = cv2.convexHull(rightEye)
cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)
次に、左目と右目の両方に対して EAR ソリューションを実行して平均値を取得し、凸包の概念に基づいて目の領域をプロットしました。左目の部分と右目の部分を描画します。
if ear < EYE_AR_THRESH:
COUNTER += 1
else:
# 如果连续几帧都是闭眼的,总数算一次
if COUNTER >= EYE_AR_CONSEC_FRAMES:
TOTAL += 1
# 重置
COUNTER = 0
# 显示
cv2.putText(frame, "Blinks: {}".format(TOTAL), (10, 30),
cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
cv2.putText(frame, "EAR: {:.2f}".format(ear), (300, 30),
cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
cv2.imshow("Frame", frame)
key = cv2.waitKey(10) & 0xFF
if key == 27:
break
vs.release()
cv2.destroyAllWindows()
最後に閾値判定を行い、3フレーム連続でEARが0.3未満の場合はTOTALに1を加算し、目を閉じる過程を記録します。そして最後にEAR値とTOTAL値が動画内に表示されます。最後に全体的なトレーニングを完了します。
結果表示
改善の方向性(あくび疲労検知方法)
疲労検出では、まばたきの光検出が特に正確ではない可能性があることがわかっているため、ドライバーの疲労を示す可能性のある他のポイントを組み合わせて、ドライバーが疲労運転段階にあるかどうかを示す必要もあります。あくびやうなずきもドライバーの疲労を示している可能性があることがわかりました。まず口のあくびについて考えてみましょう。
まずは口のポイントを見ていきましょう。
まばたき検出にも同じ方法を使用して、口が開いているかどうかを検出するために口にも同じ方法を使用し続けます。対応する式は次のとおりです。
def mouth_aspect_ratio(mouth):
A = np.linalg.norm(mouth[2] - mouth[9]) # 51, 59
B = np.linalg.norm(mouth[4] - mouth[7]) # 53, 57
C = np.linalg.norm(mouth[0] - mouth[6]) # 49, 55
mar = (A + B) / (2.0 * C)
return mar
ここでは、ドライバーが口を開いたかどうかを判断するために、口の領域の 6 つのポイントを選択します。
MAR_THRESH = 0.5
MOUTH_AR_CONSEC_FRAMES = 3
閾値を設定する必要もありますが、説明はまばたき検出の場合と同じです。
(mStart, mEnd) = FACIAL_LANDMARKS_68_IDXS["mouth"]
まず、68 個のキー ポイントのうち、対応する口の領域を取得します。
mouth = shape[mStart:mEnd]
mar = mouth_aspect_ratio(mouth)
次に、関数mouth_aspect_ratioを使用してmar値を計算します。次に、凸包検出を実行して描画します。
mouthHull = cv2.convexHull(mouth)
cv2.drawContours(frame, [mouthHull], -1, (0, 255, 0), 1)
left = rect.left()#绘制出来人脸框
top = rect.top()
right = rect.right()
bottom = rect.bottom()
cv2.rectangle(frame, (left, top), (right, bottom), (0, 255, 0), 3)
ここで追加する必要があるのは、顔のフレームを描画する必要があるということです。
if mar > MAR_THRESH: # 张嘴阈值0.5
mCOUNTER += 1
cv2.putText(frame, "Yawning!", (10, 60), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
else:
# 如果连续3次都小于阈值,则表示打了一次哈欠
if mCOUNTER >= MOUTH_AR_CONSEC_FRAMES: # 阈值:3
mTOTAL += 1
# 重置嘴帧计数器
mCOUNTER = 0
cv2.putText(frame, "Yawning: {}".format(mTOTAL), (150, 60), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
cv2.putText(frame, "mCOUNTER: {}".format(mCOUNTER), (300, 60), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
cv2.putText(frame, "MAR: {:.2f}".format(mar), (480, 60), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
そして判断してビデオで見せてください!
改善の方向性(疲れを感知するうなずき)
検出プロセス:
2D 顔キー ポイント検出、3D 顔モデル マッチング、3D ポイントと対応する 2D ポイント間の変換関係の解決、回転行列に基づくオイラー角の解決。
カメラに対するオブジェクトの姿勢は、回転行列と平行移動行列で表すことができます。
!](https://img-blog.csdnimg.cn/a8286dc98d624f4183eed96daab991e2.png)
1. オイラー角
簡単に言えば、オイラー角は、座標系の 3 つの座標軸 (x、y、z 軸) を中心としたオブジェクトの回転角度です。
2. 世界座標系と他の座標系との変換
座標系の変換:
カメラ座標系からピクセル座標系への変換:
したがって、ピクセル座標系とワールド座標系の関係は次のようになります。
次に、論文に従ってそれを定義します。
object_pts = np.float32([[6.825897, 6.760612, 4.402142], #33左眉左上角
[1.330353, 7.122144, 6.903745], #29左眉右角
[-1.330353, 7.122144, 6.903745], #34右眉左角
[-6.825897, 6.760612, 4.402142], #38右眉右上角
[5.311432, 5.485328, 3.987654], #13左眼左上角
[1.789930, 5.393625, 4.413414], #17左眼右上角
[-1.789930, 5.393625, 4.413414], #25右眼左上角
[-5.311432, 5.485328, 3.987654], #21右眼右上角
[2.005628, 1.409845, 6.165652], #55鼻子左上角
[-2.005628, 1.409845, 6.165652], #49鼻子右上角
[2.774015, -2.080775, 5.048531], #43嘴左上角
[-2.774015, -2.080775, 5.048531],#39嘴右上角
[0.000000, -3.116408, 6.097667], #45嘴中央下角
[0.000000, -7.415691, 4.070434]])#6下巴角
K = [6.5308391993466671e+002, 0.0, 3.1950000000000000e+002,
0.0, 6.5308391993466671e+002, 2.3950000000000000e+002,
0.0, 0.0, 1.0]# 等价于矩阵[fx, 0, cx; 0, fy, cy; 0, 0, 1]
# 图像中心坐标系(uv):相机畸变参数[k1, k2, p1, p2, k3]
D = [7.0834633684407095e-002, 6.9140193737175351e-002, 0.0, 0.0, -1.3073460323689292e+000]
reprojectsrc = np.float32([[10.0, 10.0, 10.0],
[10.0, 10.0, -10.0],
[10.0, -10.0, -10.0],
[10.0, -10.0, 10.0],
[-10.0, 10.0, 10.0],
[-10.0, 10.0, -10.0],
[-10.0, -10.0, -10.0],
[-10.0, -10.0, 10.0]])
# 绘制正方体12轴
line_pairs = [[0, 1], [1, 2], [2, 3], [3, 0],
[4, 5], [5, 6], [6, 7], [7, 4],
[0, 4], [1, 5], [2, 6], [3, 7]]
このうち、reprojectsrc
と line_pairs
は、長方形と長方形接続枠の操作に属します。後で使用します。
cam_matrix = np.array(K).reshape(3, 3).astype(np.float32)
dist_coeffs = np.array(D).reshape(5, 1).astype(np.float32)
ここで、K 行列と D 行列を再形成しました。
def get_head_pose(shape): # 头部姿态估计
# (像素坐标集合)填写2D参考点,注释遵循https://ibug.doc.ic.ac.uk/resources/300-W/
# 17左眉左上角/21左眉右角/22右眉左上角/26右眉右上角/36左眼左上角/39左眼右上角/42右眼左上角/
# 45右眼右上角/31鼻子左上角/35鼻子右上角/48左上角/54嘴右上角/57嘴中央下角/8下巴角
image_pts = np.float32([shape[17], shape[21], shape[22], shape[26], shape[36],
shape[39], shape[42], shape[45], shape[31], shape[35],
shape[48], shape[54], shape[57], shape[8]])
# solvePnP计算姿势——求解旋转和平移矩阵:
# rotation_vec表示旋转矩阵,translation_vec表示平移矩阵,cam_matrix与K矩阵对应,dist_coeffs与D矩阵对应。
_, rotation_vec, translation_vec = cv2.solvePnP(object_pts, image_pts, cam_matrix, dist_coeffs)
# projectPoints重新投影误差:原2d点和重投影2d点的距离(输入3d点、相机内参、相机畸变、r、t,输出重投影2d点)
reprojectdst, _ = cv2.projectPoints(reprojectsrc, rotation_vec, translation_vec, cam_matrix, dist_coeffs)
reprojectdst = tuple(map(tuple, reprojectdst.reshape(8, 2))) # 以8行2列显示
# 计算欧拉角calc euler angle
# 参考https://docs.opencv.org/2.4/modules/calib3d/doc/camera_calibration_and_3d_reconstruction.html#decomposeprojectionmatrix
rotation_mat, _ = cv2.Rodrigues(rotation_vec) # 罗德里格斯公式(将旋转矩阵转换为旋转向量)
pose_mat = cv2.hconcat((rotation_mat, translation_vec)) # 水平拼接,vconcat垂直拼接
# decomposeProjectionMatrix将投影矩阵分解为旋转矩阵和相机矩阵
_, _, _, _, _, _, euler_angle = cv2.decomposeProjectionMatrix(pose_mat)
pitch, yaw, roll = [math.radians(_) for _ in euler_angle]
pitch = math.degrees(math.asin(math.sin(pitch)))
roll = -math.degrees(math.asin(math.sin(roll)))
yaw = math.degrees(math.asin(math.sin(yaw)))
print('pitch:{}, yaw:{}, roll:{}'.format(pitch, yaw, roll))
return reprojectdst, euler_angle # 投影误差,欧拉角
ここでは、いくつかのキーポイントを配置し、世界座標系を 2D 座標に変換します。最後に、ドライバーがうなずいたかどうかを判断できるように、CV2 を通じてオイラー角を計算しました。
HAR_THRESH = 0.3
NOD_AR_CONSEC_FRAMES = 3
hCOUNTER = 0
hTOTAL = 0
同様に、ここでもしきい値とカウンターを設定する必要があります。
reprojectdst, euler_angle = get_head_pose(shape)
har = euler_angle[0, 0] # 取pitch旋转角度
if har > HAR_THRESH: # 点头阈值0.3
hCOUNTER += 1
else:
# 如果连续3次都小于阈值,则表示瞌睡点头一次
if hCOUNTER >= NOD_AR_CONSEC_FRAMES: # 阈值:3
hTOTAL += 1
# 重置点头帧计数器
hCOUNTER = 0
# 绘制正方体12轴
for start, end in line_pairs:
cv2.line(frame, (int(reprojectdst[start][0]),int(reprojectdst[start][1])), (int(reprojectdst[end][0]),int(reprojectdst[end][1])), (0, 0, 255))
# 显示角度结果
cv2.putText(frame, "X: " + "{:7.2f}".format(euler_angle[0, 0]), (10, 90), cv2.FONT_HERSHEY_SIMPLEX, 0.75,
(0, 255, 0), thickness=2) # GREEN
cv2.putText(frame, "Y: " + "{:7.2f}".format(euler_angle[1, 0]), (150, 90), cv2.FONT_HERSHEY_SIMPLEX, 0.75,
(255, 0, 0), thickness=2) # BLUE
cv2.putText(frame, "Z: " + "{:7.2f}".format(euler_angle[2, 0]), (300, 90), cv2.FONT_HERSHEY_SIMPLEX, 0.75,
(0, 0, 255), thickness=2) # RED
cv2.putText(frame, "Nod: {}".format(hTOTAL), (450, 90), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (255, 255, 0), 2)
for (x, y) in shape:
cv2.circle(frame, (x, y), 1, (0, 0, 255), -1)
if TOTAL >= 50 or mTOTAL >= 15:
cv2.putText(frame, "SLEEP!!!", (100, 200), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 0, 255), 3)
ここでは、いくつかの判定操作とビデオ内の情報の表示も行います。
最終的な効果は次のとおりです。
GUIインターフェースデザイン表示
ブロガーさんの記事が良い、使えそうだと思ったら無料でフォローできますので、3回連続で集めて応援していただけるとさらにお得です!これが私にできる最大のサポートです!