文献阅读 Winect: 3D Human Pose Tracking for Free-form Activity Using Commodity WiFi

动机:为什么作者想要解决这个问题?

  • 现有的基于WiFi的3D人体姿势跟踪仅限于一组预定义的活动

贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 实现自由形式的活动跟踪
  • 姿态估计与环境无关
  • 非视距(NLoS)下也可以实现估计

规划:他们如何完成工作?

  • 整体方法概述

    信号分离:
      利用从人体反射信号的二维 (2D) 到达角 (AoA) 来识别运动的肢体,并判断运动肢体的数量。由于来自多个肢体的信号在接收器的每个天线处线性混合,根据盲源分离 (BSS)和运动肢体数量分离多肢体信号。一旦从每个肢体反射的信号分离,我们就可以随着时间的推移推导出每个肢体的位置,并通过利用分离信号的相位变化来推断多个发射器-接收器对(肢体)的3D空间中的轨迹。

    关键点运动建模:
      将每个肢体(例如手臂或腿)的轨迹分解为关节(例如手腕和肘部,或脚踝和膝盖)的细粒度轨迹,以进行 3D 姿势跟踪。具体来说,利用肢体和关节之间的内在关系构建一个深度学习模型,该模型将相应关节的位置约束到肢体的给定位置。基于肢体关节的运动学模型将推断的肢体轨迹分解为关节的细粒度轨迹,描述了肢体位置与其相应关节之间的内在关系。

  • 活动肢体的识别:

    1)改进的二维 AoA 估计
      在 L 形天线使用AoA-ToF联合估计,2 个接收天线、3 个发射天线和 30 个子载波。因此,每个轴(L天线两个轴)有 2 × 3 × 30 个传感元件。能够同时联合估计 2D AoA、AoD(离去角)和 ToF(飞行时间)。

    2)静态环境减法和肢体识别
      受谱减法[1, 2]的启发,谱减法是通过从噪声信号谱中减去平均噪声谱估计来完成的,通过类似地进行静态环境减法[3]并分析方位角仰角功率谱中的信号功率变化来识别每个移动肢体。为了消除静态环境的影响,首先推导出环境的二维 AoA 谱。通过减去静态环境,我们可以提取出与环境无关的运动肢体反射的信号。
      动态场景下的归一化方位角仰角谱与静态环境的归一化谱相减。减法后,可以得到包含主要受运动肢体影响的信号传播的方位角仰角谱。
      检测方位仰角谱中的峰值以识别所有运动的肢体。直观上,峰值的数量对应于运动肢体的数量,而我们可以根据方位仰角谱中的峰值位置进一步推断出具体的肢体。
    在这里插入图片描述

  • 多肢运动信号分离

    1)数据分割和子载波选择:
      将 CSI 分为一系列 0.1 秒的片段。
      为每对天线选择最敏感的子载波以进一步提高跟踪精度非常重要。具体来说,我们首先计算运动能量比[4],它是通过对 CSI 幅度进行快速傅里叶变换 (FFT) 并将肢体运动频率范围(例如,0-20 Hz)中所有 FFT bin 的能量和除以所有 FFT bin的能量和来完成的。然后,对于每个子载波,我们平均所有天线对的运动能量比。最后,我们为每个分段的 CSI 选择具有最大运动能量比的子载波。这是因为较大的运动能量比意味着所选子载波对肢体运动更敏感。

    2)信号分离
      当所有源都是独立的、非高斯的并且是线性组合时,BSS 问题可以使用 ICA (??)来解决[5]。经过验证,不同肢体的运动是相互独立的、非高斯的和线性混合的。
      但由于从商品 WiFi 设备中提取的原始 CSI 测量值中混合了相位失真 [6],因此简单地应用 ICA 仍然是不可行的。在这里,利用现有的工作 [7] (CSI商)来校准 CSI 并保持线性。 校准公式见论文
      利用RobustICA算法[8]解决BBS问题。
    在这里插入图片描述
      最后,根据复平面中的信号旋转计算路径长度变化:A/2π×λ。以及肢体的运动方向。

  • 关节分解

    1)肢体位置估计和轨迹重建
      为了实现3D,利用一发三收。通过在相应的发射器-接收器对处相交三个具有焦点的椭球来定位所有潜在的肢体位置。值得注意的是,我们将初始骨骼(即双臂自然下垂站立)的前臂中点或小腿中点设置为轨迹重建的初始位置。
      轨迹重建的见解是每个肢体的位置在很短的时间内(即单个 CSI 片段)缓慢变化,并且与其他潜在的肢体位置显著不同。(需要时再回看)
    在这里插入图片描述

    2)关节点估计
      肢体的自由形式轨迹,粒度仍然不足。利用深度学习来模拟肢体位置与相应关节之间的内在关系。在运动范围内可以轻松地为肢体位置关节位置构建点云。如果点云足够密集,几乎所有日常生活中的自由形式活动都可以表示为点云中的点形成的路径。因此,可以使用深度学习算法(ResNet)构建一个可以学习的模型肢体位置点云与关节位置点云的关系。通过使用点云,模型训练不基于信号模式,因此与环境无关。因此,构建这样的模型对用户来说是容易和简单的。
    在这里插入图片描述
      ResNet将肢体点云和关节点云作为输入,输出多个关节的预测位置。网络的具体参数见论文。
      一旦模型针对多个肢体进行了训练,它就可以预测每个肢体的每个给定位置的关节位置。

理由:通过什么实验验证它们的工作结果

  • 实验配置

    1)一发四收,R1,R2,R3距离发射端2米,R4(L天线阵列)距离发射端1.1米
    在这里插入图片描述

    2)6个人的数据

    3)讨论了非视距 (NLoS) 的影响

    4)4.3-4.10不同配置对结果的影响,其分析思路值得借鉴!

自己的看法

  • 这篇论文需要针对不同肢体单独训练,只能识别人在原地的肢体运动。实验中也只给出了腿和胳膊的肢体运动,剩余的骨架根据人的身高估计骨骼结构或使用默认的骨骼结构!
  • 走路时没法识别姿态,这一点值得改进

参考文献

[1] Enhancement of speech corrupted by acoustic noise
[2] Suppression of acoustic noise in speech using spectral subtraction
[3] MultiTrack:Multi-user tracking and activity recognition using commodity WiFi
[4] MultiSense: Enabling multi-person respiration sensing with commodity wifi
[5] Frontiers of research in BSS/ICA
[6] MultiSense: Enabling multi-person respiration sensing with commodity wifi.
[7] FarSense: Pushing the range limit of WiFi-based respiration sensing with CSI ratio of two antennas
[8] Robust independent component analysis by iterative maximization of the kurtosis contrast with algebraic optimal step size.

猜你喜欢

转载自blog.csdn.net/qq_42980908/article/details/123589467