Skip to content

Muuuchen/SCH_Model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SCH

文件目录

HRNet

该项目主要参考以下仓库

环境配置:

  • Python3.6/3.7/3.8
  • Pytorch1.10或以上
  • pycocotools(Linux:pip install pycocotools; Windows:pip install pycocotools-windows(不需要额外安装vs))
  • Ubuntu或Centos(不建议Windows)
  • 最好使用GPU训练
  • 详细环境配置见requirements.txt

文件结构:

在上级目录汇总了res和dataset
  ├── model: 搭建HRNet相关代码
  ├── train_utils: 训练验证相关模块(包括coco验证相关)
  ├── my_dataset_coco.py: 自定义dataset用于读取COCO2017数据集
  ├── person_keypoints.json: COCO数据集中人体关键点相关信息
  ├── train.py: 单GPU/CPU训练脚本
  ├── train_multi_GPU.py: 针对使用多GPU的用户使用
  ├── predict.py: 简易的预测脚本,使用训练好的权重进行预测
  ├── validation.py: 利用训练好的权重验证/测试数据的COCO指标,并生成record_mAP.txt文件
  ├──filetree.txt 模型中的文件树形结构
  ├──DNN 后续检测中的DNN检测模块
  ├──ResNet 后续识别中的ResNet残差模块
  ├──Score 具体姿态的动作评分算法
  ├──results* 模型的训练结果
  └── transforms.py: 数据增强相关

预训练权重下载地址(下载后放入当前文件夹中):

由于原作者提供的预训练权重(Imagenet和COCO)是放在GoogleDrive和OneDrive上的,国内无法正常访问。所有我提前将权重文件全部下载并放在百度网盘中, 需要的可以自行下载,链接:https://pan.baidu.com/s/1Lu6mMAWfm_8GGykttFMpVw 提取码:f43o

下载后的目录结构如下:

├── pytorch
      ├── pose_mpii
      ├── pose_coco
      │     ├── pose_resnet_50_384x288.pth
      │     ├── pose_resnet_50_256x192.pth
      │     ├── pose_resnet_101_384x288.pth
      │     ├── pose_resnet_101_256x192.pth
      │     ├── pose_hrnet_w32_384x288.pth
      │     └── pose_hrnet_w32_256x192.pth
      └── imagenet
            ├── resnet50-19c8e357.pth
            ├── resnet152-b121ed2d.pth
            ├── resnet101-5d3b4d8f.pth
            └── hrnet_w32-36af842e.pth

如果要直接使用在COCO数据集上预训练好的权重进行预测,下载pose_coco下的pose_hrnet_w32_256x192.pth使用即可。 如果要从头训练网络,下载imagenet下的hrnet_w32-36af842e.pth文件,并重命名为hrnet_w32.pth即可。

除此之外,还有一个person_detection_results文件,存储的是论文中提到的人体检测器的检测结果,如果需要使用可以下载,但个人建议直接使用COCO val中GT信息即可。 链接: https://pan.baidu.com/s/19Z4mmNHUD934GQ9QYcF5iw 密码: i08q

数据集,本例程使用的是COCO2017数据集

  • COCO官网地址:https://cocodataset.org/
  • 对数据集不了解的可以看下我写的博文:https://blog.csdn.net/qq_37541097/article/details/113247318
  • 这里以下载coco2017数据集为例,主要下载三个文件:
    • 2017 Train images [118K/18GB]:训练过程中使用到的所有图像文件
    • 2017 Val images [5K/1GB]:验证过程中使用到的所有图像文件
    • 2017 Train/Val annotations [241MB]:对应训练集和验证集的标注json文件
  • 都解压到coco2017文件夹下,可得到如下文件夹结构:
├── coco2017: 数据集根目录
     ├── train2017: 所有训练图像文件夹(118287张)
     ├── val2017: 所有验证图像文件夹(5000张)
     └── annotations: 对应标注文件夹
              ├── instances_train2017.json: 对应目标检测、分割任务的训练集标注文件
              ├── instances_val2017.json: 对应目标检测、分割任务的验证集标注文件
              ├── captions_train2017.json: 对应图像描述的训练集标注文件
              ├── captions_val2017.json: 对应图像描述的验证集标注文件
              ├── person_keypoints_train2017.json: 对应人体关键点检测的训练集标注文件
              └── person_keypoints_val2017.json: 对应人体关键点检测的验证集标注文件夹

训练方法

  • 注:该项目从头训练HRNet在MS COCO2017的val上的mAP[@0.50:0.95]为76.1,利用原作者提供的权重在val上的mAP[@0.50:0.95]为76.6,相差0.5个点, 暂时没有找到原因。由于训练该网络需要迭代210个epoch(按照论文中的数据),训练时间很长,建议直接使用原作者提供训练好的权重。另外,在训练过程中发现GPU的利用率 并不高(在20%~60%之间浮动),暂时猜测是网络结构的原因。
  • 确保提前准备好数据集
  • 确保提前下载好对应预训练模型权重
  • 确保设置好--num-joints(对于人体检测的关键点个数,COCO是17个点)、--fixed-size(输入目标图像的高宽,默认[256, 192])和--data-path(指向coco2017目录)
  • 若要使用单GPU训练直接使用train.py训练脚本
  • 若要使用多GPU训练,使用torchrun --nproc_per_node=8 train_multi_GPU.py指令,nproc_per_node参数为使用GPU数量
  • 如果想指定使用哪些GPU设备可在指令前加上CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)
  • CUDA_VISIBLE_DEVICES=0,3 torchrun --nproc_per_node=2 train_multi_GPU.py

注意事项

  1. 在使用训练脚本时,注意要将--data-path设置为自己存放数据集的根目录: 假设要使用COCO数据集,启用自定义数据集读取CocoDetection并将数据集解压到成/data/coco2017目录下
python train.py --data-path /data/coco2017
  1. 训练过程中保存的key_results.txt是每个epoch在验证集上的COCO指标,前10个值是COCO指标,后面两个值是训练平均损失以及学习率
  2. 在使用预测脚本时,如果要读取自己训练好的权重要将weights_path设置为你自己生成的权重路径。

HRNet网络结构图

HRNet.png

改进模块

以上为项目框架和模型总体架构, 后续为改进模块:

为了解决模型规模对嵌入外骨骼机器人的影响,深度可分离卷积通过划分逐通道卷积和逐点卷积,将上一层的多通道特征图拆分为单个通道的特征图。随后分别对他们进行单通道卷积,最后重新叠加逐通道卷积和逐点卷积,减少了模型规模,能够在有效降低运算量的同时不大幅度降低有效性。现实世界中的遮挡问题是很普遍的,而CBAM作为一种结合了通道注意力和空间注意力的轻量级模块,具有良好的易嵌入性。此模块小幅度增加运算复杂度和参数数量的情况下,减少不重要物体的干扰,提升对重要目标的检测效果,从而大幅提升识别精度。

本研究结合HRnet、深度可分离卷积、CBAM模块,提出一种改进的网络模型。首先,在HRnet基础上加入深度可分离卷积,将标准化卷积分解为逐深度卷积和逐点卷积,从而构建轻量级模型。使模型在减少参数,改善模型大小,降低计算开销方面得到良好表现。其次,插入CBAM注意力机制。先将输入特征图通过通道注意力模块,再将权重和输入特征图相乘后再送入空间注意力机制,最后将归一化权重和空间注意力机制的输入特征图相乘,得到最终的特征图。由此有效地提高模型的表征能力,降低不重要物体的影响,提升重要物体的识别精度,进而提高此方法整体性能。

Alt text

修改的代码部分在 model/old_hrnet.py

实验结果

Alt text

Alt text

在模型参数量上也有更为显著的提升

Alt text

动作评分模块

SCORE 在这部分我们对关心部分关键点和其对应连接的向量,并用这部分向量之间的相似度约束动作的得分标准计算每个动作的得分。

数据集 本次数据集采用COCO2017人体目标检测数据集,其格式规范为:

json_
{
1-‘nose’, 
2-‘left_eye’ 
3-‘right_eye’,
4-‘left_ear’,
5-‘right_ear’,
6-‘left_shoulder’,
7-‘right_shoulder’,
8-‘left_elbow’,
9-‘right_elbow’,
10-‘left_wrist’, 
11-‘right_wrist’,
12-‘left_hip’,
13-‘right_hip’,
14-‘left_knee’,
15-‘right_knee’,
16-‘left_ankle’,
17-‘right_ankle’
}

Alt text 从图中结构看来我们并不需要关心01234他是固定的,对于行为动作标准我们仅考虑一下键值对之间的角度关系我们把他分为不同的动作域

对于向量的标准方向做一约定:

up->down
left->right
定义 5 6 中点 x (pos_5 + pos_6) / 2
上肢体信息
5-7 : "左大臂" 
7-9 : “左小臂”
5-6 : "肩部"
6-8 : "右大臂" 
8-10: "右小臂"
下肢体信息
11-13 : "左大腿"
13-15 : ”左小腿“
11-12 : ”胯“
12-14 : ”右大腿“
14-16 : ”右小腿“

我们完成这些定义之后需要定义角度的方向,具体说是向量的正方向

角度定义

A1 B1 C1 D1
A2 B2 C2 D2

我们更希望是如下的形式: img 那么这种数据结构根据公式推导来定义就很简单了,我们只需要按照顺序存储上肢体信息或者下肢体信息。

\theta = COS(edge[i],edge[i+1])

那么我们实现这样一个函数即可,我们输入一张图片,和关键点的所有坐标,返回字典,字典包含按照顺序定义的肢体间的角度,并在图像上将其画出来,标注出对应角度值,以及最终的评分。

我们在CalcAngle.py 计算出了定义的各个角度值,然后再根据std_angle.py里的标准动作值,来计算得分

我们用对比现有数据和计算数据的角度组的MSE,以此作为衡量的依据,

std_angle.py 作为评分的标准数据,采集于专家指标

upper
Edges {'1': [7, 9], '2': [5, 7], '3': [5, 6], '4': [6, 8], '5': [8, 10]}
Vector [[74.72511599999999, 27.137250000000023], [-20.379569999999973, -81.41178000000002], [101.897906, -6.784320000000008], [0.0, -115.33333000000002], [-20.379585999999996, -94.98041]]
Angle [0.9771587657666367, 1.7496013055841486, 1.6372777908492613, 0.21136149305542395]
lower
Edges {'1': [13, 15], '2': [11, 13], '3': [11, 12], '4': [12, 14], '5': [14, 16]}
Vector [[74.72511999999999, -101.76472999999999], [-20.37957, -142.47057], [74.72514, 0.0], [-6.803200000000004, -149.25490000000002], [-6.783190000000005, -142.47054999999995]]
Angle [2.3661398630571586, 1.7128765639098795, 1.5252467713555846, 0.0020256910074662017]
SCORE 91.42631023222955

Process finished with exit code 0

在后面补充了画线的函数 它定义了有边点集 然后对应画

实验数据对比发现 下肢角度信息更加有用

Get started

在准备好上述训练数据集和模型之后我们针对即可针对视频或者图片实现完整的姿态检测和评分以及定义的动作个数 predict.py python videoInfer.py 或者 python videoInfer_withsave.py实现图片\视频的检测和计数(采用了滑动平均方法)效果如下

针对视频的关键点检测:

Alt text

动作评分曲线图:

Alt text

针对动作标准的计数和评分系统演示由于个人隐私暂不演示(健身动作,参考下图):

针对单张图片的:

Alt text

Alt text

针对所有健身效果的评分,可信度,姿态指标都在 ./res中的图片所见。

About

SCORE-COUNT-HRNET

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published