您的位置 主页 正文

用深度学习进行人体三维重建,该如何入门?

一、用深度学习进行人体三维重建,该如何入门? 转自专栏 计算机视觉AI:人体三维重建(三)——参数化人体方法简述 三维人体形状 指的是以三维网格形式表示的 人体几何 形状模

一、用深度学习进行人体三维重建,该如何入门?

转自专栏

计算机视觉AI:人体三维重建(三)——参数化人体方法简述

三维人体形状指的是以三维网格形式表示的人体几何形状模型。按照[1]中的分类方式,可以将三维人体形状重建粗略的分为参数化方法与非参数化方法。本次先介绍参数化方法。

参数化人体形状重建方法依赖于某个基于统计得到的人体参数化模型,仅需一组低维向量(即人体参数)即可描述人体形状。目前常见的参数化人体模型如SCAPE[2]、SMPL[3]、SMPL-X[4]等。

以SCAPE为例,它定义了两个独立的低维参数空间:人体体型(Shape)空间与人体姿态(Pose)空间。给定空间下的一组人体体型参数与人体姿态参数,即可直接合成一个人体形状。其中人体体型空间是通过对相同姿态、不同体型的人体数据库进行PCA(Principal Component Analysis,主成分分析)降维得到的子空间进行表示,体型参数则是该子空间中各个基的系数。图1(a)显示SCAPE体型基上的参数变化影响人体体型变化。SCAPE的姿态参数则以17个人体部分相对于标准模板人体相应部分的旋转表示。

图1(a) 经典人体参数化模型-SCAPE

随着SCAPE模型的成功,一些研究者在其基础上不断改进,提出了各种升级版本,较为知名的如Blend Scape[5],Breath Scape[6],S-Scape[7]等等。但是SCAPE模型的变形依赖于三角形面片的旋转变形,而不是以动画软件中常用的顶点变形方法(如骨骼蒙皮)进行变形,因此SCAPE生成的人体几何模型难以在现有的动画软件(如Maya, Blender等)直接使用。

最近,德国马克思-普朗克研究所开源了一个基于顶点变形的人体参数化模型SMPL[3]。SMPL模型同样由人体体型参数与人体姿态参数控制变形。其体型参数与SCAPE的体型参数相同,都以PCA提取出的体型变形基的参数进行表示。而姿态参数则是以人体的全局旋转以及23个关节的关节角旋转表示,并通过LBS(Linear Blend Skinning,线性混合蒙皮)进行人体姿态变形。SMPL的人体生成如图1(b)所示。

图1(b) 经典人体参数化模型-SMPL人体形变示意

传统的参数化人体重建方法通常利用特殊的设备获得人体的稠密三维点云数据或者深度数据,然后通过点云配准、模板变形等方式拟合SCAPE参数,进而重建出三维人体形状。

近年来,许多研究者利用Kinect深度相机捕获的人体深度数据以及SCAPE模型重建三维人体形状。Zhang等人[8]通过单个Kinect相机采集中间转动人体的多视图局部点云数据,并进行配准,然后采用类似SCAPE构建人体的方法对多个视图的点云进行拟合。

Weiss等人[9]也采用单个Kinect相机,不同于转动人体来获得多视图局部点云,他们捕获单人在Kinect前移动的多个单目深度图,通过最小化SCAPE人体模型的轮廓重投影与深度图轮廓之间的配准误差进行优化求解,如图2所示。但是该方法的求解过程非常耗时(重建一个人体需超过1小时)。

图2 Weiss等人的工作

Zhao等人[10]也提出了基于单个Kinect的参数化人体重建方法。他们首先利用Kinect拍摄人体正面和背面两张深度图,随后分别利用这两张深度图重建人体的半身网格,最后将其缝合在一起。上述方法的人体重建结果依赖于Kinect采集的深度图质量。但是由于Kinect的硬件限制,采集得到的深度图往往含有较大的噪声,严重影响重建质量。

此外,其它一些工作并不依赖于特殊设备捕获的稠密三维点云或者深度数据作为重建输入,而采用诸如人体二维关节点坐标[12,14]、人体轮廓[11,15,16]、人体描述参数[17–21]等其它数据形式来约束参数化人体几何形状重建。

Guan等人[12]依靠手动标注的人体二维关节点位置以及GrabCut[22]自动分割的人体轮廓,通过SFS(shape from shading,明暗恢复形状)的方式最小化渲染图与人体轮廓的配准误差来优化SCAPE参数,如图3所示。

图3 Guan 等人 [12] 的工作

SMPLify[14]则引入基于卷积神经网络的人体二维姿态估计模型,他们通过最小化合成人体三维姿态与检测得到的二维关节点的重投影配准误差来优化SMPL参数(包括体型与姿态参数),同时加入人体穿透约束来降低从二维提升到三维的歧义性。但是该方法中并未对人体体型进行约束,而且容易陷入到局部最优解导致重建失败。

Lassner等人[23]在SMPLify的基础上,加入更加多的人体标记点约束(91个标记点),得到了更加准确的姿态重建结果。同时他们提出使用随机森林(RandomForest)模型学习人体轮廓到SMPL体型参数的映射关系。但是他们预测的人体轮廓质量较差,严重影响体型的预测结果。

近年来,基于深度学习的参数化人体形状重建方法开始变得流行[24]。Dibra等人[11]是最早利用CNN(Convolutionalneuralnetwork,卷积神经网络)来估计人体体型参数,他们直接将站立姿态人体的特定视角掩码作为卷积神经网络输入,直接回归SCAPE的体型参数。相比于人工设计特征,CNN能够自动提取体型特征,得到了比较准确的体型预测结果。如图4所示。

图4 Dibra 等人 [11] 的工作

随后,Dibra等人[25]又进一步提高了体型预测精度。他们首先学习了一个描述固定姿态下不同视角相同体型的特征隐空间,然后学习从该隐空间到体型参数的回归模型。该方法对于其它视角的人体掩码图像也可以预测得到可靠的体型参数。单一视图的人体掩码图像往往会缺失部分体型信息,比如男性的啤酒肚,在正面的掩码图像上无法显示该特征。

为了解决该问题,Ji等人[16]设计了一个新颖的双流网络结构,同时将正面与侧面的人体掩码作为输入来预测SCAPE形状参数。

不仅仅预测人体体型,许多研究者利用深度学习方法直接从图像[13,26–28]、视频[29,30]中估计人体体型与姿态。

HMR[26]将人体关节点的重投影配准误差加入到损失函数中,用于监督SMPL的姿态参数与体型参数。HMR借鉴了生成对抗网络(Generative Adversarial Network,GAN)[31]的思想,在损失函数中加入了一个判别器,用于监督预测人体参数的合法性。但是该方法并未有效对人体体型进行有效监督,导致预测的人体更加接近于平均身材,同时人体姿态也与输入图像中的人体相差较大。

Pavlakos等人[28]提出将姿态参数与体型参数解耦成两个子问题进行预测,分别利用预测得到的二维关节点热图和人体轮廓来分别回归姿态参数和体型参数。

最近,Xu等人[13]创新地在损失函数中加入人体网格顶点的稠密重投影误差。他们将Densepose[32]预测得到的IUV图(表示稠密网格顶点与图像像素的对应关系)作为输入,回归得到的人体网格,然后通过微分渲染器(Differential Renderer)渲染得到预测IUV图,并与输入IUV图之间计算配准误差。该方法在姿态和体型上都得到了更加准确的重建结果。如图5所示。

图5 Xu等人 [13]的工作

下期将介绍三维人体重建的非参数方法、SMPL人体参数化模型的详细论述。喜欢的小伙伴们可以点赞与收藏噢。

参考文献

[1] YE M, YANG R. Real-time simultaneouspose and shape estimation for articulated objects using a single depthcamera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2345-2352.

[2] ANGUELOV D, SRINIVASAN P, KOLLER D, etal. SCAPE: Shape completion and animation of people[J]. ACM Trans. Graph.,2005, 24(3):408-416.

[3] LOPER M, MAHMOOD N, ROMERO J, et al.Smpl: A skinned multi-person linear model [J]. ACM transactions on graphics(TOG), 2015, 34(6):248.

[4] PAVLAKOS G, CHOUTAS V, GHORBANI N, etal. Expressive body capture: 3d hands, face, and body from a singleimage[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10975-10985.

[5] HIRSHBERG D A, LOPER M, RACHLIN E, etal. Coregistration: Simultaneous alignment and modeling of articulated 3dshape[C]//European conference on computer vision. Springer, 2012: 242-255.

[6] TSOLI A, MAHMOODN, BLACKM J. Breathinglife into shape: Capturing, modeling and animating 3d human breathing[J]. ACMTransactions on graphics (TOG), 2014, 33(4):1-11.

[7] JAIN A, THORMÄHLEN T, SEIDEL H P, etal. Moviereshape: Tracking and reshaping of humans in videos[J]. ACMTransactions on Graphics (TOG), 2010, 29(6):1-10.

[8] ZHANG Q, FU B, YE M, et al. Qualitydynamic human body modeling using a single lowcost depth camera[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. 2014:676-683.

[9] WEISS A, HIRSHBERG D, BLACKM J. Home 3dbody scans from noisy image and range data[C]//2011 International Conference onComputer Vision. IEEE, 2011: 1951-1958.

[10] ZHAO T, LI S, NGAN K N, et al. 3-dreconstruction of human body shape from a single commodity depth camera[J].IEEE Transactions on Multimedia, 2018, 21(1):114-123.

[11] DIBRA E, JAIN H, OZTIRELI C, et al.Hs-nets: Estimating human body shape from silhouettes with convolutional neuralnetworks[C]//2016 fourth international conference on 3D vision (3DV). IEEE,2016: 108-117.

[12] GUAN P, WEISS A, BALAN A O, et al.Estimating human shape and pose from a single image[C]//IEEE InternationalConference on Computer Vision. 2009: 1381-1388.

[13] XUY, ZHUS C,TUNGT. Denserac: Joint 3dpose and shape estimation by dense render-and compare[C]//Proceedings of theIEEE International Conference on Computer Vision. 2019:7760 - 7770.

[14] BOGO F, KANAZAWA A, LASSNER C, et al.Keep it SMPL: Automatic estimation of 3D human pose and shape from a singleimage[C]//European Conference on Computer Vision. 2016: 561-578.

[15] SIGAL L, BALAN A, BLACK M. Combineddiscriminative and generative articulated pose and non-rigid shapeestimation[J]. Advances in neural information processing systems, 2007,20:1337-1344.

[16] JI Z, QI X, WANG Y, et al.Shape-from-mask: A deep learning based human body shape reconstruction frombinary mask images[J]. arXiv preprint arXiv:1806.08485, 2018.

[17] STREUBER S, QUIROS-RAMIREZ M A, HILL MQ, et al. Body talk: Crowdshaping realistic 3d avatars with words[J]. ACMTransactions on Graphics (TOG), 2016, 35(4):1-14.

[18] SEO H, MAGNENAT-THALMANN N. Anexample-based approach to human body manipulation[J]. Graphical Models, 2004,66(1):1-23.

[19] WUHRER S, SHU C. Estimating 3d humanshapes from measurements[J]. Machine vision and applications, 2013,24(6):1133-1147.

[20] ALLEN B, CURLESS B, POPOVIĆ Z. The space of human body shapes: reconstruction andparameterization from range scans[J]. ACM transactions on graphics (TOG), 2003,22 (3):587-594.

[21] 谢昊洋. 高精度三维人体重建及其在虚拟试衣中的应用[D]. 东华大学, 2020. [22] ROTHER C, KOLMOGOROVV, BLAKE A. ” grabcut” interactive foreground extraction using iterated graphcuts[J]. ACM transactions on graphics (TOG), 2004, 23(3):309-314.

[23] LASSNER C, ROMERO J, KIEFEL M, et al.Unite the people: Closing the loop between 3D and 2D humanrepresentations[C]//IEEE Conf. on Computer Vision and Pattern Recognition(CVPR). 2017: 6050-6059.

[24] 许豪灿, 李基拓, 陆国栋. 由 LeNet-5 从单张着装图像重建三维人体[J]. 浙江大学学报, 2021, 55(1):153-161.

[25] DIBRA E, JAIN H, OZTIRELI C, et al.Human shape from silhouettes using generative hks descriptors and cross-modalneural networks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2017: 4826-4836.

[26] KANAZAWAA, BLACKM J, JACOBSDW, et al.End-to-end recovery ofhuman shape and pose[C]//IEEE Conference on ComputerVision and Pattern Recognition. 2018: 7122-7131.

[27] Joo H, Neverova N, Vedaldi A. Exemplarfine-tuning for 3d human pose fitting towards inthe-wild 3d human poseestimation[J]. arXiv preprint arXiv:2004.03686, 2020.

[28] ZIMMERMANN C, BROX T. Learning toestimate 3D hand pose from single RGB images [C]//IEEE International Conferenceon Computer Vision. 2017: 4903-4911.

[29] KOCABAS M,ATHANASIOUN, BLACKM J. Vibe:Video inference for human body pose and shape estimation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:5253-5263.

[30] KANAZAWA A, ZHANG J Y, FELSEN P, etal. Learning 3d human dynamics from video [C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2019: 5614-5623.

[31] GOODFELLOWI J, POUGET-ABADIE J,MIRZAM, et al. Generative adversarial networks [J]. arXiv preprintarXiv:1406.2661, 2014.

[32] GÜLER R A, NEVEROVA N, KOKKINOS I.Densepose: Dense human pose estimation in the wild[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 7297-7306.

二、曲面重建是三维重建吗?

曲面重建是三维重建

三维重建的英文术语名称是3D Reconstruction.三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。

三、心血管疾病预测机器学习

心血管疾病预测机器学习:探索健康未来的新方法

在当今数字化时代,机器学习技术的发展正逐渐改变着医疗保健行业的面貌。特别是在心血管疾病方面,机器学习算法的应用正为预测、诊断和治疗提供了新的途径。随着大数据的不断积累和人工智能的迅速发展,我们正处于一个可以通过数据驱动方法来改善心血管健康状况的时代。

机器学习在心血管疾病预测中的应用

心血管疾病一直是全球范围内最主要的健康威胁之一,及时准确地预测患者的风险至关重要。传统的风险评估方法往往基于一些基本的生理指标和问卷调查结果,但这种方法存在着许多局限性,如准确性不高、个性化程度低等。借助机器学习技术,我们可以利用大规模的数据集和复杂的算法来构建个性化的预测模型,从而更精准地评估患者的心血管风险。

通过对患者的生理数据、基因组信息、生活方式习惯等多维度信息进行分析,机器学习算法可以发现隐藏在数据背后的规律和关联,进而预测患者患心血管疾病的风险。这种个性化的预测模型不仅可以帮助医生更好地制定治疗方案,还能让患者更好地了解自己的健康状况,采取有效的预防措施。

数据驱动的个性化医疗

随着医疗数据的不断积累和信息技术的飞速发展,数据驱动的个性化医疗模式正逐渐成为医疗保健业的主流。在心血管疾病预测领域,机器学习算法正发挥着越来越重要的作用。通过分析患者的基因组数据、医疗影像数据、健康记录等多源数据,机器学习可以为每位患者量身定制个性化的治疗方案,从而提高治疗效果和患者生存率。

数据驱动的个性化医疗模式也为患者提供了更多参与医疗决策的机会。通过了解自己的健康数据和风险,患者可以更加主动地管理自己的健康,并与医生共同制定最适合自己的治疗计划。这种以患者为中心的医疗模式不仅可以提供更好的医疗体验,还可以减少不必要的医疗费用和资源浪费。

机器学习算法在心血管疾病治疗中的应用

除了在心血管疾病预测方面的应用,机器学习算法还可以为心血管疾病的治疗提供新的思路和方法。例如,基于机器学习的精准药物治疗方案可以根据患者的基因型、药物代谢情况等个体特征,为每位患者量身定制最有效的治疗方案,从而提高治疗效果和降低药物副作用。

此外,机器学习算法还可以通过分析患者的健康数据和生活习惯,为患者提供个性化的健康管理建议。比如,通过监测患者的运动量、饮食习惯等数据,机器学习可以为患者制定科学的生活方式方案,帮助他们预防心血管疾病的发生和发展。

展望未来

随着人工智能和数据科学的不断发展,机器学习技术在医疗保健领域的应用前景十分广阔。未来,我们可以期待机器学习算法在心血管疾病领域发挥更加重要的作用,为预防、诊断和治疗提供更加精准、个性化的解决方案。通过数据驱动的医疗模式,我们有望实现定制化的健康管理,让每个人都能够拥有更健康的未来。

四、机器学习实现视频三维建模

在当今数字化时代,机器学习技术正日益成为各行业的热门话题。其中,利用机器学习实现视频三维建模是近年来备受关注的领域之一。本文将探讨机器学习视频三维建模方面的应用,以及相关技术的发展和未来趋势。

背景介绍

传统的视频三维建模方法往往需要大量人力和时间投入,且存在着诸多局限性。随着机器学习技术的不断发展,越来越多的研究开始探索如何利用机器学习算法来提高视频三维建模的效率和精度。

机器学习在视频三维建模中的应用

机器学习视频三维建模中的应用可以帮助我们更快速地从视频数据中重建出三维模型。通过训练模型,机器可以自动识别视频中的对象,推断它们的三维形状和位置,并生成对应的三维模型。

一种常见的方法是利用深度学习来实现视频三维建模。深度学习是一种强大的机器学习技术,可以处理大规模数据并学习复杂的特征表示。通过深度学习神经网络,我们可以在视频序列中提取有关物体的信息,并进一步重建出它们的三维模型。

技术发展和挑战

随着机器学习技术的快速发展,视频三维建模领域也取得了令人瞩目的进展。然而,仍然面临一些挑战,如数据标注的成本、模型的泛化能力以及计算资源的需求等。

为了克服这些挑战,研究人员正在努力改进机器学习算法,提出更有效的训练方法,并探索新的数据增强技术。同时,云计算和分布式计算等新技术的应用也为解决视频三维建模中的大规模计算问题提供了新思路。

未来展望

随着机器学习技术的不断进步,视频三维建模的应用领域将会继续扩大。从虚拟现实到增强现实,从工业制造到医疗影像,机器学习将为视频三维建模带来更多的创新和突破。

未来,我们有理由相信,机器学习实现视频三维建模的技术将不断演进,为我们的生活和工作带来更多便利和惊喜。

五、SLAM和三维重建有什么区别?

最直观感受的区别(除去特例),是相机是否移动。

slam里面的l是定位。也就是强调在相机移动的过程中,定位相机的位置,你可以用惯性导航,也可以用轮子里程计,也可以用gps,当然大家更熟悉用视觉里程计VO。定位之后,使用这些个不同时间的相机姿态信息来启动多视角几何的“多视角”,从而实现三维重建(mapping)。

如果直接说三维重建,这里有很多方法的。比如用多个相机重建动态、静态的人体,包括运动的人体(拍电影的运动捕捉),再比如使用直线移动的2d激光测距的高精度的建模,裸眼3d技术,深度推定技术等等。

有一个返例也是slam也3d重建的交叉点,就是通过移动单个相机或者rgbd相机局部建模的应用。

总之,3d重建时候相机可以是固定的,多个相机的。

而slam打不风情况下,相机都是移动的,单一的。

六、血管重建装置和传送系统是什么?

血管重建装置和传送系统由支架和传送系统组成。

传送系统包括一条传送导丝和一个穿刺鞘。自扩张支架预先安装在穿刺鞘内部的传送导丝上。支架由镍钛合金材料制成,采用闭合式设计。支架每一端有四个钽标记带,支架外表涂有一层聚合物。传送导丝由带有不透X线标记的镍钛诺导丝芯构成。穿刺鞘由锥形头端的聚合物构成。环氧乙烷灭菌。

七、什么是三维重建?

三维重建是一种将二维图像或视频转换为三维模型的技术。它可以通过计算机视觉和图像处理算法,从多个不同角度的二维图像中提取出三维模型的形状和纹理信息。三维重建技术已经广泛应用于医学影像学、建筑、工程、地质勘探、游戏开发、虚拟现实等领域。

它可以帮助人们更好地理解和可视化物体的形态和结构,同时也可以为相关行业提供更加高效和精准的数据分析和决策支持。

八、三维重建技术起源?

计算机视觉包含两个基本方向,物体识别和三维重建。图像识别的突破性进展源自于2012年卷积神经网络(CNN)的兴起。在此之前,计算机视觉的核心研究方向是三维重建。因为在当时,对于图像的特征提取主要是通过三维重建的方法来定义和实现的。自2012年以来,图像的特征便逐渐由神经网络来自动学习。

九、三维重建就业方向?

医院影像科影像后处理,临床工程师手术方案规划,手术假体适配公司

十、Photoscan三维重建步骤?

“PhotoScan是一款基于影像自动生成高质量三维模型的软件,可用于3D建模。PhotoScan无需设置初始值,无须相机检校,它根据最新的多视图三维重建技术,可对任意照片进行处理,无需控制点,而通过控制点则可以生成真实坐标的三维模型。照片的拍摄位置是任意的,无论是航摄照片还是高分辨率数码相机拍摄的影像都可以使用。整个工作流程无论是影像定向还是三维模型重建过程都是完全自动化的。”

为您推荐

返回顶部