您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:面向机器狗视觉系统的手势识别方法设计与实现 - 发现报告
当前位置:首页/其他报告/报告详情/

面向机器狗视觉系统的手势识别方法设计与实现

2024-08-09--阿***
面向机器狗视觉系统的手势识别方法设计与实现

川JI|||JIJ|I⋯川⋯I|JII川⋯⋯ Y4033230 砀磐嵇欲转未冬 硕士学位论文 面向机器狗视觉系统的手势识别 方法设计与实现 作者姓名苴邈攫 学校导师姓名、职称选泣童塾握 企业导师姓名、职称奎直至直王 申请学位类别王程亟± 万方数据 学校代码!垒2Q!学号!窆壁兰!垄!!受主垒 分类号!殓窆密级公珏 西安电子科技大学 硕士学位论文 面向机器狗视觉系统的手势识别 方法设计与实现 作者姓名:苗凯彬 领域:计算机技术学位类别:工程硕士 学校导师姓名、职称:沈沛意教授企.业导师姓名、职称:李育军高工 学院:计算机科学与技术学院 提交日期:2022年5月 DesignandImplementationofGestureRecognition MethodforRobotDogVisionSystem Athesissubmittedto ⅪDIANUNIVERSITY inpanial如1fillmentofmerequirementsforthedegreeofMaster inEngineering Bv , MiaoKaibinSuperVisor:ShenPeiyiTitle:Professor Supervisor:LiYrujunTitle:SeniorEngineer May2022 西安电子科技大学 学位论文独创性(或创新性)声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文若有不实之处,本人承担一切法律责任。本人签名:篷煺: 日期:型≥兰:垒:!篁: 西安电子科技大学关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。 保密的学位论文在年解密后适用本授权书。 本人签名:禹约如.翮签名: 日期:—!兰兰:6.!坚.日期:弘协.5.步· 摘要 摘要 随着计算机应用技术与硬件设备的发展,人机交互的方式从传统的键盘鼠标,到后来的数据手套、触摸屏,再到目前非接触交互的方式,不断更新的交互方式满足了人们日益增长的交互需求。其中,非接触式的手势作为一种新兴的人机交互方式受到了学术界和工业界的广泛关注。传统的手势识别方法多采用基于人工提取特征的方式,存在着泛化能力差等局限性,无法满足现阶段人们的需求。近年来,深度学习在计算机视觉领域取得了巨大成功,这为手势识别与人机交互研究提供了新的途径。大量基于深度学习的手势识别方法被相继提出,促进了手势识别领域的研究和发展。 机器狗的视觉成像系统,具有连续性、低角度、大视野的特点,由于视角不同的关系,通用的手势识别算法在用于与机器狗进行交互时的准确率较低,不能达到实用的要求。基于此,本文在深入研究RGB数据与光流数据、三维卷积网络和注意力机制的基础上,设计了适用于机器狗视觉交互场景的手势识别算法。论文主要工作如下: (1)针对动态手势识别中的时序依赖问题,结合双流网络和13D网络提出了一 种双流13D网络(TSl3D)。该网络一方面结合了二维卷积和三维卷积的优点,可以同时实现了空间域特征和时间域特征的学习;另一方面借鉴了双流网络的结构,一个 分支处理RGB数据,另一个分支处理光流数据。由于两个分支获取的特征有一定的 冗余,因此将两个网络分支提取的不同模态特征通过典型相关性分析算法进行融合, 再输入到SVM分类器得到最终的识别结果。另外,该网络使用了Inception稀疏连接模块作为核心,采用增加网络分支的方式来代替不断加深的网络结构,在获得更加全 面的手势特征的同时,可以有效降低网络的参数量,防止梯度消失的现象出现。 (2)针对卷积神经网络局部感受野中长距离特征信息很难相互关联的问题,提 出了一种基于非局部注意力机制的双流膨胀三维卷积神经网络(TWo.S廿e锄Innated 3.diIllensionalC0nv01砸onaJNet、)l,orkb懿ed0nNon.10calAnention,NL.TSl3D)。通过引入注意力机制,将非局部注意力模块(Non.10calAttention)嵌入到TSl3D网络中。 该网络中的非局部注意力模块可以直接计算任意前后两个位置之间的关系从而获得长范围间的时序依赖,提升了网络对于长距离时序信息的建模能力,使得上下文信息能够有效关联。 针对自建的机器狗视觉系统下的动态手势数据集Ⅻ.RDVSl8,按照是否在 Image.Net数据集和飚netics数据集上进行预训练,通过对比实验验证了提出方法的有 效性,适用于机器狗视觉的特点,并将算法部署在机器狗系统中进行应用推广。 关键词:手势识别,深度学习,双流网络,13D,非局部注意力 西安电子科技大学硕士学位论文 ABSl]RACT ABSTRACT WitlltIledeVelopmentofcomputerapplicationtecllllologyandhardwareequipment,human- computerinteractionisfromtraditionalkeyboardmice,t0laterdata910Ves,touchscreen,andmenuIltilt11ecllrTentnon—contactinleraction,t11econtinuouslyupdatedinteractionmemodsatisfiespeople’sgrowingInteractiVeneeds.Amongmem,non—comactgestureshaVe beenwideIyconcemedbyaneme玛inghumanmachineinteractiOn.711le仃adi60nalgesture recogllitionmethodismostlybaLsedonartificialex仃auctioncharacteristics,aIldthereislimitationssuchasgeneralizationabilit)randc锄otmeettlleneedsofpeopleatpresent.In recentyears,deep1eanlinghaSacllieVedgreatsuccessincomputerVisualfields,w11ichproVidesanewwayforgestureidentificationa11dhuman-computerinteractionresearch.A la培enumberofgestureidentmcationmetllodsbaSedondeeple锄iIlgissuccessiVely propoSedtopromoteresearcha11ddeVelopmentintlleneldofgestureidentification. TheVisionsystemoftllerobotdoghas恤echaracteristicsofcontin伍砂,lowangleandlargefieldofView.Duetomedi旋rentperspectiVes,也egeneralgesturerecogllitionalgoriⅡⅡnhaSalowaccuracyrateWhenitisusedt0i11teract撕tllt11erobotdogaJldcannotmeetpmctical requirementS.Basedonthis,t11istllesisdesignsagesturerecogllitionalgorithmsuita_blefor robotdogVisualiIlteractionscenesbaSedonin—deptllresearchonRGBdataando面calnow data.3DconV01utionalne觚orkaIldattentionmechaIlism.Themain、vorkofⅡlet11esisisaS f01lows: (1)AirnjngattIletinlingdependencyproblemindyn枷cgesturerecognition,a抑o- streaIIl13Dnet、)l,ork(TSl3D)isproposedbycombiIlingmetwo—s仃e锄ne似orkaIld山e13Dnetwork.0nmeonehaIld,thenetworkcombinestheadvaIlta曙esof铆o-dimensionalconv01utiona11dmree-dimensionalconV01ution,Whichcanrealizet11e1e枷ngofsp撕aldomainfeaturesa11dtimedomainf.eamresatthes锄etime;ont11eomerhand,itdrawson 吐le蚰ructureoftllet、vo-stre锄ne怕,ork,onebrallchprocessesRGBda妇,aJldmeo廿lerbranchprocessesRGBdata.Theopticalnowdataispfocessed,andthesimultaneousprocessingofRGBdataandopticaJflowdataisrealized.SincetllefeaturesobtainedbytIle MobrancheshavecertainredundaIlcy,thedin’erentmodalfeatu】汜sex廿actedbytlle铆o ne似orkbranchesarefhsedbyt11ecanonicalcorrelationa11alysisalgori山m,andtIleninput tot11eSVMclassifiertoobtaint11efinalrecognitionresult.Inaddition,t11ene僦orkusestlle III 西安电子科技大学硕士学位论文 Inc印tionSparSeco皿ectionmoduleaSnlecore,andadoptstllemetllodofaddiIlgrlet、^,ork bmchestor印lacethede印eningnetwork蛐ructure.W“leobtainingmorecomprehensiVe gesturefeatures,itcanef艳ctiVelyreducetheamollIltofne“ⅣorkparametersandpreVen“he phenomenonofgradientdisappearallce.appe缸 (2)Aimingatt11eproblemtIlatlong—distancefeatureinfoⅡnationintIlelocalreceptive fieldofconVolⅡtionalneuranet、VOd【isdimculttocon.eIatewitlleachotheLatwo—strearllInflatedthree-dimensionalconvolutionalneuralnetwork(NL.TSl3D)basedonnon.10cal atten缸onmechallismisproposed.ByintroduciIlganat