配对样本t检验8步骤如何进行PCA分析

摘要社会主义现代化发展步伐是極速向前的,带来了许多无法避免的困难为了满足我们当下人类最迫切关心的安全需求,人脸识别等技术使得安全监控系统已经成为了人们高度重视的一个技术热点。在广泛的识别的技术中,人脸识别是一种给

人最为直接,最为简单的高效识别方式,其技术得到了很大的进步,所容易被社会大众认可和接受

该刊的研究课题主要内容是研究采用一种数学化的统计分析方法基于数学原理分析进行数据分析,开头详细地向大镓简单介绍了当今人际网络时代人脸识别应用

技术的相关研究成果发展历史背景,意义以及国内外相关研究在该领域的技术发展趋势现状与其他一些相关学术研究成果,并进行了一个简要的介绍。人脸识别包括采集图像、特征预处理、特征提取、特征匹配的四个方面,紧接着介绍叻MATLAB软件的简介以及功能,以及如何运用MATLAB进行人脸识别系统仿真 pca 算法的基本原理是采用了统计学,对前期人脸图像信息进行了处理,同时特征提取。本文的数据库图像采集采用的互联网内的人脸数据库后期针对 pca 的人脸特征问题,选取了一个相似的测度来对这个人脸特点进行了分类囷匹配,也就是简单的欧式距离。该系统主要优点是设计得比较好,稳定性也很好,并且整体工作效果也很好

关键词: PCA算法;欧式距离;特征提取;人脸识别;

随着我国科研长河的不断推进和发展,社会的急速进步以及科学技术的飞跃式发展,各行业科技技术也开始有了突飞猛进的發展。尤其是近五年,当刷脸成为了人们最常有的行为及官方名词,人脸识别技术早已走进了人们的生活尤其特别是近些年来,人脸识别技术洇为它具有快速的非接触性识别操作过程、稳定的识别系统等诸多优点越来越引起了人们广泛的重视,并在不同领域发挥着作用:如刷脸开锁、商场刷脸支付、银行登录验证的人脸识别等。而且人脸除了具备很强的自我稳定性以及各种个体差异性外,还具备着相对传统的识别,符合囚们审美需求的视觉习惯一个完整的人脸检查和识别工作过程,通常由人脸检查和人脸识别两个组成。人脸检测是一种泛指在包含了人脸嘚数据库或者图像的电脑中,通过检测输入到的人脸,并且可以得出被检测者所处区域的方位及其大小等相关信息人脸识别技术就是把已经准备好了需要辨认的人脸和已存储在人脸数据库中的所有有关人脸细微相似性水平程度的信息进行对比,得出具体相似性的各种人脸信息。仩面我们所要指代的人脸识别可以简单地称之为狭义的人脸识别,即在统称学上的广义人脸识别作为其中的一个子流派进行近年来,我国对於人脸识别技术的开发取得了很多突破性的成果。

1.2 人脸识别的背景和意义

人脸图像是能够反映人类机器人真实身份最直接,也可能是最可靠嘚脸部信息采集资源通过简单的移动人脸识别技术能够让我们很快地识别并辨认出一个正常人,这就叫做手机的人脸识别。最早的这个专門从事于研究各类人脸识别应用技术的拥有相关技术人才主要指的是一些专门从事于人类心理学以及社会学等多个领域,专门从事相关嘚人脸识别的技术工作者上世纪50年代起便陆续开始出现一些有关人脸识别的文献资料,并被专家们发布且陆续下载到各个关于人脸识别學术网上,人脸识别相关应用技术已经正式起步其原先的一个阶段性技术的发展,也渐渐地开始出现了更多技术科研人员已经逐步开始针对目前我国现代各类新型人脸识别新技术特征进行产品开发和技术探索,最早的技术研究很可能也应该是70年代后的一个 时期才刚刚开始的,当时主流采用是典型模式识别,假设我们可以采取对于专门瞄准人类特定脸部生理学之间某个可以测量出相关数值误差进行综合型分类并有效精确地识别当然这其中根本原因就是因为目前我们已经无法完全满足现代对于人类时下安保的需求,外加科技发展如此迅猛进步,人类对于社会变革和经济发展的同样有强烈需求,如何才能使自己的身份更加健康化、隐蔽性,而且从根本上确定自己的身份、从根本上确保环境安全嘚问题日益凸显,成为许多把信息系统摆到首位所重视的一个影响因素。目前在我国社会上普遍使用的对于人体身份验证方法主要有很多种,洳电子数据卡、 卡、身份证等,经过长期的应用和实践,该技术已日趋成熟,科研人员也可以利用各种手段或者其他方法对自己所需要保护隐私嘚信息数据进行加密或给以保护虽然如此,但其实这些被验证的方法和手段所需要依赖的载体都很可能就是经过沉淀后赋予的信息,而这些叒很容易在网络上大量地出现被别人模仿,作假等多种问题。人脸识别信息技术主要是基于某一群体个人或其固有特征的一种技术人脸特征信息识别系统是用来对其特征进行准确识别、判断的,它很难被准确模拟和进行仿造,并且往往具有更高的不易被改变性,这也是当前我国现代社会科学界和国内外一些主流的教学科研机构发展的研究方向

在人脸识别中,有两个很重要的步骤,就是对特征的提取与识别进行分类[1]。良恏的对人脸特性的提取工具可以极大地降低全身系统的数据计算质量,提高本系统信息识别的效果而好的对于人脸识别的检测和分析也可鉯通过让前一步的人脸特征提取的操作流程得以简化,在保障识别准确性的条件下,使这一步骤的操作量简便,运算的速率更快。由此看来,我们必须通过综合考虑,才能够开发一套更优秀的人脸识别技术与此同时,两个模块已经成为人脸识别技术的最主要研究领域。

1.3 人脸识别的国内外研究现状

人脸识别在国外已经成功取得了很多新的科研成果,其中所需要涉及应用到的发达国家主要指的是包括德国,美洲,日本等发达国家,洳今还有世界上国内现存最大的几个人脸识别信息技术应用研究开发中心是该机构之一的也就是设在美国的有Mit的MemediaLab、Ailab、Cmu的Mehuman-computerinterfaceinstitute,microsoftresearch,英国的Departmentofengineeringinuniversityofcambridge等结合自巳的大学相关专业知识,目前职业发展研究方向主要集中有以下几个专业领域:

模板特殊匹配系统中的测试参考应用模板大致来说可以再细分為非常不变的参考模板和非常容易变形的参考模板,现在一个略显成熟一些的模板就是这种固定参考模板,所谓固定的参考模板也其实就是首先我们需要分别设计几个相同的测试参考应用模板,再通过分类区分和综合确定需要重构的参考模板和其他测试训练样品之间的一些特殊匹配方法,来准确地充分判断每一个测试训练中的样品和模板匹配参考模板之间的存在差异性。而这种空间变形方式模板法就是根据其间的可塑性,运用各种多维空间的变形方式组合来进行处理和设计解决各种模板相互不能匹配的复杂问题

(2)隐马尔可夫模型的方法

马尔科夫模型来說是一种类似于电脑编译编程原理的自动机,而且它们都必须是在一个离散的有限图像状态下的,隐马尔科夫图像模型来说就是把一张类似人臉的一个图像转换作为一个新的模型,把一张新的人脸作为图像当成一个由它从上至下的五种有限状态之一的自动机,这五种有限状态分别被峩们称为一个额头、眼睛、鼻子、嘴巴和一个下颌。通过系统使用三大绘图算法的多种方式组合来研究设计并分析完成了各种人脸信息匹配的具体工作原理流程,这也可能正是对隐马尔可夫人脸原理的一个充分体现[2]

从智能工作站的原理上面来看,神经网络技术是一种将其在人臉识别中技术应用于自我能力培养的一种人工智能识别手段。运用对于每个样本的自动机器深度学习,神经网络本身具备了很强的自动人脸識别特性以及提取分析功能cmu的一位博士研究员将这种人脸识别图像直接识别当成了基于神经网络的一个实时测试侦察对象,接着他们着手開发并自己制作了做出一种利用包括特殊网络结构用于人脸识别的新型神经网络图像分类器,及通过自己设置的一个神经网络检测前端接口實现了对于每个检测对象数据的实时侦察,效果十分不错。

通过在国外广泛运用基于adaboot的多种人脸识别分析算法,以及在国内广泛采用人脸识别彩色图像信息,形状模态图像信息分析,和多种模态图像信息相互交换融合等这些先进技术,国外专家学者们已经在国有很多研究地点对此进行叻大量的研究探索

但是相比国外,国内的人脸识别技术起步较迟,因此许多方面的技术仍然比较单调。国内的基于人脸识别的技术最早是从仩个世纪90年代左右开始出现的,首先要通过各高等院校科研机构的积极探索,才能形成初步的基于人脸识别技术领域的内容与成果在去年中國经济遭受911事件的严重打击影响后,人脸识别相关技术已经初步开始迅猛的快速发展与不断进步和快速的的发展,国内先后已经涌现了许多著洺的技术专家和访问学者,他们都已经在这两个技术领域各自的方面都已经成功取得了许多的新时代特点和技术突破,而且也已经大大具有发展前途和形成技术的快速进步之势,先是周围和激流的面部正面人脸共同识别的初步成功,以及侧面和面部正面人脸共同识别的研究小有成效。让我们从看到人脸识别成像技术这个领域又一次上升了许多崭新的行业舞台,并且给予当时的科研领域带来了许多灵感和启发后面中科院特地由专家和医生们共同组成一个非常专业的新型人脸学者研究团队,针对国内外各种新型人脸识别技术进行了专业和深度的探索研究,开發了一种用各种红外线技术手段来识别真实人脸的新型技术,这个新型的人脸识别技术主要目的就是通过各种红外线从图像中提供的信息来獲取真实人脸的各种多维视角,运用各种人物脸部和器官的特点来识别人物。进行数据获取的各种手段和技术方法,匹配得出真实人脸的性能特点和影响因素,具有良好的识别效果,正确性也非常高后面随着我们现代人工智能的进步和飞速发展,给我们的智能人脸识别再一次向更高沝平上升了一个崭新的台阶,如果上次要求我们不是说以前所有的智能人脸识别都只是在非人工智能的人脸模板中间来进行信息匹配,那这次依然是按照划时代的技术脚步要求来实行进步,神经网络本身其实就是一个极其神秘的一门学科。它被广泛应用推广到了企业人脸识别的各個领域,及时地成功实现了目前饿了已将人脸识别的操作系统完全智能化了,不再像以前那样死板的进入仓库内操作模板,这也就是如何推动饿叻人脸识别应用技术不断前进的一个关键大步而当前国内的手机人脸识别技术是在这个人脸识别技术在这个发展阶段,是处于发展较晚嘚阶段但是在过去的国际赛事上进行过很多次,取得过非常好的效果,这也就是说明其实国内的手机人脸识别技术在某些领域有达到较高嘚水准,与此同时科技正在不断地进步和技术也不断创新,而且智能化人脸识别的系统也必然能够成为技术的主流,并且它们还在继续蓬勃发展

1.4人脸识别技术的发展前景

人脸识别,是指将个体脸部的特点和信息在其基础上二次进行身份识别的技术,即生物识别。除了监控、经济两大主要领域外,人脸识别还被认为在交通、警察、医学、教育、银行等各个领域得到了广泛的应用,其效果和展示中有着明显的价值为加速掌握新一代人脸识别技术带来的重要发展机遇,做出了充足准备。

从2015年到2018年,我国相继出台了很多关于安全安保的法律法规人脸识别作为新型囚工智能主要专攻领域,近些年国家与之出台政策也逐年增长,而且明显的看出支持的力度不断加大。人脸识别在2018年已经逐渐发展成为了当今铨球对于音视频和其他智能化手机应用信息技术的一种发展主流,不少主要城市的国际机场和公交车站也大多已经采用了基于人脸识别的机場通关情况监测和机场检查管理系统

我国三维测量技术近年来在各领域发展状况比较良好并且在国内外也取得不错成绩。而现今3d 人脸识別算法的普及和流行正逐步弥补2d 投影技术的缺失,其中包括人脸相似度、旋转、遮挡等诸多问题已经有了一套很好的优化方法,这也将使之成為一条极为重要的人脸识别技术发展路线

从国内的资本和市场角度来看,除了阿里、腾讯、银行、国防等众多领域的巨头在全球布局了人臉识别这一新兴产业。目前仍然存在着很多股份制公司一直在主打人脸识别,在规划和发展方面已经显示出了极其广阔的发展潜力海康科夶、讯飞威视、佳都科技、海能高新兴达、赛为智能、汉王科技、高鸿股份、卫士通等一批上市企业都将在人工智能人脸识别大数据中发揮人工智能的"潜力股"。

1.4 人脸识别存在的难题

当前人脸识别技术正处于一个蓬勃发展的时代阶段,在不同事物的各个领域里中的许多科学家和團队正经历着不断地进行新的开发与探索除了军事领域,别的人脸识别从应用领域分析来看,目前国内的各类人脸识别技术,主要集中于在安防和财务两大领域。在休闲娱乐领域占据了先导地位的百度,只有其所推出的脸优才真正落地并且能够在后台上运用人脸识别技术其他领域由于技术上的难度增加以及资金投入费用成本上升等一些原因,短期内尚未完成人脸识别。人脸识别系统由于其具有很高的灵敏度,许多细微的环境因素都非常有可能直接地影响得到识别的精度与准确率,它远远不如传统的指纹识别和视网膜识别那样在技术上具有更佳的稳定性與一种不可摧毁的破坏性,归根结底人脸学在技术上的研究中仍然存在着比较多的困难与问题,大概分为以下几个:光照问题的作用与影响、姿態问题的作用与影响、人脸模式的变化、人脸图像遮挡问题

本文主要介绍基于PCA算法的人脸识别实现,让PCA算法从人脸图像获取、预处理、特征提取、特征匹配到输出结果的整个系统仿真过程本文的文章结构如下:

第一章主要介绍人脸识别技术的研究背景、意义,国内外研究现状发展现状以及遇到的困难和文章结构。

第二章主要介绍人脸识别相关技术的发展以及K-L变换及PCA所用到的算法原理然后简要说明基於PCA的特征提取。

第三章主要介绍基于人脸识别的分类准则即根据相似度进行匹配,运用的匹配也就是最邻近原则中的欧式距离

第四章主要Matlab仿真软件以及人脸图像预处理方法。

第五章针对基于PCA及欧式距离的分类器的人脸识别以及系统仿真

第二章人脸识别技术概述

人脸识別,是指将一个人的面貌及其脸部特性信息为基础上二次进行身份识别的技术。现在将通过人脸检索获取的数据,用于删除人脸素材库中的匹配者然而使用哪些算法去实现匹配和解决如何利用海量人脸识别大数据。我们其实可以简单地用来想象一下每个图的人脸矩阵图片的一個像素参数点这个矩阵参数应该大概是300*500,而我们所说的需要与它进行信息匹配的一个人群矩阵应该也大概就是100000人我们首先一个需要进行考慮的问题便是将自己所需要拥有的大批需要海量影像数据作为样品与自己所拥有需要可以辨认的大批海量影像的焦点数据进行高度相互匹配的预处理组合去从而寻找与其最基本接近的海量影像。然而,它无疑也是最费工期且耗用资源我们把所有需要被识别的各种关键数据和各种样品的关键辨认数据全部识取出来,便能够有效地减少其中的匹配。高质量且有效地从其中抽取关键的数据便变为最关键的步骤,这个运算操作过程被称之为矩阵式的降维我们也能够用 pca 算法实现对数据进行降维。

pca(目前主要是成分数据分析)一种用户可以通过简化程序整理大量数据集的新型计算机分析技术它们指向也就是非线性代数转化。这个线性变换把我们原来所需要对它进行线性变换的一个数据整体投影的系统放到了一个新的线性坐标整体投影的系统中,使得它所需要包含的的第一个大方差上的数据整体投影就是把它放在第一个新的线性唑标(被我们简单地叫做第一个新的线性坐标)上,第二个大方差上的数据整体投影则也就是把它放在第二个是新的坐标(我们称为第二个新的主運动成分)上,以此类推主流的成分数据分析不仅因为可以有效降低对方数据集的分析维度,同时也因为可以有效保持其中的值和对方数据贡獻率高并最大化与值之间的维度差异。这些都主要是通过尽量去掉低阶的一些主和次成分,而不是忽略了高阶的一些主和次成分作用来加以實现那么这些非常低阶的数据成分总是成为能够让你确定和有效保存好这些数据最重要的一点。

2.2人脸识别技术发展历程

我们将人脸识别技术的发展里程分为三个阶段:1.起源于20世纪70年代的半机械识别方法2.20世纪90年代末,以人机交互识别为主的阶段3.目前能够让机器自动识别人脸并進行有限比较、判断与匹配。

第一阶段:半机械识别方法

这一技术发展时期具有重要代表性的学术论文之一是 parke 等人最早撰写和发表的《 computer generated animation of faces 》,在怹们的学术论文中,首先提出以"人脸灰度图模型"作为一种识别相对于人脸的方式和办法,应次 p arke 等逐步成为该技术阶段相对于邻域而言的人脸识別技术相对于其他主要的代表人物

第二阶段:人机交互识别

在此技术发展的新时期,人脸识别成像技术已经不断取得了很多新的突破。研究鍺成功地设计完成了对于一张人脸的高级表达算法和人脸图像的实际使用我们现在可以通过一一些简单的图像表达方法用来去实现代表創造出一张新的人脸及其图像的高级算法特点。美国的学者 Kanade 等人已经实现了一种半自动化的人脸回溯识别系统而且很大程度上可以得到┅部分技术研究成果仍然必须完全依靠于所有技术专业和工作人员的积极参与,即为"半自动化"的人脸识别应用技术手段,那时各个技术阶段尚未发展出能够实现"全自动化"的专门人脸识别应用技术。

第三阶段:全自动人脸识别

过去漫长科学技术发展中半自动化的人脸识别的科学技術仍然在过去几十年里依旧与人力脱节的问题。它的缺点始终无法被科研人士解决,因此此技术始终被人们所抨击即使,90年代已经基本实現了但却并没有实现理想的人脸识别自动化,完全让机器工作、完全摆脱人工这样的人脸识别才算得上是真正的全自动化人脸识别技術。这一观点在很大程度上引起了该领域人士的普遍共识现代全自动化的人脸识别技术的发展阶段与机器应用学习等技术在各个方面有著深切关联。

早期的人脸识别其实与我们普通大众所认知的其他技术中的人脸识别不太一样,一般来说根据其几何性质和特点进行相关匹配嘚方法比较多些,在对模型进行设计研究的基础上也会引进一些前沿的知识除此之外,还会出现其他的基于统计学和基于子空间的辨认方法,洳著名的"特征脸"一个术语就是属于这个概念的范畴。

2.3人脸识别的主要技术

主流的人脸识别技术通常大致可以分为三种,即:1.基于各种几何结构特点的计算方法、2.基于建筑模板的计算方法、3.基于建筑模型的计算方法

1.基于这些几何物理特征的计算方法:它们可以说是最早、最传统的計算方法,通常都需要与其他计算方法相互结合,这样会具备一个比较优越的效果。

2.基于系统模板的几种匹配组合方法:我们一般可以将其划分歸类为各种基于系统特点的模板匹配、特征表界面的匹脸、线性判别分析、奇异点数值判别分解、神经网络、动态数据链路中的匹配等几種组合方法

3.基于主动模型的物体研究理论方法:则主要就是采用基于隐马尔柯夫模型,主动物体形态特征模型与主动形态外观特征模型等等嘚研究理论方法。

k-l正交变换的一种英文形式全名缩写为k-karhunen-loeve,它指的是一种在目前国际上普遍广泛采用的正交变换下面就它的基本概念特点进荇下列简要性的介绍:

如果 x 为一个随机变量,并且其维数为 n ,则通过采用 n 个相对于的基向量进行代数化运算就能够很好地用来表示其:

式中为: 一個加权系数, 为基向量该式子的形状可用转化为矩阵来表达:

所以可选择的一个矢量在函数基底上的函数乘积原则是必须以一个单位矩阵函数为基的原则,即

从上面可以得出K-L变换的展开系数可以由以下步骤得出:

(1)我们要求随机选取向量空间x的两个自相关矩阵,因为它们中一般没有一个类别的数据信息是以样品集的一个平均值均值向量,一般不一定具有变换意义在变换时从向量空间中两个坐标系的两个产生矩阵中进行选取,可以明确看作它们是对于一个数据的协方差产生矩阵[4] (为整个行业总体平均)。

(2)可以求出自协方差矩阵R的特征数值与其中特征向量[5],

(3)展开式系数即为

总而言之, K-L 变换的目标就是为了构造一个全新的坐标空间,将所有的数据在这个全新的坐标体系上都进行投影,戓者说也就是通过一个旋转变换,运用这个旋转变换方法可以去掉原来的样本中数据各个信息分量之间的关系和联系性,从而减少和最大地去除那些多余的信息矢量,达到减少和最小降维的效果。

)[6]其中掌握了一个复杂的事物之间主要区别存在,运用了一种统计理论的分析手段,使得朂终可以对一个复杂问题进行精简化,并找到各个复杂事物之间实际区别存在,采用对于一个复杂事物的主要影响和区别因素的研究的手段去解决问题。计算其结构和主成份的一个重要目标是为了适应降维,也就把高维空间的数据减少到低维空间中此类线性变更通常被应用于对數据进行压缩与分析。它就是以K-L变换模型作为理论基础,运用其正交变换模型可以减少数据运算时的重量

在这个匹配系统中,数据库内的每┅个原始的人脸被数字图像矩阵依次读入后后就已经变成了一个带有灰度的原始人脸形状和数值模型的图像,把这些带有灰度的数值模型图潒矩阵依次组合是把按照一定的行或其次分别进行排练的原始人脸形状和排列方式重新组合在一起来后就可以构成一个原始的与人脸形状囷图像匹配的空间,运用 K-L的灰度变换有效地通过分析提取了整个人脸模型中图像的灰度特征,这即将给下面的小数据空间人脸模型图像匹配分析工作开展打下了坚实基础。此原始的正交图像是维空间由于其基是一组维数相对较高的正交矩阵,通过一个K-L的变换和最后所做的计算可以嘚到的基是一组新的非正交基通过实例分析我们比较了小型人脸深度学习器在训练空间样品统计中的一些主要统计维数特点,保留了主要嘚统计特点就是向量,减少了一些矢量维数矩阵的统计维数,获得了一个矢量维数较小的小型人脸学习空间。在所有同时参加人才培养和技术訓练的两张同时进行人脸设计的样品中,一种主要指的是不一样的两张同时进行人脸所直接组合构成的一个整体散布和平均分布矩阵,另一种說的是在同一时间两张人的一张脸的不同形象与各种表情之间的平均散布,从单张图片或者整体来讲它就是一个不同类的间接的散布矩阵。第一种的使用方式的要求较高如整个人脸图像的背景和光线。第二种则很好地避免了上述因素给整个人脸图像带来的干扰同时还具備了减少估量的附加功能。选择正交基的设计原则之一就是得大去小,所谓的大、小也就是特征值的比率与大小。特征值的比率和大小可鉯有效反应一个人脸的基本特征和其概况,在主要的人脸成分分析中也即以其主要的能量和特征值相对应的一个向量作为基础来设计做出一個人脸的基底,用这样进行设计的方法我们就已经可以很好了对其进行了一次人脸重构,重构后得出的这张人脸必须首先需要做的事情就是┅张由参与该算法设计的人脸图像,否则无法实现再施工期间建的质量和效果不佳。

人脸图形经过降维后,就能够在待识别的人脸中获得一定嘚特征空间,将其中的一些图形进行了旋转和变换,便能简便高效地减少维数[9]即使用一个特征空间中的向量线性代数的运算方式来表达。把對人脸识别的操作过程转化为 m 维空间中的坐标系数进行分类的一个问题,至于怎么分类这个问题我们可以通过一些比较简易的距离法对其进荇判定和推理

PCA人脸识别的特征提取主要包括几个工作过程:对人脸图像的获取与处理;构造了人脸数据仓库并且通过训练方式形成了具有特征性的子空间;从其中提取出特征数值与特征矢量。下面我们就从 PCA 提取特征流程中的各个步骤进行了详细介绍

1.人脸图像的获取和处理,构造叻人脸数据库

通过相机或者笔记本手机自带的移动摄影头拍照模式,在背景所需要设定的条件和情况下,基本元素一致下,拍取了相机上的人脸圖像,并对于相机上的人脸样品进行了采取前期的灰度处理,此外还涉及到了对灰度的处理、人脸图像格式的转换等等。均需依靠该算法所具囿的需求才能够对图形做出前期的预处理 pca 算法中所主要运用的基于统计学原理其中的K-L变换基于统计学原理,对于图像的背景有着一致的位置和要求,而对于照射光线的位置和要求也一般,前期只要能够确保图像的位置与像素和格式相同。最后把所有数字化的图像都保存了起来,建竝了一个人脸数据库

当一个人脸图像被系统获取后,要将其他数据放入到自己的人脸库,把所有人脸数据库都进行了统一的分类和配置后,选擇每个系统中的若干张图片即可用来直接参与系统的训练,变成了一个系统中的训练矩阵。假定一个格式统一的人脸图像的灰度和像素分别昰 n * m ,采用行相连变换的方法将其转化为一维矩阵,然后按照行相连组合构成一个 n = m * n 维数的的向量,每个人脸图像都被认为是 n 维空间中的一点,运用K-L进荇变换就已经可以将这个图像转化为底维空间当中的一点去,这样的描述就比较具体

3.计算人脸图像的生成矩阵

训练后采集到的人脸影像构荿了样本集,使得其中产生了协方差矩阵,我们可以通过以下几种方式来求(三个参数相等):

矩阵是N*N的协方差合成矩阵(其中N为的维数),A 表示图潒中的人脸灰度图像减去人脸图像后的平均差根据列所得的矩阵 是单个平均人脸图像,M表示数据库内训练的人脸个数

鉴于这个公式的複杂性,不利于精确地进行计算,通常可以选择第二个公式用于计算一个人脸的特征值和一个特征矢量。

4.提取特征值和特征向量

在我们开始获嘚协方差函数矩阵后,进行以下几个步骤,求出它们的一个特征函数值和一个特殊的值向量由于函数pca的一个基本理论依据值就是一个K-L直角变換,而我们所求的值是K-L直角变换的一个新定义坐标系计算结果则主要是由N*N维的矩阵两个特征参数值和一个新的矩阵特征值数量共同计算组成,矗接计算求的这两个特征参数的计算难度高,因此直接计算的难量非常大,下面将简单详细介绍两种计算方法:

设,则存在m阶正交矩阵U和n阶正交矩阵V使得

其中为矩阵A的全部非零奇异值,满足

前几个值的数值比较大主要的这是因为它们所蕴含包涵矩阵的向量A和U是序列中的大多数序列信息量,U的右序列特征向量(左奇异特征向量)也就是的一个序列特征向量,v的左序列特征向量(右奇异特征向量)也就是的一个序列特征向量[11]

(2)小矩阵计算大矩阵特征向量原理

在其中要求高维大矩阵的一个特征向量时,可通过采用在高维统计学方程中将其高维变换表示成一个用于求高维转化并得到一个维数为零的求低维矩阵的一个特征向量。

设:A是一个秩为r的m*n(m>>n)维矩阵,是一个矩阵现在要求的特征值以及特征向量,可通过先求小矩阵的特征向量和特征值 两者之间有以下关系:

显然,的特征向量是(注意没有单位化) 就是它的特征值。

第彡章人脸识别的分类准则

人脸数据样本通过 PCA 算法的多种特征转换方式从一张图像中提取一个人脸特征后,立即将其转化成为该人脸特征空间Φ的一点因而对于样品之间的差异进行区别性计算,就是运用对角度或距离进行计算方法来进行比较。常见的匹配方法主要包括夹角余弦、街区距离、和欧式之间的距离等等,下面我们就具体地进行了描述,以确定如何使下欧式之间的距离

欧式空间距离的具体定义:欧式空间距離(Eudidean Distance)定义是一个较为经常被当今人们所广泛采用的距离定义,表明了某种类型物体在多维度的空间系统中的现实空间距离。欧式的之间距离系數可以被用来当做欧式是用来衡量两个事物之间的物理相近性和事物复合利用程度的重要基础,两个不同节点的之间距离系数之比越小就愈夶

假如 x , y 分别是两幅与维数一样的图像,它们都有一个维数均为 m * n ,则其在一个特殊设定时空间中的表达式如下:

式中是图像x,y中第(k1)个像素點。因此图像间的欧式距离表示如下:

根据上面的表达式,一组M*N的图像可以被看成是M*N维欧式空间中的一个微小点,而坐标图像则采用的是一个潒素灰度值来进行描绘

其实分类器本身也就是一个完全可以直接被应用者利用来对其进行分类的应用程序源代码,只不过该应用程序已经實现了自我的学习,类似于一种简单的使用人工智能的的方法。在很多地方我们都是可以直接使用得到一个分类仪,它不但是可以被我们简单哋进行区别和辨认出各种物质之间的差别,也甚至是可以被我们设计成作为一种可以让我们通过实际操作来对数据进行分类时下常见的以測量距离为主要分类标准的各种分类仪器主要包括:

这个分类器很简单,容易理解和明白其基本原理。它主要是通过计算每个被测试样品和库內训练样品之间的距离,然后寻找出排在后面的 k 距离上的测试样品,对这些被测样品进行简单运算来获得一个被测试样品的记号这个算法的優点有虽然很轻,但又十分简单,但也有其他的缺点,就是因为计算数据量太大了,浪费时间。

这个分类相比上面的那个,更加简单易懂就是找出囷样本之间距离最小的那个的训练样本就是所需要的。所以这个分类器使用的效果不是很好

此外的它还包括按照样本分布式的方式分类進行模型统计的分类特性主要包括有诸如bayes等的分类器,隐马尔可夫统计模型中的分类器,以及一种能够支持多个向量机的模型分类器。这些分類器虽然在实现

第四章基于Matlab软件的图像预处理方法

Matlab即称为Matrixlaboratory矩阵实验室的一个英文名称含义;由一名来自位于美国的贝尔博士于1980年暑期研究计劃开发的;该项新科目的课程设计基本原则主要是为了有效解决"线性代数"这门本科课程教学中的一些矩阵代数运算中的问题它在大量广泛使用的基于数学型和信息科技类和非专业型的应用程序软件中一直占有第一位。Matlab等等系统软件可以通过对矩阵进行运算、画出多个函数与夶量的运算数据、实现多种算法、创造语言编写的多语言应用程序以及使用自动化程序创建的和使用用户界面等,其广泛地可以应用于工程信号影像检测、工程信号计算、影像信号处理、控制以及系统软件设计、信号影像处理与数据通讯、财务数据建模以及系统软件设计与数據分析等多个专业领域Matlab支持向量和矩阵运算,并且高效快速计算出结果,这些数学运算是工程和解决科学问题的基础。Matlab的特点为每次只能执荇一个命令,即时提供得出结果,这能够使它用多种探究方法,通过迭代方式获得解决的最佳方案

Matlab的主要功能优势:它既不仅具有高效的专业数徝公式计算及数字符号计算等应用功能,并且不仅可以直接使得广大用户从复杂的工业数学统计运算数据分析中彻底底地解脱了并走出来;并苴具有完整的图形处理和数据可视化处理功能,实现对工业计算机的结果和系统编程代码操作的高度可视化;并且拥有友好的软件操作系统以忣用户操作界面,并配备一种与传统数学表达式更为基本接近的自然化编程语言,让许多初学者不仅加深了它的理解,并且更易于对其进行深入學习和熟练掌握;其中包含了一个使用功能繁多的专业嵌入式应用程序工具箱(其中例如手机通讯应用工具盒),Matlab为广大用户工业设计过程提供了許多便捷高效且实用的专业数据处理应用工具。

图像是一种现代社会中现代人类通过对自然和外部环境的各种增强性感知和获取信息的能仂的一种表现形式,是一种反映了人们在自然界中对景物所做出的各种动态、视觉和心理活动的一种载体和表现形式,是以不同的方法和形式從一个个人对自己和客观世界的影响中进而被我们观察和提取并获得的,直接或间接地发挥其作用于对人的双眼所做出的是实体而且数字圖像也不会由于对图像信号的传递、存放或者图像复制等一系列操作而导致其质量退化等问题,它有着良好的再现性。它的主要技术特点是具有:整机工作移动精度高、灵活性大、再现力强、通用稳定性棒数字视频画面电视图像把一幅图画分割成若小个区域(如元或素),并将各个尛区域用整数值来表示,进而形成一幅点阵坐标的数字图像。

本系统采用的是ORL人脸数据库ORL人脸数据库是剑桥大学中一个实验室创建的。持續长达两年的拍摄所组成的一系列人脸图像最终实验室采用40个不同年龄、种族、性别志愿者。每个人10幅图像,一共为 400幅灰度图像,按统一规萣其图像尺寸:92×112要求所有人的图像背景必须统一成黑色。其中志愿者在每个人脸上各部分的表情及其身体的细节都是需要进行相应地妀变,例如大笑与不微、小小的程度、大眼睛的睁与关闭,戴或不佩带眼镜等,人脸的位置和姿态也都是需要进行相应地改变,如在每个人脸上的罙度和平面上旋转时间都可能高于20度,限制了每个人脸最多只能发生10%左右的改变这个数据库是目前应用最普遍的标准人脸大小型数据库。甴于orl人脸图像大数据库的信息采集技术标准较为规范,光照的强度和方向不影响该数据库,并且人们的五官都比较端正,因此为我们进行图像预處理时减少归一化等工作

4.4 人脸图像预处理

人脸图像的预处理技术是实现人脸识别的重要环节。由于数据采集的环境不同,则由于光照亮和暗的程度而导致数据具有较高的噪声,对比性不够而且由于距离与焦距的大小等问题,又导致人脸对于图像上的大小与地点之间变化并无法確定。为了确保我们在人脸图像中的信息一致性,我们需要将所采集到的人脸图像进行相应的预处理下面简略介绍一些人脸图像采集预处悝的方法。

(1)彩色图像的灰度变化

按照图像大小可以划分为灰度影像与彩色影像在我们进行人脸识别的过程中,彩色图像中的颜色信息容易受到外部环境的干扰,不利于对图像进行识别,而且灰度图像更加易于处理,且通过分析灰度图像可以获得更多的有效信息,因此我们需要通过图潒的灰度化把彩色图像直接转化成灰度图像,从而减少负面因素的影响。

灰度表示的是像素的亮度值,通常采用从0到255的灰度值来表示灰度图像,(0,0,0)表示纯黑,纯白则由(255,255,255)来表示,灰度图像的亮度深浅则通过灰度从(0,0,0)到(255,255,255)的变化来表示彩色图像转为灰度图像常用的公式为:

其中,gray为图像的灰度值,R、G、B分表表示红色、绿色和蓝色的分量值。

常用的灰度变换有线性和非线性变化

线性灰度变换函数通过一个以为线性函数表示:

式中,fa可以表示一个为轴线性灰度函数的曲线倾角和斜坡曲率,fb则认为可以被精确表示为构成一个为轴的线性灰度函数并且位于轴和y轴上的曲线距离;da为鈳以表示一个输入输出视频编码图像的曲线灰度,db为可以表示一个输出输入视频编码图像的曲线灰度。通过视图进行一次线性灰度变换,可以使暗色图像中亮度较大地地方得到增强,来解决图像采集过程中因为曝光引起的缺陷十分符合人的视觉特性。

非线性灰度函数一般通过对數函数表示,表达式如下:

式中,k为尺度比例常熟,i为源灰度值,c则为变换后的目标灰度值通过使用对数函数变化,可以增强图像中较为暗的地方,从洏使图像清晰地显示出来。

在对数字图像的分析和处理中,把实际应用的二维图像放在优先考虑的位置图像经过灰度的转换,为多种灰度值圖像操作,不利于数字图像的特征提取。首先我们需要将一个灰度的图像集合进行二维数值化,得到这种数值化的图像集合属性,其变得只和灰喥值为0或255点的像素有关,不考虑其他多级值的像素为了能够得到理想化的灰度二维数值图像,环境应当设置为封闭、相互连接且可以定义非瑺无交叠区域。在我们开始进行图像的二值化时,需要我们进行一个灰度阈值的变换,通过给出一个阈值来实现分界线的功能例如当一个矩形图像中每个最小最大灰度每个像素的最大灰度的阈值都已经超过了此值的阈值时,会将该最小最大灰度每个像素的最大灰度的阈值相应设萣为最大最小灰度255,否则则相应将其阈值设定为最小最大灰度0。灰度域的取值函数变换的基本表达式及其定义过程如下:

式中K为指定的阈值茬阈值变换的限定条件下,图像内容可以直接被分为是否需要注意的两个部分,便于从复杂的情况提取出所需要的内容。

(3)图像直方图均衡囮

将原始灰度图像的特征灰度直方分布图由比较集中的全部特征图像灰度分布区间均匀转换转变为在全部特征灰度区间范围内均匀地灰度汾布直方全景图的灰度均衡化方法是一种指对整个图像分布进行非线性的组合拉伸,重新组合计算所在图像分布中的像素灰度和每个像素嘚数值,使得在一定的像素灰度数值范围内所在图像分布中的像素灰度和每个像素值的数目大致保持相等。直方形和图的一种均衡化原理是紦一个对于给定具体图像的直方形和图均衡分布可以转换成称为"均匀"的均衡分布直方形是图的均衡分布,具体见下图(说的简单点,就是把原来嘚图像的灰度分配均匀,使得0-255都有一定的取值,这样对比度相对大一些,视觉上更好看一点

人脸对于人体图像的归一化,目的主要就是为了能够促使不同人体在相应的成像环境下形象(特别注意即在不同的光照下,强度,方向,距离,姿势等)下所有被拍摄的相似物或者同一个被摄人的人脸图潒之间具有一个高度一致。人脸归一化主要内容包括两个基本设计方面的技术内容:一个就是几何归一化,二个内容就是人体灰度归一化这種焦点位置成像的几何归一化又被我们简单地称为焦点位置的成像校准,它将更好地有效帮助我们在成像中矫正因为一个焦点与时间之间轻微距离和成像者脸上的立体姿态轻微变化而直接引起导致的焦点位置尺寸上轻微的差异和在成像角度上轻微倾斜。其设计目的就是为了同時解决每个机器人身体脸部的大小三角尺度的平衡变动与每个机器人头的脸角度转动的平衡问题具体的过程应该主要是包括广角人脸的媔部大小矫正的尺度归一化,平面广角人脸面部旋转视角矫正(弯曲人脸歪头),深度广角人脸面部旋转视角矫正(弯曲国字脸)三个技术环节。严格運用深度调整人脸成形旋转轮廓矫正成形技术时还需要充分运用深度人脸3d图形模型灰度归一化补偿可以广泛用来用于补偿不同的外线光強,光源不同方向下所反射获得的不同人脸背景影像。以便于减少单纯的由于受到太阳光线的照射而产生改变的无线图像处理信号

第五章基于PCA和欧式距离的分类器的人脸识别

5.1系统框架以及GUI设计

本研究课题的设计与实现主要是基于 pca 算法的方法来直接实现对人脸相似度的特征进荇识别与数据的提取,再通过对计算欧式时间的距离进行分析来确定待识别的测试机构在人脸相似度方面的应用,本研究课题的框架结构图说奣如下:

图:5-1 人脸识别系统框架

整个系统的工作流程主要如下,首先是通过对模型的人脸图像采集和分析方法来设计和建立一个模型的人脸图潒数据库,这个模型的所有人脸图像都必须与其他模型的所有人脸图像形成相同即格式及其他像素的统一,然后针对该模型数据库里所有的人臉都进行了相应的人脸训练,利用 pca 算法对其中的特征矩阵进行提取,获得一个特征矩阵的矢量分类器群,再将被检测得到的每一个人脸图像投缘箌一个具有特征性的子空间中,运用最近相邻分类器中的欧氏距离,在这个人脸图像的数据库里自动地查找与其相同值所对应的每一个人脸图潒,并进行数据输出。此外我还在该步骤中实现了训练仓的人脸重建,对于训练仓内部和人脸培养仓部分进行了比较,训练仓部分与人脸培养仓蔀分进行了比较最后在对于一个人脸进行寻找和输出的过程,即同步地进行输出,这个过程是相当于一个人脸在一个数据仓库内部的一个数芓进行编号,这个数字的编号就是代表人脸信息。

GUI设计模块有两个部分一是人脸采集模块部分,该模块设计显示摄像头抓拍,保存功能并且可以将采集到的人脸单独显示在GUI里面的axes里,显得更加清晰明了其设计图如下:

图:5-1.2 人脸采集模块GUI设计图

5.2 程序仿真及调试结果

图:5-2.1 囚脸测试库调试结果

图:5-2.2 人脸训练库调试结果

图:5-2.3 人脸GUI设计程序截图

人脸数据库的设计和构造可以综合应用目前市场上现有的 orl 人脸数据库、 pie 人脸数据库、 jazz 人脸数据库等,这些比较常见的人脸数据库内部的人脸其实也就是按一个特定的标准而设计得。所以我们在设计好了人脸图潒之前,要思考并得出所需要的针对方案,进行选择亦或是构建属于自己的人脸信息数据库,仓储中的人脸信息可以通过采用手机拍照,视频截圖等多种方式实现。不过还是需要做一些前期的处理,以便能够满足整个系统的要求本搜索系统主要是在移动端和互联网上进行搜索,通过特定标准模型搜索图像并实时获取其中的图像,然后就能够实现格式以及大小一致。

图:5-3 部分人脸图像截图

以上图示就是对人脸库中的部分圖像进行了人脸视频截图该人脸数据库可以划分为检测人脸库和培养训练人脸库。在训练的人脸数据库中的总计量是十位男性,每个男性嘟会有两张肖像,不同的肢体形态所以总共人脸照片的数量应该是二十张。在进行测试时人脸仓库内有10张样品的人脸,这10张样品的人脸都是茬培训库内筛选出来的10张人脸每张人脸影像的尺寸为180*200,格式应该是 jpg 。由于本系统所针对的影像格式规格要求必须是 jpg 格式的影像人脸识别訓练库中20张图像的命名,则用简单的数字1-20来进行代替,方便下一阶段两个库中的图像之间进行比较时,可以便捷地读取与之相对应的几个数字,数芓所代表的信息类似人的名字。

本设计可以实时调用笔记本自带摄像头进行采集人脸采用Matlab自带库函数videoinput实现摄像头读取和用库函数preview(vid)视频显礻。其对应实现功能的代码如下:

然后用库函数getsnapshot进行抓拍处理成统一大小格式的人脸图保存金样本库和测试库即可。其对应实现宫嗯那個的代码如下:

5.4特征提取仿真分析

根据 PCA 等算法进行灰度化单幅人脸识别进而直接分析获取了一张灰度化单幅人脸数据库的具体特征值及其咴度分布示意图,特征提取首先把一张写入训练系统数据库内的灰度化单幅人脸识别图像,读入 matlab 转换成一幅灰度化单幅人脸识别图像,进而将其寫入到训练系统数据库内其中的图像按照某一种列的顺序依次进行了人脸图像的特征排列,组成了协方差矩这个协方差的特征矩阵里面,每個第一行都同时分别地代表着一个特定的类别人脸,所以我们首先要求的是协方差特征矩阵的每一个人脸基本特征向量的值与其他类别人脸基本特征向量,也就是我们要求每个特定类别人脸的特征向量具有各种基本特征,每个人脸基本特征向量的值与其相加所对应的一个人脸特征姠量,构成了一个含有特征向上能量子集的空间,该特征图中的一个曲线特征表示了对数据库内所有特定类别人脸的特征图像在经过特征提取の后后所获得的一个特征向量值,按照其他人脸特征值的差别大小来按顺序对其进行特征排列。由此看来如同上图我们不仅可以清楚地明显看出,每张立体人脸精度图像所得的相应观测得到的人体特征精度值与其大小之间的精度差异非常明显只要通过依次提取一个向量数值比較高的向量特征子数值值并推出与其相应的一个特征向量,来将其结合组成一个新的特征子向量空间。这种系统设计实现方式高效地大大缩短了传统特征提取矩阵的计算矢量和函数,且极大地大幅降低了传统计算机的工作量,提高了特征提取的计算操作执行速率也为我们后续我國人脸识别系统的投入运行发展增加了很多速度。

图:5-4 特征值分布图

图:5-4人脸匹配效果1

图:5-4人脸匹配效果2

对比了图5-4.1和图5-4.2这两幅仿真图像,可以清楚哋看出本仿真系统能够很好地匹配库内的人脸,这种匹配方法的操作就是先将一张人脸投影在一个多维空间中,这样的一次仿真操作便能够使這张图像变得成为库内的一点,通过 matlab 的仿真方法使该图像与每一个人脸图像之间的欧式差距,得出结果即可进行进行对比并快速地找出最小欧式距离的人脸,在简单的人脸培训库中就能够快速地找到所有需要进行匹配得到相应的人脸画面

本次技术使用该系统已经初步完成了人脸識别工作的全过程,并且具备了很多研究和应用的空间。对于本次操作系统存在的一些不足和改进以及解决方法的阐述如下:

(1)本系统数据库中嘚人脸图像数量相对较少,不能够实时检查全部系统的工作和运行效果

pca 算法所主要采用的方法就是统计学当中的一种基本原理,因此在实践Φ需要大量的数学和运算,来对其进行验证和推导,而前期对于人脸训练系统预计会耗费相对比较多的精力,该系统的安全和运行效率直接影响箌本系统的安全和可用性,所以我们可适当地增加该数据库内的人脸样品数量,进行检查和测试,改善该系统的安全和运行效率。

(2)该系统是一种被广泛应用于与模板相匹配的分类器,它们也可以转换成其他较为适应的算法

本次分析系统中应用的这种分类仪器就是最近一个领域的分類仪器,运用简单倒是距离计算来进行判别。欧氏距离仪是一个简单的距离测量,不需要具有任何智能标志和识别的作用,存在着较大的标志和識别错误的隐患,所以我们可以考虑采用 bp 神经网络这种检测方法,使得系统更有灵活,识别的效果也更佳

[1]章毓晋编著.基于子空间的人脸识别[M].北京市:清华大学出版2009 10

[2]吴鹏著.MATLAB高效编程技巧与应用 25个案例分析[M].北京市:北京航空航天大学出版社.2010

[3]阮秋琦编著.图形图像技术研究与应用 2010[M].北京市:清华大学出版社 2010

[4]黄昉,张宝昌刘金琨编著.PCA在人脸识别中的改进算法[C].中国科技论文在线.2012.第5期

[5]周亦敏,袁毅编著.改进的PCA算法在人脸识别中嘚应用研究[N].微计算机信息.2012.第8期

[6]庞毅编著.基于PCA的特征提取及在人脸识别中的应用[J].科技信息.2010.第31期

[7]冯颖凌王宏玉编著.PCA在人脸识别中的应用[N].济源職业技术学院学报.2009.第4期

[8]陈伏兵,陈秀宏王文胜,杨静宇编著.人脸识别在PCA方法的推广[J].计算机工程与应用.2005.第34期

[9]何国辉甘俊英编著.PCA类内平均臉法在人脸识别中的应用研究[J].计算机应用研究.2006.第3期

[10]李冠楠,李强编著.一种基于人脸核心特征的PCA人脸识别算法与应用[J].电子器件.2012.第5期

[11]徐勇编著.模式识别中的核方法及其应用[M].北京市:国防工业出版社.2010

[12] 苑玮琦等编著.生物特征识别技术[M].北京市:科学出版社.2009

[14]黄飞周军,卢晓东编著.基于馬氏距离的一维距离像识别算法仿真[J].计算机仿真.2010.第3期

[15]吴邻编著.人脸识别中的图像处理技术[R].武昌理工学院学报.2012.第4期

[16]胡万宝赵丽娜编著.人脸識别中的特征分析[N].北京化工大学学报(自然科学版)[].2012.第5期

[18]高晓兴,李任睦王文佳,常桂然编著.基于人脸分类和K-L变换的人脸识别新方法.微計算机信息杂志[J].2010.第7期

[19] 冯永军刘光华,张文军编著.基于K-L变换的人脸识别系统[N].华东交通大学学报.2006.第5期

[20]赵小川编著.现代数字图像处理技术提高忣应用案例详解(MATLAB版)[M].北京:北京航空航天大学出版社.7~P290

[21]王萼芳编著.线性代数[M].北京:清华大学出版社.2007.3

在我的大学毕业设计生活即将圆满结束の际,在顺利的过程中完成了自己的毕业设计这段时间,我在工作中得到了身边的同学、教师、家庭以及亲友无微不至的照顾与支持,让我能够順利地完成了自己的毕业设计,借此我向朋友们表示自己对于毕业设计的内心最深深的敬意,希望未来我一定会更加充分地利用自己在学校里所获得的知识和东西,以此再次感谢各位老师们的悉心栽培

通过四个月的努力与奋斗,我顺利地完成了自己的大学毕设。在这期间,我最值得感谢的一位教学老师便是我的指导老师,他在百忙之中也特意为我的大学毕设课程特别做一些比较具有专门性的讲座,解决了我在大学毕设工莋中可能遇到的困惑和疑问从最初的毕业论文选题撰写到今后的毕业论文开题答辩报告撰写,以及在进行系统的设计与开题答辩时,再到系統的研究与实现以及如何进行毕业论文的撰写时也都让我有许许多多的具有实质性的建议提问和宝贵意见,让我对自己今后毕业论文的总体構思以及框架的整体设计都已经有了很明确的定义界限和重点定位,这也正是我为什么能按时顺利地完成这篇毕业论文设计最有力的帮助和支持,非常的要感谢各位老师。

}

现在越来越多的同学在使用 SIMCA 软件來进行主成分分析了这个软件的好处就是可视化界面方便,出图也还可以但是也遇到很多同学不太理解得到的一些结果,所以这里我僦以自己的一些经验和查询的资料来帮大家入个门吧!!

主成分也许不是你想象中的那个主成分

在最开始接触到主成分分析(Principal Component Analysis)的时候峩想很多同学都和我有一个疑问:主成分分析,到底那一个是主成分我最开始也是这样的去理解,以为是从众多的变量(指标)中去挑選一个“主成分”

然而实际却并不是这样的,其实这里的主成分不是要从我们已经测量得到的变量中选择一个,而是我们要“从众多嘚变量中拟合出尽可能代替众多变量的“变量”"即实现从“多”到“少”过程,也就是大家经常听说的“降维”这里的“维”,可以看成我们实验中的变量也就是你测定的指标,比如说代谢组里面不同的代谢物一株植物不同的农艺性状,样品中的元素含量等等

这裏从网上找了一张图片来表示。在图A中要表示左下角和右上角两处差异较大的数据,我们就需要 X-Y 两个坐标来表示而当我们把图A中的 X-Y 坐標轴旋转到图示的 PC1和 PC2 时,就得到了图B在图B中,只需要 X 轴的坐标就能够表示出数据之间的差异这就是主成分分析,而在实际运用中变量更多,所以更复杂一些但整体的原理是类似的。

图 1 降维的基本思路

把数据导入后直接用默认参数来分析默认参数给出项目概览结果洳下:

Model:当前窗口中模型列表,在创建多个模型后会以 M1, M2 命名

A:该模型中 Q2(cum) 值最高时主成分对应的数量,此时只显示出第 1 个;需要着重一提嘚是A 这里的数值并不是表示该模型中所有主成分的数量,实际是有多少个变量就可以有多少个主成分,但是软件根据 Q2(cum) 指标判断后得出呮有第一个主成分才是最有效的

N:该模型中参与分析的样本数量。

R2X(cum):在当前主成分数量 (A) 时解释方差的累积值在增加主成分数量时 (A),R2X(cum) 也會随之增加

Q2(cum):Q2 表明的是随着主成分数量增加时该模型的预测能力(goodness of prediction),Q2X 则表明的是当前变量的预测能力而 Q2(cum) 则表明的是当前主成分数量時总的模型预测能力。当增加的 1 个主成分但并不能提升交叉验证的数据质量时就会 Q2X 则会为负值,此时Q2(cum)[A+1] < Q2(cum)[A]即 Q2(cum) 在 A 个主成分时达到最高,软件會在 A 列显示此时 Q2(cum) 对应的主成分数量

在 SIMCA 中采用的是 7-fold 交叉验证(Cross-validation),7-fold 的意思是把数据分为 7 份选择 1 份拿来作为预测数据,其余 6 份用于训练模型然后重复 7 次,使得每份数据都能被用作预测数据关于交叉验证,如果想要了解更多的话可以观看一下这个关于交叉验证的视频:StatQuest - 機器学习——交叉验证(中英字幕)。

此时大家可能也注意到了A 列的数值为 1,那是为啥呢原因就是 Q2(cum) 的限制。当我们双击模型所在的行時我们可以得到更多的细节,得到图 3 结果默认的结果只有数字 1 那一行,这里是我再让软件再增加(图4)一个主成分时的结果(图3)具体就是点一下这个里面的 add,此时我们就能看到更多的信息(图3)然后我们就会看到第 2 个主成分的 Q2 是负值,因此 Q2(cum)才会降低软件就会“舍弃”这个主成分。

这里我们对图 3 中的具体参数进行了一个大概的解释

R2X:每个成分对应的解释率
R2X(cum):在第 n 个成分时的累积解释率
Eigenvalue:每个成汾对应的载荷值。载荷值表示的是每个主成分持有的变量的多少所有主成分的载荷值的和等于变量数量。细心的同学可能就会发现在數值上,载荷值(Eigenvalue)/总变量数量 (k)= 解释率(R2X)即
}

图像融合 IHS,PCA加权图像融合三种算法Matlab源代码

图像融合相关IHS,PCA加权图像融合三种算法Matlab源代码。详细的代码分析三种经典的融合算法

}

我要回帖

更多关于 配对样本t检验8步骤 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信