ppc投影寻踪 matlab样本一般是多少

豆丁微信公众号
君,已阅读到文档的结尾了呢~~
人工免疫投影寻踪降维模型——AI-PPC,ai人工智能,ai人工智能电影,ro人工生命体ai下载,人工智能ai程序设计,人工ai,人工生命体ai,ai人工智能下载,ro人工生命体ai,ai人工智慧
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
人工免疫投影寻踪降维模型——AI-PPC
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口豆丁微信公众号
君,已阅读到文档的结尾了呢~~
基于投影寻踪聚类模型的区域经济可_省略_个省1年数据为例_苗敬毅,区域聚类,投影寻踪,投影寻踪 matlab,蛙跳算法 投影寻踪,聚类分析,聚类算法,k means聚类算法,kmeans聚类算法,层次聚类
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于投影寻踪聚类模型的区域经济可_省略_个省年数据为例_苗敬毅
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口基于加速遗传算法的投影寻踪模型在水质评价中的应用研究
水质评价就是根据某些水质指标值 ,通过建立数学模型 ,对某水体的等级进行综合评判 ,为水体的科学管理和污染防治提供决策依据。目前关于水质评价的方法主要有单项指数法、均值法、灰色聚类法、模糊综合评判法、(模糊 )神经网络方法、物元分析法等多种方法[1 ] 。这些模型的计算大都存在人为赋权的干扰以及等级分辨率较粗的不足。由于水质类型往往由多个非线性指标来决定 ,采用传统的数据分析方法建立水质评价模型时 ,由于受到过于数字化的限制 ,难以找到数据的内在规律。2 0世纪 70年代 ,Friedme提出多元数据分析的投影寻踪 (ProjectionPursuit,简称PP)新算法 ,该方法能在一定程度上解决多指标样本分类等非线性问题。但是多维数据复杂的空间拓扑结构使得最优投影方向难于寻找。为此 ,本文采用实码加速遗传算法(RealcodingbasedAcceleratingGeneticAlgorithm ,简称RAGA)来优化多维投影...&
(本文共4页)
权威出处:
随着人类经济活动范围的日益扩大,地表水资源污染日益严重,地下水的开发规模不断增大,出现地下水的大量开采,要做到充分、有效和持续地利用地下水资源,把由于开采地下水资源酿成的危害限制到最小程度,就必须对地下水资源进行科学的管理,地下水系统计算是地下水资源管理的前提与基础,正确地进行地下水系统计算为合理的配置和开采地下水资源提供依据和指导。关于地下水系统计算的人工智能应用研究内容极为丰富,难以一一涉及,本文以FORTRAN90计算机语言为载体,就加速遗传算法(AGA)和自适应神经网络算法(A-BP)在地下水系统计算的某些方面的应用进行了研究。在各种类型含水层水文地质参数的推求上,通过对描述含水层特性的水文地质模型的数值分析,将AGA和A-BP融于水文地质模型中,给出了AGA和A-BP确定承压含水层系统参数的过程,提出了以AGA和A-BP确定越流含水层系统参数的方法及确定潜水含水层系统参数的Boulton-AGA、Boulton-A-B...&
(本文共147页)
权威出处:
本文在深刻认识遗传算法(GA)运行机理的基础上,紧紧抓住“交叉”这一GA思想的精髓,把GA 的基本原理、分析技术和先进算法较完整地引入水资源工程领域,研制开发了适用于水资源工程问题的GA 具体实施方案,解决了常规方法难以解决的一系列复杂问题。本文的主要结论是: 1.为改进标准遗传算法,完善了基于二进制编码的加速遗传算法(AGA),提 出了基于实数编码的加速遗传算法(RAGA)和基于整数编码的单亲遗传算 法(IPGA)。2.用IPGA 可求解大规模资源最优分配问题。3.建立了基于AGA 的门限自回归模型、基于AGA 的门限回归模型、基于 AGA 的双线性模型、基于AGA 的逻辑斯谛曲线模型、基于RAGA 的投影 寻踪分类模型、基于RAGA 的投影寻踪等级评价模型、基于RAGA 的投 影寻踪门限自回归模型和基于RAGA 的投影寻踪门限回归模型。并把这些 模型成功地用于地下水位预测、海温预测、海洋冰情预测、河道洪水预 测、低温冷害预测...&
(本文共160页)
权威出处:
在经济发展高速增长的同时,水环境问题日渐突出,迫切需要相应理论及技术的支持。研究水体中污染物迁移转化规律,准确评价水环境状况,预测水环境变化趋势,对于经济有效地防治水环境污染,具有重要的科学价值和现实意义。本论文以国家自然科学基金重点研究项目“京蒙沙源区植被建设中水资源优化配置研究”和内蒙古自然科学基金项目“西山湾水库水环境质量预测模型与水环境改善对策研究”为依托,结合浑善达克沙地京蒙沙源区生态环境建设中生态需水的实际,将环境科学、水利科学等学科进行交叉渗透,就模糊集理论、灰色系统理论、自适应神经网络算法(A-BP)、加速遗传算法(AGA)以及各种算法的结合在水质评价中的应用进行了研究,就神经网络在水质模拟预测及水库富营养化预测方面的应用进行了探讨,建立了基于A-BP和AGA的水质评价、模拟预测模型,旨在寻求一种评价结果客观、准确、评价过程简单而有效的评价预测方法。(1)在采集分析西山湾水库大量实测水质数据的基础上,建立了基于A...&
(本文共124页)
权威出处:
随着社会的发展,人类不断影响和改造着周围的环境,从而对自身的生存空间造成严重的破坏和污染,不断加剧的气候异常、温室效应、植被破坏、淡水资源短缺等全球性环境问题,逐渐成为制约社会经济发展的主要因素。水环境的破坏和污染也是诸多环境问题中的重要组成部分,因此,水环境的保护成为当前水资源开发和利用的重要工作。水质监测与评价是水环境管理中的主要内容,通过水质评价可以了解水环境质量的过去、现在和未来的发展趋势及其变化规律,为制定综合防治措施与方案以及制定国家或地方相应的环境标准、法规等提供科学依据。水质评价方法是本文的研究重点,文中主要介绍了GIS理论与投影寻踪模型在水质评价中的应用,研究工作主要包括以下五个方面:(1)详细回顾了国内外关于水质评价理论的研究进展,介绍了水质监测与评价的基本理论,展望了水质评价方法未来的发展趋势。(2)介绍了投影寻踪模型的基本原理,并改进了传统的投影寻踪模型,且将该改进后的模型运用于水质评价中,提高了水质评价...&
(本文共80页)
权威出处:
水环境及水资源自然发展、演化过程的分析和模拟,合理判定水环境污染程度,进行水环境及水资源系统分析计算,是目前改善水环境质量、提高资源利用能力需要解决的问题,并为水环境及水资源管理决策提供科学依据。目前水环境及水资源信息分析计算方法研究仍处于积极探索和不断发展阶段,是环境科学系统工程界的热点和难点之一。为了更好地探索水环境及水资源的演变规律,更客观、更准确地反映水环境实际情况,引入分析计算的新原理及新方法来研究水环境及水资源问题,是学科发展的需要。本文依托973国家重点基础研究发展规划项目“长江中下游湖泊富营养化发展趋势预测方法研究”(NO. )和国家自然科学基金项目“基于子波和分形理论的水文尺度分析新途径”(NO. ),在总结和吸收有关前人研究成果的基础上,系统地介绍了两种直接用于水环境及水资源评价和预测的新方法——投影寻踪、支持向量机;三种用于水环境及水资源分析计算模型参数估计的优化算法...&
(本文共181页)
权威出处:
扩展阅读:
CNKI手机学问
有学问,才够权威!
xuewen.cnki.net
出版:《中国学术期刊(光盘版)》电子杂志社有限公司
地址:北京清华大学 84-48信箱 大众知识服务
京ICP证040431号&
服务咨询:400-810--9993
订购咨询:400-819-9993
传真:010-城市金融中心的投影寻踪评价模型与实证研究_图文_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
城市金融中心的投影寻踪评价模型与实证研究
阅读已结束,下载本文需要
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,同时保存到云知识,更方便管理
加入VIP
还剩2页未读,
定制HR最喜欢的简历
你可能喜欢当前位置: >>
投影寻踪方法及应用
投影寻踪方法及应用内容摘要: 内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在 此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价 进行实证分析,并给出结论和建议。 关键词: 关键词:投影寻踪 投影寻踪聚类模型 遗传算法一、简介(一)产生背景 随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是 解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这 个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数 的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困 难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍 会存在高维空间中分布稀疏的“维数祸根” 。对于核估计,近邻估计之类的非参数法很难使 用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。 另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种 假定――按照一定准则寻找最优模拟――对建立的模型进行证实”这样一条证实性数据分 析思维方法〔简称 CDA 法) 。这种方法的一个弱点是当数据的结构或特征与假定不相符时, 模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。 其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化 的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针 对上述困难,近 20 年来,国际统计界提出采用“直接从审视数据出发―通过计算机分析模 拟数据―设计软件程序检验”这样一条探索性数据分析新方法,而 PP 就是实现这种新思维 的一种行之有效的方法。因此,高维数据尤其是非正态高维数据分析的需要,加上 80 年代 计算机技术的高度发展是 PP 产生的主要背景。 (二)发展简史 PP 最早由 Kruskal 于 70 年初建议和试验。他把高维数据投影到低维空间,通过数值计 算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974 年 Frledman 和 Tukey 加 以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析, 正式提出了 PP 概念,并于 1976 年编制了计算机图像系统 PRIM――9。1979 年后,Friedman 等人相继提出了 PP 回归、PP 分类和 PP 密度估计。在这以后 Huber 等人积极探索了 PP 的理 论。1981 年 Donoho 提出了用 Shannan 嫡作投影指标比 wiggins 用标准化峰度更好的方法, 接着他又利用 PP 的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、 Friedman 和 Jones 等还讨论了与 PP 有关的其他理论问题。 上述工作和结果在 1985 年 Huber 的综述论文中作了概括和总结。 我国学者成平和吴健福于 1985 年证明了 PP 密度估计的一个收敛性问题,并于 1987 年 给出 PP 经验分布的极限分布。陈忠琏和李国英等于 1986 年用 PP 方法给出了散布阵和主成 分的一类稳健估计。成平和李国英于 1986 年还对多元位置和散布的 PP 型估计性质进行了 讨论叫。陈家弊于 1986 年证明了密度 PP 估计的一个极限定理。宋立新和成平于 1996 年就 PP 回归逼近的均方收敛性,回答了 Huber1985 年的猜想。这些都是很好的工作。在 PP 的应 用研究方面,从 1985 年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成 了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了 验算。二、PP 及其分类投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计 方法。其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3 维) 子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在 低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。 它的一般方案是: (l)选定一个分布模型作为标准(一般是正态分布) ,认为它是最不感兴趣的结构; (2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影 中含有标准模型没能反映出来的结构; (3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据; (4)对新数据重复步骤(2) ,直到数据与标准模型在任何投影空间都没有明显差 (3) 别为止。 PP 方法的主要特点是: (l)PP 方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低 维子空间上进行的,对 1-3 维的投影空间来说,高维空间中稀疏的数据点就足够密了,足 以发现数据在投影空间中结构特征; (2)PP 方法可以排除与数据结构和特征无关,或关系很小的变量的干扰; (3)PP 方法为使用一维统计方法解决高维问题开辟了途径,因为 PP 方法可以将高维 数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果, 找出好的投影; (4)与其他非参数方法一样,PP 方法可以用来解决某些非线性问题。PP 虽然是以数 据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程 度的非线性问题,如多元非线性回归; (二)PP 的分类 PP 包括手工 PP 和机械 PP 两方面内容。 手工 PP 主要是利用计算机图像显示系统在终端 屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平 面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用 者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影 平面来寻找这种有意义的投影平面。 最早的图象显示系统是斯坦福大学教授 J.H.Friedman 等人 1974 年编制的,PRIM 一 9。 利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚 类和超曲面结构。这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显 示出来。因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再 分别考察每个类中的数据的结构和特征。 使用手工 PP 成功的例子是美国的 Reaven 和 Miller 于 1979 年关于多尿病病理的研究。 他们将 145 人的 5 项指标观察值输入 PRIM 一 9 图像显示系统, 5 项指标中的每 3 项指标, 对 观察 145 个 3 维点构成的点云在任何 2 维平面上的投影图像,最后找到了一个在医学上有 意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。不经过 中间正常状态,两者是不能相互转换的。 机械 PP 是模仿手工 PP,用数值计算方法在计算机上自动找出高维数据的低维投影,即 让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。它 要求对一个 P 维随机向量 X,寻找一个 K(K&p)维投影矩阵 A,使定义在某个 K 维分布函数 集合 Fk 上的实值函数 Q(投影指标) ,满足 Q( Ax1 , Ax2 ,? , Axk ) = Q( Ax) = Max 。如果原数据 确有某种结构或特征,指标又选得恰当,那么在所找到的某些方向上,一定含有数据的结 构或特征。 有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析,判别分 析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特 征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。下面以大家熟知的 主成份分析为例具体说明机械投影寻踪方法。 主成份分析的目的是要考察 P 维数据 x1 , x2 ,? , xn ,是否真正散布在 P 维空间上,还是主 要只散布在某个维数小于 P 的子空间上。好比一块铁饼,虽然是三维空间中的形体,由于 相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直 的方向上没有多少布散布。我们取描述一维数据散布程度的标准差作为投影指标。实数 y1 , y2 ,? , yn 的标准是 σ ( y1 , y2 ,? , yn ) =∑ ( yi ? y) 2 /(n ? 1) ,其中 y = ∑ yi / n 。用投影寻踪了1nn1解数据 x1 , x2 ,? , xn 的散布情况,就是找出一个方向 b ,使得数据在这个方向上的投影的散布 达到最大,即 σ (b1' x1 ,? , b1' xn ) = max σ (a ' x1 ,? , a ' xn ) , b1 就是 x1 , x2 ,? , xn 的样本协差阵 S 的最a =1大特征根 λ1 的特征向量。把 S 的特征根从大到小排列,记作 λ1 , λ2 ,? , λ p ,这样投影寻踪就 给出了 x1 , x2 ,? , xn 的第一主成份 b1' x1 , b1' x2 ,? , b1' xn ,它的标准差 σ (b1' x1 ,? , b1' xn ) = λ1 。继续作' ' 投影寻踪,在与 b1 垂直的空间里求单位向量 b2 ,使 σ (b2 x1 ,? , b2 xn ) = max σ (a ' x1 ,? , a ' xn ) 。 a =1, a & b1 ' ' 可以证明 b2 就是相应于 λ2 的特征根,进而得到 x1 , x2 ,? , xn 的第二主成份 b2 x1 ,? , b2 xn ,及其标准差 λ2 ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接 近零为止。 当然,主成份分析只是机械投影寻踪的一个特例。一般的并不要求后面的投影方向与 前面找到的投影方向垂直。而且,对于主成分分析其样本协方差阵及特征根和特征向量对 离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。 为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求 极值的投影寻踪法,而是直接求样协差阵 S 的特征根和特征向量。三、投影指标PP 的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影 是?几乎正态的,并且正态分布通常为无信息分布的代表。从而寻求与正态分布差异最大 的线性投影分布,即含信息最多的投影分布,成为 PP 方法的常用方式之一。既然如此,那 么它是如何实现的呢?为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准 则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从 略。 (1)方差指标 Q(a T X ) = Var (a T X ) 设 ( x1 , x2 ,? , xn ) 是 总 体 X 的 独 立 同 分 布 的 样 本 , 方 差 指 标 的 样 本 形 式 为 Q(aT X ) =∧ 1 n T ∑ (a xi ? E (aT X )) 。如果我们求 max Q(aT X ) ,得到的 a 就是样本散布最大的方 n i =12向。主成分分析就是取样本方差为投影指标的 PP 方法。 (2)Friedman 指标 设有 Legendre 多项式Q0 ( R ) = 1, Q1 ( R ) = R ,1 Q j = [(2 j ? 1) RQ j ?1 ? ( j ? 1)Q j ? 2 ], j = 2,3? j设 X 为 P 维随机向量,协方差阵 ∑ 的正交分解 ∑ = UDU T ,U 是标准正交阵,D 是对角 阵。 ( x1 , x2 ,? , xn ) 是 X 的 n 个样本, Pn 是其经验分布。为了达到 PP 的主要目的,并减少计 算量,我们要求 PP 指标对 P 维数据的任何非奇异仿射变换保持不变。为此,对 x 及它的子 样进行球面化,即令 Z = D U T ( X ? EX ) ,如果 ∑ 未知,则用样本的协方差阵 ∑ n 的正交分 解 ∑ n = U n DnU n 的 U n , Dn 代替 U , D 。设 Φ(x) 为标准正态分布分布函数,则 Friedman 指标T?1 2为 I ( a, P ) =1 J ∑ (2 j + 1)[ E PQ j (2Φ(aT Z ) ? 1)]2 其中 P 是 X 的分布函数。 2 i =1 1 J ∑ (2 j + 1)[ E Pn Q j (2Φ(aT Z ) ? 1)]2 2 i =1样本形式为 I n (a ) =(3)偏度指标和峰度指标 偏度是用来衡量分布非对称性的统计指标,峰度是用来衡量分布平坦性的统计指标, 它们都对离群点非常敏感。因此可以用作投影指标来寻找离群点。设原随机变量为 X,投影 方向为 a,偏度指标和峰度指标分别为2 I1 (a ) = Q1 (a T X ) = k32 和 I 2 (a ) = Q2 (a T X ) = k 4以及两者混合产生的指标2 2 I 3 (a ) = Q3 (a T X ) = k32 + k 4 / 12 和 I 4 (a ) = Q4 (a T X ) = k32 ? k 4这类指标对于检测噪声背景下的比较细小的特征目标有较好的效果。 (4)信息散度指标 一般认为服从正态分布的数据含有的有用信息最少,因而我们感兴趣的是与正态分布 差别大的结构。多元正态分布的任何一维线性投影仍然服从正态分布,因此如果一个数据 在某个方向上的投影与正态分布差别较大,那它就一定含有非正态的结构,这是我们关心 的。高维数据在不同方向上的一维投影与正态分布的差别是不一样的,它显示了在这一方 向上所含有的有用信息的多少,因此可以用投影数据的分布与正态分布的差别来作为投影 指标。人们已经设计出许多具有这种特点的指标,信息散度指标就是其中之一。设 f 是一 维密度函数, 是一维标准正态分布密度函数, 对 g 的相对嫡为 d ( f g ) = g f 信息散度指标定义为: Q( f ) = d ( f g ) + d ( g f ) 当 f = g 时, d ( f g ) = 0 ;若 f 偏离 g 越远,那么 d ( f g ) 值就越大,因此 d ( f g ) 刻划了 f 到 g 的偏离程度。由于根据样本估计 f 是很麻烦的,因此更简便有效的方法是用离散 化的概率分布 p 和 q 分别代替连续的密度函数 f 和 g,这时指标变为p Q ( p, q ) = D ( p q ) + D (q p ) ,其中 D ( p q ) = ∑ q ? log( ) 。如果投影指标的值越大,那么意味 q+∞?∞∫ g ( x) ? log g ( x) dxf ( x)着它越偏离正态分布,因而是我们感兴趣的方向 高 维 数据集 结 构 结构 度量 线 性 投 影基于结构的 PP 降维流程四、投影寻踪聚类模型(一)用 PP 探索高维数据的结构或特征时,一般采用迭代模式。首先根据经验或猜想 给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。 这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并 在现有模型上,得到改进了的新模型。再从这个新模型出发,重复以上步骤,直到数据与 模型在任何投影空间都没有明显的差别为止。由于 PP 是一种数据分析的新思维方式,因此 将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合, 会产生很多新的分析方法。例如投影寻踪聚类(Projection Pursuit Classification,简 称 PPC) ,它是以每一类内具有相对大的密集度,而各类之间具有相对大的散开度为目标来 寻找最优一维投影方向,并根据相应的综合投影特征值对样本进行综合分析评价。 (二)投影寻踪聚类模型 设第 i 个样本第 j 个指标为 xij (i = 1,2,? , j = 1,2,? , m) ,n 为样本个数,m 为指标个数, 用投影寻踪技术建立投影寻踪聚类模型的步骤如下: (1)样本指标数据归一化:由于各指标的量纲不尽相同或数值范围相差较大,因此, 在建模之前对数据进行归一化处理为 x 'ij = x ij x j max ,其中 x j max 表示第 j 个指标的样本最大 值。 (2)线性投影:所谓投影实质上就是从不同的角度去观察数据,寻找最能充分挖掘数 据特征的作为最优投影方向。可在单位超球面中随机抽取若干个初始投影方向 a (a1 , a2 ,? , am ) ,计算其投影指标的大小,根据指标选大的原则,最后确定最大指标对应的 解为最优投影方向。 若 (a1 , a2 ,? , am ) 为 m 维单位向量,则样本 i 在一维线性空间的投影特征值 zi 的表达为' zi = ∑ a j xij 。 j =1 m(3)寻找目标函数:综合投影指标值时,要求投影值 zi 的散布特征应为:局部投影点 尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。故可将目标 函数 Q (a ) 定义为类间距离 s (a ) 与类内密度 d (a ) 的乘积,即 Q ( s ) = s (a ) ? d (a ) 。 类间距离用样本序列的投影特征值方差计算, s (a ) = [∑ ( zi ? z a )i =1 n 2n] 2 。其中 z a 为序列1{z (i ) i = 1,2,? , n} 的均值, s (a ) 愈大,散布愈开。设投影特征值间的距离 rij = zi ? z k (i, k = 1,2,? , n) , d (a ) = ∑∑ ( R ? rik ) f ( R ? rik ) ,f (t ) 则i =1 k =1nn?1 为一阶单位阶跃函数,t ≥ 0 时,其值为 1;t & 0 时,其值为 0。在此 f ( R ? rik ) = ? ?0R ≥ rik , R & rikR 为估计局部散点密度的窗宽参数,按宽度内至少包括一个散点的原则选定,其取值与样本 数 据 结 构 有 关 , 可 基 本 确 定 它 的 合 理 取 值 范 围 为 rmax & R ≤ 2m , 其 中 ,rmax = max(rik )(i, k = 1,2,? , n) 。类内密度 d (a ) 愈大,分类愈显著。(4)优化投影方向:由上述分析可知,当 Q (a ) 取得最大值时所对应的投影方向就是所 要寻找的最优投影方向。因此,寻找最优投影方向的问题可转化为下列优化问题:?max Q(a ) = s (a ) ? d (a ) ? m ,这是以 a j 为优化变量的复杂非线性优化问题,可采用遗传算法 ? a = ∑ a2 = 1 j ? j =1 ?等优化方法求解。 (5)综合评价聚类分析:根据最优投影方向,便可计算反映各评价指标综合信息的投 影特征值 zi 的差异水平,以 zi 的差异水平对样本群进行聚类分析。五、遗传算法(一)定义 遗传算法(Genetic Algorithm,简称 GA)以生物进化过程为背景,模拟生物进化的步 骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通 过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。 它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。其主要特点是直 接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的 全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调 整搜索方向,不需要确定的规则。 (二)运算过程 1. 遗传算法染色体编码 遗传算法不能直接处理问题空间的参数,必须把它们转换成遗传空间的由基因按一定 结构组成的染色体或个体,这一转换操作就叫做编码。二进值编码是目前遗传算法中最常 用的编码方法。即是由二进值字符集{0, 1}产生通常的 0, 1 字符串来表示问题空间的候 选解。 2. 适应度函数 遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标, 它是根据所求问题的目标函数来进行评估的。遗传算法在搜索进化过程中一般不需要其他 外部信息,仅用评估函数来评估个体或解的优劣,并作为以后遗传操作的依据。由于遗传 算法中,适应度函数要比较排序并在此基础上计算选择概率,所以适应度函数的值要取正 值。由此可见,将目标函数映射成求最大值形式且函数值非负的适应度函数是必要的。 在具体应用中,适应度函数的设计要结合求解问题本身的要求而定。适应度函数设计 直接影响到遗传算法的性能。 3. 遗传算子 3.1. 选择 选择算子有时又称为再生算子。选择的目的是把优化的个体(或解)直接遗传到下一 代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度 评估基础上的,目前常用的选择算子有以下几种:适应度比例方法、随机遍历抽样法、局部 选择法、局部选择法。 其中轮盘赌选择法 是最简单也是最常用的选择方法。在该方法中,各个个体的选择概 率和其适应度值成比例。 设群体大小为 n, 其中个体 i 的适应度为 f i , i 被选择的概率 Pi , 则 为遗传算法 Pi = f∑fj =1ni显然,概率反映了个体 i 的适应度在整个群体的个体适应度总和中所占的比例。个体 适应度越大,其被选择的概率就越高,反之亦然。计算出群体中各个个体的选择概率后, 为了选择交配个体,需要进行多轮选择。每一轮产生一个[0,1]之间均匀随机数,将该随 机数作为选择指针来确定被选个体。个体被选后,可随机地组成交配对,以供后面的交叉 操作。 3.2 交叉 在自然界生物进化过程中起核心作用的是生物遗传基因的重组(加上变异) 。遗传算法 中起核心作用的是遗传操作的交叉算子。所谓交叉是指把两个父代个体的部分结构加以替 换重组而生成新个体的操作。通过交叉,遗传算法的搜索能力得以飞跃提高。 交叉算子根据交叉率将种群中的两个个体随机地交换某些基因,能够产生新的基因组 合,期望将有益基因组合在一起。根据编码表示方法的不同,可以有以下的算法: a)实值重组 1)离散重组;2)中间重组; 3)线性重组; 4)扩展线性重组。 b)二进制交叉 1)单点交叉; 2)多点交叉; 3)均匀交叉; 4)洗牌交叉; 5)缩小代理交叉 常用的交叉算子为单点交叉。具体操作是:在个体串中随机设定一个交叉点,实行交叉 时,该点前或后的两个个体的部分结构进行互换,并生成两个新个体。下面给出了单点交 叉的一个例子: 个体 A:1 0 0 1 ↑1 1 1 → 1 0 0 1 0 0 0 新个体 个体 B:0 0 1 1 ↑0 0 0 → 0 0 1 1 1 1 1 新个体 3.3. 变异 变异算子的基本内容是对群体的个体串的某些基因座上的基因值变动。 基于字符集 {0, 1}的二值码串而言,变异操作就是把某些基因座上的基因值取反,即 1→0 或 0→1。 一般来说,变异算子操作的基本步骤如下: (1)在群体中所有个体的码串范围内随机地确定基因座。 (2)以事先设定的变异概率 Pm 来对这些基因座的基因值进行变异。 遗传算法引入变异的目的有两个:一是使遗传算法具有局部的随机搜索能力。当遗传 算法通过交叉算子已接近最优解领域时,利用变异算子的这种局部随机搜索能力可以加速 向最优解收敛。显然,此种情况下的变异概率应取较小值,否则接近最优解的积木块会因 变异而遭到破坏。二是使遗传算法可维持群体多样性,以防止出现未成熟收敛现象。此时 收敛概率应取较大值。 4. 迭代终止 当遗传算法已经寻找到最优的投影方向或者迭代次数已经达到预先设定的次数时,算 法迭代终止,这时所返回的值即为本次寻优过程所得到最优的投影方向。 六、实证分析本文应用投影寻踪聚类模型对上市公司的股价的高低进行分析,所选的盈利指标是每 股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售 利润率、主营业务收益率等等。把每股收益、每股净资产、净资产收益率这三个指标作为 聚类的标准。其中: 净资产利润率=净利润/平均净资产(平均股东权益) ; 每股收益=净利润/期末总股本; 每股净资产=期末净资产/期末总股本。 样本股票的指标数据来自于华夏证券网公布的深圳 2003 年中期上市公司财务指标(如 下表:原始股票样本数据表) 原始股票样本数据表序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 股票 代码 538 631 961 407 510 633 687 852 960 012 股票 简称 晨鸣纸业 云南白药 四环药业 蓝宝信息 大连国际 大连金牛 天水股份 胜利股份 沈阳机床 金路集团 粤美的 A 合金投资 茂化实华 保定天鹅 岳阳兴长 江钻股份 亚华种业 锡业股份 万科 A 南玻科控 每股收益 每股净 净资产收 益率% 8.83 11.54 7.43 2.73 1.18 1.35 0.62 2.36 1.25 6.53 5.06 7.49 5.49 2.7 1.85 4.59 3.09 1.86 4.83 4.6 总股本 (万股) 81.8 .96 53 58.88 18.23 92.2 80 00 90.4
67697.54 股东 人数
34 投影 特征值 1.7 0.16 0.2 0.2 0.83 1.52 0.34 0.65 0.68 1.62 分类 结果 1 2 3 3 4 4 4 4 4 3 2 3 3 3 4 3 3 3 2 3 摊薄(元) 资产(元) 0.39 0. 0. 0.05 0.016 0.053 0.03 0.09 0.24 0. 0.088 0.042 0. 0. 0.14 4.45 2.82 1.53 3.22 2.29 3.5 2.57 2.25 2.31 1.36 4.77 1.59 2.04 3.24 2.27 2.43 4.02 3.29 3.1 2.95将样本指标数据代入投影寻踪模型,其中 n=20,m=5,给定 R = rmax + 3 ,由于模型 比 较 麻 烦 在 此 不 予 给 出 。 通 过 模 型 运 算 得 到 最 优 投 影 方 向 向 量a = (0.36,0.18,0.15169) 。 根据投影方向向量值的大小可知, 每股收益、净资产收益率是影响分类结果的主要因素。同时可以利用 zi = ∑ a j xijj =15(i = 1,2,? ,20) 计算各个样本的投影特征值。根据股票样本的投影特征值的大小,将 20 支股票分为 4 类,投影 特征值越大说明对应的股票投资价值越大。分类结果如下: 第 1 类:晨鸣纸业。这类股票是明显的高收益的绩优股,发展前景令人期待,投资价 值比较大。 第 2 类:云南白药,粤美的 A,万科 A 共有 3 支股票。这类股票有较好的发展态势,但 盲目介入有一定风险,投资者可适当关注,择机介入。 第 3 类:四环药业,兰宝信息,金路集团等共有 10 支股票。这类股票业绩一般,操作 上以回避为主,不过也可能有反弹空间,故还是以观望为主。 第 4 类:大连国际,大连金牛,天水股份等共有 6 支股票。这类股票是明显的低收益 的绩差股,投资上还是以回避为好。 七、结语 PP 的最显著特点是克服了高维点稀分布所造成的“维数祸根”困难,是对传统证实性 数据分析思维方法的突破。其次,它使用了降维手段,当维数较高时,数据结构常表现在 几个投影方向上。PP 法正好能找出反映数据结构的投影方向,而排除了那些与结构无关的 投影方向上的数据的干扰作用,因此,它能有效地发现高维数值的结构和特征。再次,由 于 PP 采用了探索性数据分析方法,与传统的证实性数据分析思维方法法相比,它在处理数 据时,无须人为假定,不会损失大量有用的偏态信息,能自动找出数据内在规律,因此稳 健性较好。
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。}

我要回帖

更多关于 投影寻踪法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信