在北京腰部拍个腰部核磁共振多少钱大概多少钱,如果医保医疗已经累计了1800+,又应该是多少钱?

北京医保报销的范围及比例_百度知道
北京医保报销的范围及比例
我是外地户口,在北京工作。目前公司还没给上社保,前几天膝关节扭伤,断了根韧带,需要做手术,费用大概三四万。这情况在不在医保报销范围内?要是在医保报销范围内如果这个月上社保,要过多久做手术才能直接报销?用不用先自己先垫付?起付标准是多少?如果...
医保报销范围1、医保卡的报销是只限于在指定医院因疾病和部分意外所造成的住院以上的医疗费用。报销公式为:(总费用-门槛费-自费-超支费用)*(75+年龄*0.2)%,正常情况下,实际报销比例在20~60%不等。自费药是不予报销的,乙类药品报销80%,床位费有限额,按规定的一些检查费和诊疗费也不能报销。2、医保卡的报销额度是当地社会职工平均工资的4倍(1年内的累计值)。3、医保卡里的钱可用于指定药店买药和支付门急诊费用,但不属于报销范畴,因为医保卡里的钱就是医保个人账户的钱。4、大病保险报销参保人员患大病后,在市医保定点医疗机构发生的、符合本市医保规定的个人自负部分,纳入居民大病保险支付范围,由大病保险资金报销50%。
专业贷款|抵押、信用贷款
主营:抵押贷款,信用贷款,短期资金周转,贷款方案设计,财富资源配置
之后85%报销,只需要缴纳你的个人部分就好了住院起付线,但这是明显的公司违规,要承担责任和处罚的,北京管的非常严,但你如果不想换工作的话,还是~~~~详情咨询北京新办理医保,医保卡到手后,一年可以调整一次,去三甲医院治疗无需定点,去二甲医院不定点不给报销:1300元,年度额度17万门诊起付线:1800元,之后70%报销,年度只负担两万元如果之前公司没给上医保,当然医保不会给你报销,次月生效,个人可以设定四家定点医院。现在拿医保卡去医院无需垫付资金
本回答被提问者和网友采纳
为您推荐:
其他类似问题
您可能关注的内容
医保的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
核磁共振兼容的手術穿刺定位机器人研制.pdf 73页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:250 &&
核磁共振兼容的手術穿刺定位机器人研制
你可能关注的文档:
··········
··········
上海交通大学
学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工
作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集
体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已
在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
上海交通大学
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留
并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本
人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在
年解密后适用本授权书。
本学位论文属于
不保密□。
(请在以上方框内打“√”)
学位论文作者签名:
指导教师签名:
上海交通大学硕士学位论文
核磁共振兼容的手术穿刺定位机器人研制
穿刺手术是外科常见的一种微创手术,手术的定位需要在医学影像
下进行,传统医学影像导航下的手术定位一般更依赖于医师的经验,具
有很多不足之处,将机器人与医学图像技术相结合,使得定位更加精确,
手术的一次成功率也大大提高。
本文首先学习了穿刺手术及核磁共振医学影像的相关知识,分析了
在核磁共振下??术机器人的兼容性问题,包括空间兼容性、驱动兼容性
和材料兼容性,确定了通过驱动机器人的定位与定向机构,在医学图像
下的导航下,实现穿刺手术的准确定位的最终目的。
在本研究过程中,在核磁共振兼容性的基础上,将机器人设计方案
SCARA 型构型为主体,能够自动完成定位、定向、穿刺三种运动
的定位机器人。按照这一方案,设计了穿刺定位机器人的机械结构,包
括两个被动自由度以及六个主动自由度,可以实现在空间中对末端执行
器位置、位姿的控制,尤其是能够自动完成穿刺过程,使得手术过程更
加准确可靠。整个主体部分采用
SCARA 型机器人,位姿部分采用并联机
构,方便快捷的实现位姿控制。对整个机器人进行了运动分析,包括正
运动学分析与运动学反解,最终得到了运动的解析解或数值解。
上海交通大学硕士学位论文
本文实现了机器人的控制系统,首先对控制系统的硬件进行了选择,
完成了控制系统的整体架构,确定了以
PLC 为核心,通过控制继电器实
现不同气缸运动的控制方案,根据不同的控制完成了
PLC 的编程。同时
搭建了气动回路,完成了气动级进电机的控制,实现了整个机器人机械
部分的运动。
C 型臂引导肾穿刺定位系统进行了改造,通过临床实验的
验证确定了系统的可行性,同时也发现了诸多不足之处,分析确定了整
改方案,完成了样机的设计与制造。
正在加载中,请稍后...拥有1个小站,订阅10个话题,关注47个小站
一个天才质疑了另一个天才,并最终证明:数学家研究的&有意义&的数学命题也可能是不可判定的。Wir m&ssen wissen, wir werden wissen.我们必须知道,我们必将知道。你听到的,正是80年前,1930年,希尔伯特在他退休时演讲的最后六个单词,也是鼓舞一代数学家的六个单词。尽管当时第三次数学危机仍然阴魂不散,但他们坚信,数学大厦的基础是...&
一个天才质疑了另一个天才,并最终证明:数学家研究的&有意义&的数学命题也可能是不可判定的。Wir m&ssen wissen, wir werden wissen.我们必须知道,我们必将知道。你听到的,正是80年前,1930年,希尔伯特在他退休时演讲的最后六个单词,也是鼓舞一代数学家的六个单词。尽管当时第三次数学危机仍然阴魂不散,但他们坚信,数学大厦的基础是坚实的。他们也坚信,任何数学真理,只要通过一代又一代人的不断努力,都能用逻辑的推理将其整合到数学的大厦中。这是何等的气魄!这是何等的梦想!但就在演讲前夕,他的同胞哥德尔,作出了一个断言,彻底打碎了这个梦。
希尔伯特计划&
希尔伯特&&希尔伯特是一位名副其实的数学大师,有人将他称为&数学界最后一位全才&,他看待数学的眼光也是相当深刻的。师从林德曼,希尔伯特在23岁便以一篇关于不变量理论的论文跻身数学界。他的证明方法在当时相当具有争议性。在这篇论文中,他使用了非构造性的证明,也就是说他只能证明某个数学对象的存在性,却无法将它具体指出。比如说,一个报告厅有100个座位,有99位听众进去了,我可以断定一定有一个空座位,这就是一种非构造性证明。但我没办法将具体的空座位指出来,希尔伯特也无法具体构造所要证明的对象,所以当时也受到了一些数学家的批评。另外,他的证明依赖于对无穷的对象使用排中律,从而遭到了不少人的质疑。排中律,说的就是一件事非真即假,这再明白不过了,为什么还有反对的意见呢?比如说这样一个命题:π中含有任意长度的连续数字9。如果我们接受排中律的话,这个命题非真即假。但无论这个命题是真是假,我们都无法在实际上验证,因为要验证这个命题,我们都要将π无穷地计算下去,而这是不可能做到的。所以,人们对于将排中律用到这种无穷的情况仍有顾虑,因为这不是他们的直觉能掌握的范围。我们不知道是否因为这件事,希尔伯特动起了为整个数学寻求一个坚实基础的念头,但我们可以知道,在经过多年在不同数学领域富有成果的涉猎后,希尔伯特将目光投向了整个数学。对平面几何学的严格公理化可能是他在这方面的第一个尝试,但他的思考绝不仅限于几何。他的目标是将整个数学体系严格公理化,然后用元数学&&证明数学的数学&&来证明整个数学体系是坚实的。为了这个目标,他制定了著名的希尔伯特计划。首先,将所有数学形式化,让每一个数学陈述都能用符号表达出来,让每一个数学家都能用定义好的规则来处理这些已经变成符号的陈述。这使数学家可以摆脱自然语言的模糊性,取而代之的是毫无含糊之处的符号语言。比如说,我们如果想说&存在一个集合是空的&,我们就必须解释什么是存在,什么是空,等等。但如果用符号表达这句话的话,就成了:,这就毫无含糊之处了。然后,证明数学是完整的,也就是说所有真的陈述都能被证明,这被称为数学的完备性;证明数学是一致的,也就是说不会推出自相矛盾的陈述,这被称为数学的一致性。完备性保证了我们能证明所有的真理,只要是真的就可以证明;一致性确保我们在不违背逻辑的前提下获得的结果是有意义的,不会出现一个陈述,它既是真的又是假的。最后,找到一个算法,可以机械化地判定数学陈述的对错,这被称为数学的可判定性。如果这个计划完成了,那意味着什么?首先,一致性是很重要的,因为我们不能接受比如说&哥德巴赫猜想既对又不对&这样的结论,一致性就保证了自相矛盾的情况不会出现。在保证数学的一致性这个前提下,我们又有数学的完备性,也就是说只要是真的都可以证明。这其实就是说,对于任意一个数学猜想,不管它有多难,只要假以时日,通过一代又一代人的努力,总是可以知道这个猜想对不对,并且证明或否定它。换句话说,我们知道,在数学中,通过逻辑,我们必定能知道我们想要知道的东西,这只是个时间问题。我们必须知道,我们必将知道。这是个雄心勃勃的计划,但希尔伯特并不认为这是不可能的。他提出,先在基础的数学系统进行这样的形式化,然后再将其推广到更广阔的数学系统中,最后实现整个计划。于是,整个计划便归结于在算术系统中进行这样的形式化,并且在它的内部证明它的完备性、一致性和可判定性。算术系统可以说是非常基础的,我们做算术,对自然数做加法、乘法和数学归纳法,就都用到了这个系统。但我们平时只是凭直觉来理解这个系统,而数学家追求的是用逻辑的方法来定义它,这样他们才会觉得安心。这似乎不太困难。算术系统并不是一个很复杂的系统,它早在1889年就被皮亚诺归结成一个有5条公理的系统,其中只有最后一条数学归纳法公理比较复杂。我们可以想象,希尔伯特本人也认为这是可以解决的问题。他将算术公理系统的相容性列入了他那23道希尔伯特问题中,位列第二,希望20世纪的数学家能给出一个证明。这份1900年写出的问题表,后来证明是相当具有前瞻性的,即使情况并不一如希尔伯特预计的那样。1931年,仅仅在他退休一年之后,希尔伯特第二问题即告解决,尽管解决的方式是希尔伯特所没有预料到的。逻辑弄人。
哥德尔不完备性定理&
哥德尔&&可以说,哥德尔粉碎了希尔伯特计划。在希尔伯特退休之时,哥德尔才刚刚登上数学舞台。在某种意义上,正是希尔伯特间接将哥德尔引领到数理逻辑这个领域的。在希尔伯特和他的学生阿克曼合著的《数理逻辑原理》中,他们提到了这样一个问题:在形式系统中,真的命题是否都是可证明的?这正是哥德尔博士论文的主题。在这篇论文中,哥德尔证明了一阶谓词演算是完备的,这就是不太著名的哥德尔完备性定理。一阶谓词演算是一种能力比较弱的数学系统,如果只是应用它的话,我们连自然数都定义不了,就更别说做算术了。自然,哥德尔的目光是不会仅仅局限于此的。在完成博士论文之后,哥德尔便着手探索更一般的数学系统。一年后,也就是1931年,他对算术系统的探索即告胜利。这个胜利,也就是希尔伯特计划的失败。他的结论,就是哥德尔不完备性定理,一共有两个。第一,他证明了,对于任意的数学系统,如果其中包含了算术系统的话,那么这个系统不可能同时是完备的和一致的。也就是说,要是我们能在一个数学系统中做算术的话,那么要么这个系统是自相矛盾的,要么有那么一些结论,它们是真的,我们却无法证明。第二,他证明了,对于任意的数学系统,如果其中包含了算术系统的话,那么我们不能在这个系统内部证明它的一致性。这就是希尔伯特第二问题答案的一部分。其实,这里&任意的数学系统&之中的&任意&并不是完全的任意。这些系统必须是可以显式地规定出来的,用数学的术语来说就是可有效生成的。但对于我们熟悉的像欧几里德公理这样的形式系统来说,这的确是相当任意了。哥德尔证明这两个定理的武器,就是希尔伯特在他的计划中使用的武器:形式化。在哥德尔的证明中,他先将所有的数学陈述以及它们的证明用符号形式地表达出来,然后利用哥德尔自己发明的一个重要技巧&&哥德尔数化&&将所有这些陈述和证明变为一个个的自然数。那么,借助数学归纳公理,我们可以递归地建立针对所有自然数的陈述,而一个这样的陈述同时又是一个自然数,所以它描述了自己。换句话说,这个陈述陈述了它自己。
自指&这种自指的情况,在数学上很有用,也非常凶险。它是不少悖论的源泉。第一个例子当然是说谎者悖论:&这句话是错的&。第二个就是罗素悖论,它引起了第三次数学危机,这也可以说是希尔伯特计划的一个动因。我们来看看它的一个通俗版本,叫理发师悖论。在一个小镇内,只有一名理发师,他在理发店门外公布了这样一个原则:只为不会自己理发的人理发。那么,他的头发谁理呢?要是他自己理的话,他就会自己理发了,那么根据他的原则,他不应该为自己理发;要是他不给自己理发的话,根据他的原则,他倒是应该给自己理发。逻辑似乎在这里失效了。这种逻辑上的混乱局面,背后就是罗素悖论:定义一个集合,它包含所有不包含自身的集合,它是否包含自身?从上面的分析,我们可以看到,一切问题在于&包含自身&这种自指的描述。后来,在策梅洛和弗兰克等逻辑学家的努力下,通过在集合论中添加正则公理等限制,才将这种危险的自指从集合论中排除。当然,这是后话了。这种自指的性质,尽管危险,但在哥德尔的妙手中,它就变成了证明的利器。他构造了一个命题,这个命题说的正是它自身的不可证明性。如果用类似说谎者悖论的语言来表达的话,就是:&不存在对这个命题的形式证明。&如果它是真的,那么它是不可证明的,说明系统是不完备的,因为存在一个真的而又不可证明的命题。如果它是假的,那么存在一个它的证明,这样它应该是真的,说明系统是自相矛盾的、不一致的。这就是哥德尔的第一个不完备性定理:如果有自然数的话,完备性和一致性不可得兼,这个系统要么自相矛盾,要么存在不能证明也不能否证的命题。然后,我们来仅仅考虑一致性的问题。假定系统是一致的,也就是说不会自相矛盾的,那么我们刚才提到的命题就是不可证明的。如果我们能在系统内部证明系统的一致性的话,我们就相当于在系统内部证明了那个命题,这与不可证明性是矛盾的。也就是说,我们做了错误的假设:能在系统内部证明系统本身的一致性。由此,哥德尔证明了他的第二个不完备性定理。他的这两个不完备性定理,对于希尔伯特计划是个沉重的打击:计划的第二步被证明是无法实行的。如果我们假定数学不会自相矛盾的话,我们就必须承认数学是不完备的,也就是说有这么一些数学命题是不可判定的:我们既不能证明它们为真,也不能证明它们为假。但很多数学家仍然认为,这并不威胁数学的正常发展,因为他们觉得有意义的数学命题极不可能是这样的。换句话说,数学家们仍然相当乐观。同样是哥德尔,这次连同科恩,给这些数学家敲响了警钟:数学家研究的&有意义&的数学命题也可能是不可判定的。他们解决的又是一个希尔伯特问题:由康托尔提出的连续统假设。这个问题位于列表之首,是一个纯粹的集合论问题。哥德尔证明了连续统假设和策梅洛-弗兰克集合论是相容的,也就是说二者之间没有矛盾;科恩证明了从策梅洛-弗兰克集合论出发不能证明连续统假设。这两个结果综合起来,其实就说明了连续统假设在策梅洛-弗兰克集合论中是不可判定的。要是你知道策梅洛-弗兰克集合论正是解决第三次数学危机的武器和现代数学的逻辑基础,你就会明白这到底意味着什么。哥德尔的魔鬼第一次露出了真面目。希尔伯特第一问题竟然就是不完备性定理中预言的那类不知真假的怪异命题的一个实例,这实在令人泄气。既然希尔伯特计划的第二步都被证明是不可行的,那么第三步也就没有必要继续下去了。第三步是寻求一个能机械证明所有数学定理的程序,著名的停机定理也否定了这种可能性。停机定理的证明相对比较简单,也是利用自指的技巧,证明这样程序是不可能存在的。至此,希尔伯特那宏伟的计划宣告全盘失败。有些事情,我们确实不知道,即使对于数字,这是逻辑说的。
余波既然对全部数学真理进行形式化是不可能的,数学家们只好退而求其次,尝试形式化他们熟悉的数学。法国的布尔巴基学派在这方面似乎走得最远。这是在巴黎高师的一帮数学家,继承了希尔伯特的一些理念,目标是将所有已知的数学在集合论的坚实基础上重建。他们出版了九本这方面的专著,每一部都以严密的公理化方法吸引着后来者的目光。他们的每本著作都会经过多次的修订,据说明年他们又会出版一本新修订的著作。
布尔巴基办公室门牌,fwjmath拍摄&令希尔伯特在天国的灵魂有所安慰的是,算术系统的一致性被证明了。这个证明用到了不在算术系统内的超限归纳法,它可以被视为一种加强版的数学归纳法,是用在无穷序数上的。这其实就假定了策梅洛-弗兰克集合论的一致性。当初康托尔建立无穷集合论时,曾遭到不少人的攻击,这时希尔伯特挺身而出,为康托尔和他的无穷集合论疾呼:&没人能将我们从康托尔创造的乐园中赶出来。&如今,康托尔的无穷集合论衍生出来的超限归纳法反过来又部分实现了希尔伯特的梦,这是冥冥之中的安排,还是希尔伯特的敏锐眼光所致?恐怕没人能说得清楚。但哥德尔的魔鬼仍在肆虐。越来越多的数学问题被证明是不可判定的,这些不可判定的问题也越来越初等。乍看起来并非不可捉摸,但到头来却不可判定。比如说,如果我们用可数种颜色对每一个实数染色,是否必定存在4个互不相等的数a,b,c,d,使得它们的颜色都相同,而又满足a+b=c+d?这看起来怎么也不像没有一个确切结论的问题,但有人证明了它实际上和连续统假设的否定是等价的,也就是说,在策梅洛-弗兰克集合论内,它也是不可判定的。这就给数学家们心头压上了一块大石:谁也不知道自己辛辛苦苦做了十几年的题目,会不会突然有一天被证明是在现有数学体系中不可判定的。尽管这样,哥德尔的不完备性定理仍然带给我们很多教益。至少我们知道了,有些东西我们不可能知道。在哥德尔的这个划时代的证明之后,数学家对数学的基本工具&&证明&&有了新的认识。专门研究数学证明的证明论,在他的启发下蓬勃发展。但是,哥德尔教给我们最重要的一点是:数学,如同人生,如同爱情,有些东西是真的,你却永远无法证明转自&数学,如同人生,如同爱情,有些东西是真的,你却永远无法证明
数学,如同人生,如同爱情,有些东西是真的,你却永远无法证明。&&转自&
一、正态分布学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式
也非常具有数学的美感。其标准化后的概率密度函数
更加的简洁漂亮,两个最重要的数学常量\&pi, e都出现在了公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的...&
一、正态分布学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式
&也非常具有数学的美感。其标准化后的概率密度函数
&更加的简洁漂亮,两个最重要的数学常量&\pi, e都出现在了公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。
正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。
正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现误差服从这个奇妙的分布的。直到我读研究生的时候我的导师给我介绍了陈希儒的《数理统计简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。正态分布的这段历史是很精彩的,我们通过讲几个故事来揭开她的神秘面纱。
二、邂逅,正态曲线的首次发现
第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理(cos\theta + i sin\theta)^n = cos(n\theta) + i sin(n\theta)。古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努力都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B 两人在赌场里赌博,A,B各自的获胜概率是p, q=1-p,赌 n 局,若 A 赢的局数&X & np, 则 A 付给赌场X-np元,否则B 付给赌场&np-X元。 问赌场挣钱的期望值是多少。问题并不复杂, 本质上是一个二项分布,最后求出的理论结果是
&其中&b(n,p,i) = \binom{n}{i}p^iq^{n-i}是常见的二项概率。 但是对具体的&n, 要把这个理论结果实际计算出数值结果可不容易, 因为其中的二项公式中有组合数.这就驱动 De Moivre寻找近似计算的方法计算。与此相关联的另一个问题,是遵从二项分布的随机变量&X \sim B(n,p), 求X 落在二项分布中心点一定范围的概率&P_d = P(|X - np| \le d)对于 p=1/2 的情形, 棣莫弗 做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是 棣莫弗 和 Stirling 处在同一个时代, 而且二人之间有联系,Stirling 公式是在数学分析中必学的一个重要公式
1733 年,棣莫弗很快利用 Stirling 公式计算取得了重要的进展。考虑 n 是偶数的情形,令二项概率
&通过 Stirling 公式做一些简单的计算容易得到,
使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到
看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。以上只是讨论了&p=1/2的情形, 棣莫弗也对&p \ne 1/2做了一些计算,后来拉普拉斯对&p \ne 1/2的情况做了更多的分析,并把二项分布的正态近似推广到了任意&p的情况。 这是第一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的情形被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。
[De Moivre-Laplace 中心极限定理]&设随机变量&X_n (n=1,2,\cdots)服从参数为&p的二项分布,则对任意的&x, 恒有
我在大学学习数理统计的时候,学习的过程都是先学习了正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是当时很困惑数学家们是如何凭空就找到这个分布的。然而读了陈希孺的《数理统计学简史》之后,才发现正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净,我们难以在数学课本上看到数学家对数学问题是如何研究推进的。DNA 双螺旋结构的发现者之一 Waston 在他的名著《DNA 双螺旋》序言中说:&科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。&棣莫弗 出他的发现后40年(大约是 1770), 拉普拉斯建立了中心极限定理较一般的形式,中心极限定理后续又被其它数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工作的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要原因。 那Gauss 做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。下回分解:-)&
三、最小二乘法,数据分析的瑞士军刀第二个故事的主角是欧拉(Euler), 拉普拉斯(Lapalace),勒让德Legendre) 和高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下:
土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度,
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。这些天文学和测地学的问题,无不涉及到数据的多次测量,数据的计算与分析;十七、十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法,虽然缺乏理论上的论证,也不断的受到一些人的质疑。取平均作为一种异常直观的方式,已经被使用了千百年,在多年积累的数据的处理经验中也得到一定的验证,被认为是一种良好的数据处理方法。以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些天文学的问题大体都可以转换为描述如下的问题:有我们想估计的量&\beta_0,\cdots,\beta_p, 另有若干个可以测量的量&x_1,\cdots,x_p, y, 这些量之间有线性关系
如何通过多组观测数据求解出参数\beta_0,\cdots,\beta_p呢? 欧拉和拉普拉斯采用的都是求解线性方程组的方法。\begin{eqnarray}\left\{\begin{array}{lll}y_1 = \beta_0 + \beta_1x_{11} + \cdots + \beta_px_{p1} \\y_2 = \beta_0 + \beta_1x_{12} + \cdots + \beta_px_{p2} \\\vdots \\y_n = \beta_0 + \beta_1x_{1n} + \cdots + \beta_px_{pn}\end{array}\right.\end{eqnarray}但是面临的一个问题是,有&n组观测数据,p + 1个变量, 如果&n & p + 1, 则得到的线性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为&p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组划归为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于 adhoc, 无法形成统一处理这一类问题的一个通用解决框架。以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为累积误差 =&\sum(观测值 - 理论值&)^2我们求解出导致累积误差最小的参数即可。\begin{eqnarray}\label{least-square-error} \begin{array}{lll}\hat{\beta}& = & \displaystyle argmin_{\beta} \sum_{i=1}^n e_i^2 \\& = & \displaystyleargmin_{\beta} \sum_{i=1}^n [y_i - (\beta_0 + \beta_1x_{1i} + \cdots + \beta_px_{pi})]^2\end{array} \end{eqnarray}勒让德在论文中对最小二乘法的优良性做了几点说明:
&最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位
&计算中只要求偏导后求解线性方程组,计算过程明确便捷
最小二乘可以导出算术平均值作为估计值对于最后一点,从统计学的角度来看是很重要的一个性质。推理如下:假设真值为&\theta,&x_1, \cdots, x_n为n次测量值, 每次测量的误差为&e_i = x_i - \theta&,按最小二乘法,误差累积为
求解\theta使得&L(\theta)达到最小,正好是算术平均&\bar{x} = \frac{\sum_{i=1}^n x_i}{n}&。由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不单独自的给出了造刀的方法,而且把最小二乘这把利刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢?看下一个故事。&&
四、众里寻她千百度,误差分布曲线的确立第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是猜测上帝的造物的旨意,寻找随机误差分布的规律。天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最发达的领域, 到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。 我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。 平均有如此的魅力,道理何在,之前没有人做过理论上的证明。 算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布? 算术平均的优良性和误差的分布有怎样的密切联系?伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:
&误差是对称分布的;
&大的误差出现频率低,小的误差出现频率高。用数学的语言描述,也就是说误差分布函数&f(x)关于0对称分布,概率密度随&|x|增加而减小, 这两个定性的描述都很符合常识。许多天文学家和数学家开始了寻找误差分布曲线的尝试。 Thomas Simpson () 先走出了有意义的一步。 设真值为&\theta,&x_1, \cdots, x_n为n次测量值, 每次测量的误差为&e_i = x_i - \theta&, 若用算术平均&\bar{x} = \frac{\sum_{i=1}^n x_i}{n}&去估计\theta, 其误差为&\bar{e} = \frac{\sum_{i=1}^n e_i}{n}&。 Simpson 证明了, 对于如下的一个概率分布,
【Simpson 的误差态分布曲线】有
<img class="tex" src="http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_362f46a76ebfb3f553aa2.gif" alt="P(|\bar{e}| < x) \ge P(|e_1|也就是说,|\bar{e}|相比于|e_1|取小值的机会更大。 Simpson 的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。从
年, 拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数f(x)满足如下性质
由此最终求得的分布函数为
这个函数现在被称为拉普拉斯分布。
【Laplace 的误差态分布曲线】以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。 拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似,假设先验分布是均匀的, 计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数 做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》, 不过以我的数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数, 拉普拉斯最终还是没能搞定误差分布的问题。现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是 "He is like the fox, who effaces his tracks in the sand with his tail." 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中上既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见, 高斯是数学家中少有的顶&天&立&地&的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以及其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过 的光度8等的星在移动, 这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。 而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星, 这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了, 这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的 行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了他在夜空中出现的时间和位置。 日夜,德国天文爱好者奥伯斯(Heinrich Olbers),在高斯预言的时间里,用望远镜对准了这片天空。 果然不出所料,谷神星出现了!高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟, 而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后, 才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。 那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。设真值为&\theta,&x_1, \cdots, x_n为n次独立测量值, 每次测量的误差为&e_i = x_i - \theta&, 假设误差e_i的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为\begin{equation} L(\theta) = L(\x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}但是高斯不采用贝叶斯的推理方式,而是直接取L(\theta)达到最大值的&\hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作为\theta的估计值,即
现在我们把L(\theta)称为样本的似然函数,而得到的估计值&\hat{\theta}称为极大似然估计。 高斯首次给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。 高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均 是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:
误差分布导出的极大似然估计 = 算术平均值然后高斯去找误差密度函数&f以迎合这一点。即寻找这样的概率分布函数&f, 使 得极大似然估计正好是算术平均&\hat{\theta} = \bar{x}。而高斯应用数学技巧求解这个函数f, 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是
瞧,正态分布的密度函数&N(0, \sigma^2)被高斯他老人家给解出来了!
【正态误差态分布律】进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。 对于每个误差&e_i,有&e_i \sim N(0, \sigma^2), 则(e_1, \cdots, e_n)的联合概率分布为
要使得这个概率最大,必须使得\sum_{i=1}^n e_i^2&取最小值,这正好就是最小二乘法的要求。高斯所拓展的最小二乘法成为了十九世纪统计学的最重要成就,它在十九世纪统计学的重要性就相当于十八世紀的微积分之于数学。 而勒让德和最小二乘的的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明的争端。 相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹, 高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题, 由此我们可以对误差的大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名 高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。 高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。 而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。17-18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发进行推导, 高斯设定的准则&最大似然估计应该导出优良的算术平均&,并导出了误差服从正态分布,推导的形式上非常简洁优美。 但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个直觉经验,缺乏严格的理论支持。 高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布; 反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。 这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。 拉普拉斯看到,正态分布既可以从作为抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律, 这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。 他指出如果误差可以看成许多量的叠加,则根据他的中心极限定理,则随机误差理所应当是高斯分布。 而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点, 高斯的循环论证的圈子就可以打破。 估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅 了这么久的误差分布曲线就在自己的眼皮底下,自己却长年来视而不见,被高斯给占了先机。至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,开始并在整个19世纪不断的开疆扩土, 直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它, 高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢他的冠名权。 因为 Laplace 是法国人,所以当时在法国被称为拉普拉斯分布; 而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯-高斯分布。后来法国的大数学家庞加莱(Henri Poincar&)建议改用正态分布这一中立名称,而随后统计学家卡尔.皮尔森使得这个名称被广泛接受:
Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".}
&-Karl Pearson (1920)&不过因为高斯在数学家中的名气是在太大, 正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布高斯分布, 两者并用。正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中, 其重用性远没有被自然科学和社会科学领域中的人们所认识,那正态分布是如何从测量误差分析的小溪, 冲向自然科学和社会科学的汪洋大海的呢?&&
(五)曲径通幽处,禅房花木深,正态分布的各种推导在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:&数学是上帝的语言&。所以要想更加深入的理解正态分布的美,唯有通过上帝的语言。造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,17-18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发作为我们探求的起点,而后来的数学家和物理学家们研究发现,屡次从一些给定的简单的准则出发,我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:&我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序&。当代两位伟大的概率学家 Levy 和 Kac 都曾经说过, 正态分布是他们切入概率论的初恋情人,具有无穷的魅力。自从 1919 年以后,Levy 研究的主题曲就是正态分布,他一而再再而三的以他为出发点,并且屡次坚决的又回到她......如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径把我们第一次领到了正态分布的家门口,这条路叫作中心极限定理,而这条路上风景秀丽,许多概率学家都为之倾倒,这条路在20世纪被概率学家们越拓越宽。而后数学家和物理学家们发现:条条曲径通正态。著名的物理学家 E.T.Jaynes 在他的名著《Probability Theory, the Logic of Science》(中文书名翻译为《概率论沉思录》)中,描绘了四条通往正态分布的小径。曲径通幽处,禅房花木深,让我们一起来欣赏一下四条小径上的风景吧。
1. 高斯的推导(1809)第一条小径是高斯找到的,高斯以如下准则作为小径的出发点
误差分布导出的极大似然估计 = 算术平均值设真值为&\theta,&x_1, \cdots, x_n为n次独立测量值, 每次测量的误差为&e_i = x_i - \theta&,假设误差e_i的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为\begin{equation} L(\theta) = L(\x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}为求极大似然估计,令
整理后可以得到
令&g(x) = \frac{f'(x)}{f(x)},
由于高斯假设极大似然估计的解就是算术平均&\bar{x},把解带入上式,可以得到\begin{equation} \label{gauss-derivation}\sum_{i=1}^n g(x_i-\bar{x}) = 0 & &&(*) \end{equation}(*) 式中取&n=2, 有
由于此时有&x_1-\bar{x} = -(x_2-\bar{x}), 并且&x_1, x_2是任意的,有此得到
(*) 式中再取&n=m+1, 并且要求&x_1=\cdots=x_m=-x, x_{m+1} = mx, 则有&\bar{x} = 0, 并且
而满足上式的唯一的连续函数就是&g(x)=cx, 从而进一步可以求解出
由于f(x)是概率分布函数,把f(x)正规化一下就得到正态分布函数。
2. Herschel(1850)和 Maxwell(1860) 的推导第二条小径是天文学家 Hershcel 和物理学家麦克斯韦(Maxwell) 发现的。1850年,天文学家 John Herschel 在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布&f(x,y),Herschel 设置了两个准则:
&x 轴和 y 轴的误差是相互独立的,即误差的概率在正交的方向上相互独立
误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系这两个准则对于 Herschel 考虑的实际测量问题看起来都很合理。由准则1,可以得到&f(x,y)应该具有如下形式
把这个函数转换为极坐标,在极坐标下的概率密度函数设为&g(r,\theta), 有
由准则2,&g(r,\theta)具有旋转对称性,也就是应该和&\theta无关, 所以&g(r,\theta)=g(r),综合以上,我们可以得到
取&y=0, 得到&g(x) = f(x)f(0), 所以上式变为
令&\log[\frac{f(x)}{f(0)}] = h(x)&, 则有
从这个函数方程中容易求解出&h(x) = ax^2, 从而可以得到&f(x)的一般形式如下
而&f(x)就是正态分布&N(0, 1/\sqrt{2\alpha)}, 而&f(x,y)就是标准二维正态分布函数。
1860 年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布\rho(v_x,v_y,v_z) \propto exp\{-\alpha(v_x^2+v_y^2+v_z^2)\}&。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?\begin{eqnarray} \label{maxwell}\begin{array}{lll}F(v) & = & \displaystyle (\frac{m}{2\pi kT})^{3/2} e^{-\frac{mv^2}{2kT}} \\& = & \displaystyle (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_x^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_y^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_z^2}{2kT}} \end{array}\end{eqnarray}所以这个分布其实是三个正态分布的乘积,你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白&Herschel-Maxwell 推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。
3. Landon 的推导(1941)第三条道是一位电气工程师,Vernon D. Landon 给出的。1941 年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差&\sigma^2来刻画。因此他推理认为噪声电压的分布函数形式是&p(x;\sigma^2)。现在假设有一个相对于&\sigma而言很微小的误差扰动&e,e的分布函数是&q(e), 那么新的噪声电压是&x' = x + e。Landon 提出了如下的准则
&随机噪声具有稳定的分布模式
累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)用数学的语言描述: 如果&则有&现在我们来推导满足以上两个准则的函数p(x;\sigma^2)应该长成啥样。按照两个随机变量和的分布的计算方式,&x'的分布函数将是&x的分布函数和&e的分布函数的卷积,即有
把&p(x'-e; \sigma^2)在x'处做泰勒级数展开(为了方便,展开后把自变量由&x'替换为&x), 上式可以展开为
记&p=p(x; \sigma^2),则有
对于微小的随机扰动&e, 我们认为他取正值或者负值是对称的,所以\bar{e} = 0&。所以有\begin{equation} \label{landon-x}f(x) = p + \frac{1}{2} \frac{\partial^2 p}{\partial^2 x}\bar{e^2} + o(\bar{e^2})\end{equation}对于新的噪声电压是&x' = x + e, 方差由\sigma^2增加为&\sigma^2 + var(e) = \sigma^2 + \bar{e^2},所以按照 Landon 的分布函数模式不变的假设, 新的噪声电压的分布函数应该为&f(x) = p(x; \sigma^2 + \bar{e^2})。把p(x; \sigma^2 + \bar{e^2})在&\sigma^2处做泰勒级数展开,得到\begin{equation} \label{landon-sigma}\displaystyle&f(x) = p + \frac{\partial p}{\partial \sigma^2}\bar{e^2} + o(\bar{e^2})\end{equation}比较 以上&f(x)的两个展开式,可以得到如下偏微分方程
而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到
又一次,我们推导出了正态分布!E.T. Jaynes对于这个推导的评价很高,认为Landon 的推导本质上给出了自然界的噪音形成的过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,Landon 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声&q(e)是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。
4. 最大熵和正态分布还有一条神妙的小径是基于最大熵原理的, 物理学家 E.T.Jaynes 在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是 E.T.Jaynes 本人。熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,希望我后续能有时间整理一下。这条道的风景是相当独特的,E.T.Jaynes 对这条道也是偏爱有加。对于一个概率分布&p(e), 我们定义他的熵为
如果给定一个分布函数&f(x)的均值&\mu和方差\sigma^2(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布&p(e|\mu, \sigma^2)就是正态分布&N(\mu, \sigma^2)。(Todo: 插入证明)E.T.Jaynes 显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关,而正态分布的形状是由其方差决定的。好的,风景欣赏暂时告一段落。所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
Physicists believe that the Gaussian law has been proved&in mathematics while mathematicians think that&it was experimentally established in physics.
& Henri Poincar&
最美的数学公式之一?&&转自&
最早被提名诺贝尔奖的日本人,是北里柴三郎和野口英世,但终未获奖。然而,从事与北里相同研究的埃米尔&阿道夫&冯&贝林却获奖了(1901年生理学或医学奖)。缘此,&黄种人被歧视&成为北里遗珠的合理怀疑。首次获奖的日本人,出现于第二次世界大战之后。汤川秀树的获奖,大大鼓舞了(遭逢战败的)日本国民的自信心。此外,在一批出身大学、研究机构的获奖者当中,民间企业技术员田...&
最早被提名诺贝尔奖的日本人,是和,但终未获奖。然而,从事与北里相同研究的却获奖了()。缘此,&被&成为北里遗珠的合理怀疑。首次获奖的日本人,出现于之后。的获奖,大大鼓舞了(遭逢战败的)日本国民的自信心。此外,在一批出身、机构的获奖者当中,民间技术员在的获奖,也引起了世界性的话题。此外,基于&所得税法&第9条13号,诺贝尔奖金无需课税。
?大日本帝国V5雄壮!?&&转自&
(惊恐)(mb)&&转自&
(mb)&&转自&
我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。这是创造性设计美学和严谨的工程科学的卓越产物。用极美丽的形式呈现可能非常沉闷繁冗的数据,其表现和创作...&
我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。这是创造性设计美学和严谨的工程科学的卓越产物。用极美丽的形式呈现可能非常沉闷繁冗的数据,其表现和创作过程完全可以称之为艺术。所以我翻译了来自SM上的3篇数据可视化和信息图形的文章,主要是鉴赏并提供一些参考资料。我尽量查找了每张数据图表背后的背景,添加了标注和说明,希望那个帮助读者更深入地理解这些图表所呈现的含义,而不仅仅是停留于对&好看&的赞叹上。这些图片不会说话,但它们比文字和语言都更为有力。
数据可视化 Data Visualization&和信息可视化 Infographics&是两个相近的专业领域名词。狭义上的数字可视化指的是讲数据用统计图表方式呈现,而信息图形(信息可视化)则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。而广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。数据可视化起源于1960s计算机图形学,人们使用计算机创建图形图表,可视化提取出来的数据,将数据的各种属性和变量呈现出来。随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,发展了数据采集设备和数据保存设备。同理也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集。随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果、用户交互使用等,数据可视化像所有新兴概念一样边界不断扩大。而我们熟悉的那些饼图、直方图、散点图、柱状图等,是最原始的统计图表,它们是数据可视化的最基础和常见应用。作为一种统计学工具,用于创建一条快速认识数据集的捷径,并成为一种令人信服的沟通手段。传达存在于数据中的基本信息。所以我们可以在大量PPT、报表、方案以及新闻见到统计图形。但最原始统计图表只能呈现基本的信息,发现数据之中的结构,可视化定量的数据结果。面对复杂或大规模异型数据集,比如商业分析、财务报表、人口状况分布、媒体效果反馈、用户行为数据等,数据可视化面临处理的状况会复杂得多。可能要经历包括数据采集、 数据分析、数据治理、数据管理、数据挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,是立体的、二维的、动态的、实时的还是允许交互的。然后由工程师创建对应的可视化算法及技术实现手段。包括建模方法、处理大规模数据的体系架构、交互技术、放大缩小方法等。动画工程师考虑表面材质、动画渲染方法等,交互设计师也会介入进行用户交互行为模式的设计。所以一个数据可视化作品或项目的创建,需要多领域专业人士的协同工作才能取得成功。人类能够操纵和解释如此来源多样、错综复杂跨领域的信息,其本身就是一门艺术。数据可视化在发展过程中,科学和工程领域的应用衍生出了分支:科学可视化&&&利用计算机图形学来创建视觉图像,帮助人们理解科学技术概念或结果的那些错综复杂而又往往规模庞大的数字表现形式&。在计算机诞生之前,科学的可视化行为就存在。如等高线图、磁力线图、天像图等等。利用计算机的强大运算能力,人类可以使用三维或四维的方式表现液体流型、分子动力学的复杂科学模型。比如利用经验数据,科学可视化在天体物理学(模拟宇宙爆炸等)、地理学(模拟温室效应)、气象学(龙卷风或大气平流)模拟人类肉眼无法观察或记录的自然现象;利用医学数据(核磁共振或CT)研究和诊断人体;或者在建筑领域、城市规划领域或高端工业产品的研发过程中发挥重大重用。比如汽车的研发过程中,需要输入大量结构和材料数据,模拟汽车在受到撞击时如何变形。在城市道路规划的设计过程中,需要模拟交通流量。虽然科学可视化的表现形式对于普通人比较陌生,像粒子系统、散点图、热力图等图表不接受专业训练很难看懂。但实际上科学可视化的成果已经渗透到我们生活的每个角落。90年代初期,信息可视化领域进入人们的视野。用于解决对异质性数据中&抽象&的部分的分析。帮助人们理解和观察抽象概念,放大了人类的认知能力。科学可视化和信息可视化的差别比较微妙,因为科学可视化的大部分处理对象都是抽象的概念。在手段和技术上也有大量共同之处。所以边界比较模糊。在国外,许多大型企业、科研机构都会有相关部门进行数据可视化研究,如数字图书馆。媒体和政府机构也会对自己掌握的数据进行可视化分析,如犯罪地图。在互联网上,那些掌握了大量用户活动信息、用户关系网或语料库的网站,比如digg,friendfeed,flickr或大型电子商务网站等,都有实验性的可视化项目。可惜在中国在这方面的商用或实验项目还是比较空白的。数据可视化的开发和大部分项目开发一样,也是根据需求来根据数据维度或属性进行筛选,根据目的和用户群选用表现方式。同一份数据可以可视化成多种看起来截然不同的形式。
有的可视化目标是为了观测、跟踪数据,所以就要强调实时性、变化、运算能力,可能就会生成一份不停变化、可读性强的图表。
有的为了分析数据,所以要强调数据的呈现度、可能会生成一份可以检索、交互式的图表
有的为了发现数据之间的潜在关联,可能会生成分布式的多维的图表。
有的为了帮助普通用户或商业用户快速理解数据的含义或变化,会利用漂亮的颜色、动画创建生动、明了,具有吸引力的图表。
还有的图表可以被用于教育、宣传或政治,被制作成海报、课件,出现在街头、广告手持、杂志和集会上。这类图表拥有强大的说服力,使用强烈的对比、置换等手段,可以创造出极具冲击力自指人心的图像。在国外许多媒体会根据新闻主题或数据,雇用设计师来创建可视化图表对新闻主题进行辅助。说了那么多,大家都可以感受到数据可视化所应用价值,其多样性和表现力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。我通过翻译这系列的文章,为数据可视化的创造力所折服,也为其所能诞生和发展的背景环境所感叹。希望国内能有更多的跨领域人才的教育背景,能有发展实验性项目的环境,设计师们能拥有更多的创造力和专业素养,永远保持好奇心和敏感。数据可视化相关的引擎/程序/工具(来自wiki百科)
Instantatlas
Ferret Data Visualization and Analysis
IBM OpenDX
IDL (programming language)
Style Intelligence
OpenLink AJAX Toolkit
Smile (software)
Prefuse信息可视化的相关方法
Cladogram (phylogeny) 分支图
Color alphabet 色彩字母表
Dendrogram (classification) 树状图
Information visualization reference model 信息可视化
Graph drawing 图形绘制
Halo (visualization technique) 晕轮法
Heatmap 热力型地图
HyperbolicTree 双曲树
Multidimensional scaling 多维尺度分析
Problem Solving Environment 问题求解环境
Treemapping 矩形式树状图&(一)现代的数据可视化方法可视化&数据的表现形式可以是美丽、优雅和描述性的。有多种传统的数据表现形式 在每个项目及可能的场合被频繁地使用:如表格、饼图、柱状图等。但为了更有效地向你的读者传达信息,有时你需要绝不仅仅是一张饼图。有更好的、深刻的、富于创造性以及富有趣味的方法来可视化数据。它们中的许多将在未来数年内变得应用普遍。我们期待的是什么?有哪些些革新性的想法已经在成熟使用?还有哪些创意地表现数据的方式是我们从未想过的?让我们看看最有趣和最现代的数据可视化方法,以及一些相关文章、资源和工具。1. Mindmaps 概念图Trendmap 2007 (趋势地图 2007)Informationarchitects.jp 依据分类、相似性、成功度、知名度和前景,为当年互联网上最成功的200个网站制作了一张趋势地图。这些网站以前显然从未以这种方式建立过联系。相当详尽。译注:(这是一个著名的数据可视化创意,作者通过改造东京地铁地图,将站点设计成地铁站,每种网站应用类型是一条地铁线。比如粉红色代表分享类网站,紫红色代表工具类,大红色代表技术网站,柠檬黄色代表知识类网站&&当然如果你对东京的城市地理状况有所了解,看这张地图时会露出更多会心的微笑。设计师在图中安排了大量暗喻和巧合,比如google从涩谷移到了新宿的位置,而Youtube已经控制了涩谷地区。涩谷在通常理解中,代表年轻人出没的喧嚷的地方。而新宿代表黑社 会控制,很酷的地方。微软移到了池袋,雅虎移到了上野,维基百科在新桥(一个遍布头脑清醒上班族的地方)。日本的网站主要集中在金融路线附近,北部的站点线(山口线)上的项目多数比较&无聊&。等等)
2. Displaying News 新闻展示Newsmap(新闻地图)是google新闻聚合器上实时的新闻反馈的可视化呈现。数据块的大小对应了新闻受欢迎的程度。译注:(Newsmap反映的是google新闻聚合器实时更新的新闻。这种数据可视图基于treemap树状图的算法,适合表现大量信息的聚合。用颜色、颜色深度、标题字号、区块面积来展现归并后的信息。打破空间限制,帮助用户快速识别、分类和认知新闻信息、平面而直观地展现不断变化的信息片段。)
Voyage是一个rss阅读器。它在屏幕中心呈现最新更新的新闻。新闻可以缩放和退出,有一条基于时间轴的导航。译注:(Voyage根据当前时间点形成一条坐标轴,使用了三维效果来分层次展现当前的资讯和新闻点,将信息的时间要素呈现地非常生动。可通过rss地址控制订制信息来源。)
Digg BigSpy 将最受欢迎的文章放在顶部,字号越大代表支持者越多。译注:(digglab使用5种动态的数据可视化方式来表现信息的数据变化状态。Digg BigSpy是试验项目其中之一,最新被digg的新闻会向下滚动更新屏幕,digg数越高,标题字体越大。在版面中使用字号变化是传统媒体的表现手段,在这里和实时滚动的效果结合,很有冲击力。)
Digg Stack: 根据用户的digg数将文章排列成许多柱状条,digg数越高,柱型越高。译注:(Digg Stack同 样也是digg lab的实验性项目之一,将最新/最热/全部的100条digg文章排列成一行柱状图,水平线上的柱形高度代表digg数,水平线下的柱形高度代表评论 数。某篇文章digg数实时增加时,会从屏幕上方掉一个小方块下来,俄罗斯方块那样,溶进该新闻对应的柱形中。点击单个柱体可以分别查看每个时间区间内的 digg指数。这是一个非常有实时感和动感的视觉系统,极好地呈现了数据生成的实时性和聚合性。)
3. Displaying Data 数据展示Amaztype 图书搜索:根据从亚马逊上采集的数据,将图书的搜索结果根据你所提供的关键字的字母形状进行排列。可以点击单本书查看详细信息。
Flickrtime 也应用了相似的创意。这个工具利用Flickr API 将上传的图片根据当前时间排列成时钟数字的形状。
cTime Magazine(时代周刊)使用峰值形状的分布来强调地图上美国人口的稠密程度。
CrazyEgg 使用热图来让您研究您的访客的新闻,通常被点击更多,更受欢迎的区域,使用的更&温暖&的红色来高亮显示。译注:(CrazyEgg允许注册用户通过提交页面url,显示页面的热点图、获取每个元素的详情、查看原始数据的完整摘要信息。热图是用户行为分析的常见方法,这是一个著名的UE研究分析工具,给UE分析师提供观察用户行为,做出设计改进意见的数据基础。)
Hans Rosling TED Talk&(汉斯。罗斯林的TED演讲)瑞典著名教授Hans Rosling发表了一次传统期的演讲,解释了他提出的表现统计数据的新方法。他的趋势分析软件(刚刚被google收购)将复杂的全球趋势、十几年的流行数据转化为生动的动画。用网格上的多彩的泡泡代表亚洲的各个国家,展现全民医疗和财富的状况。用动态的钟型曲线表现国民收入分配的涨伏。在 Rosling的手里,全球趋势&&预期寿命、儿童死亡率、贫困率&&都变得清晰、直观和有趣。
三视图展示了地球的3个视点: 每个国家使用一个圆形代表,用圆圈的大小来代表军费开支额度,颜色的深度来代表占财政收入的比例,数据的演示非常紧凑和美观。
We Feel Fine(我们感觉很好)根据来自大量blog的统计结果,表现了人类的感情。译注:(这是一个骇人的项目。。从2005年8月,该项目组从大量页面上记录人类的感情。每个几分钟,系统就会搜索世界上新近发布的blog里包含&我觉得&或&我的感觉&这类短语的文章,记录包含这些短语的句子,并计算出里面c所包含的情绪,是悲伤、快乐、沮丧。这些信息和作者的社会结构、年龄、性别、地理位置以及当时当地的天气一起被保留下来。这个包含了数百万人感情的数据库,每天新增条记录,并提供了一系列有趣的接口用于查询和做数据挖掘。上图中的粒子系统是通过接口生成的可视化形式之一,抽取了1500条数据,每条数据是一个粒子,代表每个人的一种情绪。颜色对应情绪类型,比如幸福是亮黄色,悲伤是深蓝色,愤怒是红色,平静的感情是浅绿色。每个粒子的大小和表达情绪的语句的长度关联。)
Visualizing the Power Struggle in Wikipedia(维基百科上:可视化的争议)在热力地图上展示了最受欢迎的文章和被搜索最频繁的请求。译注:(疑原文有误。heatmap:热力型地图,做用户体验分析的同学可能比较熟悉,是一种使用冷暖色来映射二维变量,以便于做出聚类分析的图像,擅长用于体现频率、密度等。译注:但是下面这两张信息图形使用的是气泡型地图。反映的是wiki百科中争议性词条的修订次数。圆圈越大,修订次数越多。排名前几位的是:耶稣、阿道夫希特勒、2003年10月、任天堂革命、卡特里娜飓风&&)
Websites as graphs 图表网站。一个HTML DOM的可视化应用程序,根据url、表格、div标签、图片、表单和其他标签,将网站可视化为信息图形。译注:(这是一个分析页面源码的项目,使用树状分支图。其中蓝色代表&a&,红色代表&table&类标签,绿色代表&div&,紫色代表&img&黄色代表数据集群(下拉菜单)&&&&。于是每个网站页面的特性就以这样一种奇特的图像方式呈现出来了,从不同的结果图像中可以看出每个网站的不同性格,比如门户网站会生成非常庞大的树状图;某些blog,主要是链接,会形成放射型图像。苹果网站生成的图形就很简洁和规整。google.com就更不用说了,自由非常少的几簇。猜猜上面的图代表的是哪个网站?译注:yahoo.com。你可以发现它的图里面没什么绿色,但有许多红色。。因为他们没有使用div布局,这在07年也是很罕见的了。)
Interactive History Timeline (互动历史年表)将英国的历史划分为可交互的块状数据,同时呈现了历史时间的密度。译注:(这个系统里每个颜色块代表一段历史时期,白点代表该时期中的历史大事件。每个色块可放大点击,背景图上有该历史时期的标志性图像,可点击每个白点查看事件信息。是一个不错的历史演示系统,设计雅致,操作感很强,形式和内容很匹配。)
Winning Lotto Numbers (乐透大奖号码)该图展示了每年的中奖号码中每个数字的出现频率。当然这张图并不算是一个很清晰的案例。译注:(这张图描绘了乐透奖号码在88~06年里出现的频率。每种颜色代表一个球,编号从1~49。作者认为所有的数字集群倾向于形成一个循环,会有12.24%的重复率。。。)
Elastic Lists (滑动菜单)使用滑动菜单(也叫手风琴菜单)的原理来展现多维的数据结构。每组菜单代表一种数据维度,每个菜单项代表一种属性。你可以通过点选多个菜单项,浏览数据在不同维度不同属性上的组合。每个菜单项的高度和宽度和该属性内数据总量的相对比例有关联。&会更新一些关于数据可视化领域的实验性研究的文章,值得观赏,很有收藏价值。译注:(这个项目对于实现多维交叉的数据的平面化展现,是一个很好的范例。每个菜单实际上充当了一个过滤器,把他们想象成一组多选菜单就好了。但是形式比乏味的多选框要迷人多了。)
The JFK Assassination Timeline(肯尼迪遇刺事件的时间轴)使用ajax来可视化表现历史事件:约翰.肯尼迪的遇刺和时间轴上众多关联性条件。4. Displaying connections 显示关联Munterbund 使用信息图形展现了书中文字的相似性。&我们尝试创造一个能够按照某些定义好的规则来自动生成图像的系统。难度在于图像形式和文章的排版样式 这两者都是极富吸引力和信息量的。&译注:(这个项目根据词频等信息要素关联到扇形区域的直径和弧度,以及控制气泡的面积。有一套非常复杂的筛选算法。在可以看到项目组尝试过的多种可视化算法,以及一批十分魅力的成品)
Burst Labs(突发实验室)使用泡泡图来表现你提出的搜索请求之间的相似和关联性。虽然不那么前卫但还是令人振奋。
Universe DayLife 将某一话题关联的事件、人物和新闻事件像星座那样陈列在它的周围。译注:(这也算一个令人惊异的项目,创作团队模拟了一个数字化星空,每个关键字都是一个星座。通过输入关键字将你请求查询的星座定位在屏幕中心,旁边围绕着相关的关键字星座。内容包括图片、新闻、人物。每时每刻地球上都会发生各种事件,事件之间有关联,会互相作用。从这点上,使用宇宙星系来表现新闻事件的特效是很适合的。这个项目除了极富想象力,界面上也极具特色。创作了一种星座字体,所有的ICON和边框都用星座的形象来表现。)
Musiclens 会根据你当前的心情和音乐喜好制作图表,给你推荐音乐。
你可以在Figd&t Visualizer(Figd&t展台)上和网络上的其它用户进行互动。你的用户界面是由Flickr和LastFM上的TAG构成的,使用任何Tag都可以创建一个磁极,在照片或音乐中和你共用这个tag的用户会被吸引到磁极的周围。兼容Mac OS X,Windows和Linux平台。测试版本。译注:(通过照片和音乐喜好,创作者希望动态、可视化地表现人与人之间的关系:倾向性,趋势,聚合,吸引力。除了直线条的连接线,作者还在另一张图中使用了优美的曲线,整体造型非常迷人。)
What have I been listening to?:(究竟我在听什么?)拜伦.李通过创建直方图描述了他的音乐之旅。译注:(每种颜色代表一个歌手,拜伦.李搜集了他在last.fm上18个月来的听歌记录。创作者选用这种可视化形式原因是它的失真最少,能生成高雅的非对称曲线。这种的图表形式被称为Stream Graph流图。)
Shape Of Song(音乐的形状)音乐看起来像什么?音乐的形状是一个看起来很怪诞的命题。这款定制软件使用半透明的拱形来描述了音乐的形状,让人们能看到存在于互联网上的任意音乐的真实形状。译注:(该项目用这种图像可视化了许多音乐类型和乐曲,直观地将节奏、韵律和起伏展现出来。每种音乐风格的个性与差异在这里表现地很明显。这类数据可视化方式真正实现了&通感&。)
Musicmap(音乐地图):他们创建了一个页面,通过连接线表现音乐之间的关联。
Musicovery 展现了不同音乐喜好之间的关联性,让你在听一首音乐的时候发现相似风格的歌曲。译注和潘多拉或last.fm一样推荐试听网站,会根据你的喜好选择,为你推荐音乐。同时可视化音乐之间的关系。)
Lanuage Poster (语言海报)使用传统的时间轴方式来表现程序语言的发展史,简单的线条也能用于表现复杂的状况。译注O&REILLY出版社制作的海报,每根箭头线代表一种语言的发展历程,同时反映了语言之间的继承或分支关系。)
5. Displaying web-sites 可看的网站Spacetime (时空)公司承诺,那些通过网页的小缩略图像挖矿一样查找信息的时代一去不返了。它提供的服务易读和优雅的三维特效来呈现你的搜索请求结果,支持google 、yahoo、Flickr 、eBay 、google图片搜索。
UBrowser 是一个使用开源的概念模型。Mozilla的渲染引擎Gecko的植入实例:使用OpenGL在几何面上动态渲染页面,。
6. Articles & Resources 文章和资源
Visualcomplexity.com
该项目介绍了数据可视化最美丽的方法和进一步的参考资料。拥有超过450辑的图片。在他的文章《Infosthetics: 数据可视化之美》中,Andrew Vande Moere通过他的知名blog《Infosthetics》探讨了数据可视化的审美及领域中的前沿应用。创意设计意图的组合形式、内涵以及迷人的案例。这是下一代的新艺术领域?
这篇文章介绍了13种新的数据可视化技术的实例以及深入的参考。
16 Awesome Data Visualization Tools16种令人敬畏的数据可视化工具 。Mashable.com概述了:&我们找到了下面16个观赏和实用性兼具的应用。数字可视化工具改变了我们观察事物的途径:观察twitter信息来源在全球的分布的全新方法。 &
Dataesthetics(数据美学)Eric Blue 介绍了一些数字可视化的非常见形式。
infosthetics & information aesthetics(infosthetics&&信息审美)Andrew Vande Moer关于数字可视化的最新观点和创意想法。&
Delicious聚合的可视化讨论了如何将Del.icio.us上收藏的标签可视化
Periodic Table(周期元素表).周期元素表的可视化方法。
7. Tools and Services 工具和服务
你可以使用 Xtimeline和Circavie创建你自己的时间线
IBM Many Eyes(IBM之眼)
这是一个基于JAVA的可视化数据在线服务。帮助注册用户创建饼图、框图、树型图、柱状图和直方图。这有一些比较惊人的案例。
prefuse | the prefuse visualization toolkit (prefuse可视化工具包)
集成了数据可视化方法的工具包,基于JAVA的测试版本。
Swivel (旋转)
可制作飞行中的饼图、见图和直方图的服务。同时还提供可用于优化现行的可视化方式的API插件。
你可以在文章《Charts and Diagrams Tools 饼图和直方图工具》里找到更多工具来设计你要的图表。九&25(二)数据可视化和信息可视化可视化&数据可视化和信息可视化的主要目的是借助图形化手段,更高效和清晰地交流信息。但这并不意味着数据图表会因实用而枯燥,因华美而繁复。为了让思想能有效地传递,良好的外观和内在功能性都缺一不可。虽然设计师们还是不能很好地把握设计与功能之间的平衡,而创造出华而不实的数据可视化形式,无法实现其传播信息的主要目的。在印刷品和web上,被可视化的信息、数据或知识&&数据图表,经常用于依靠设计师的创造力,在刺激和感性的背景下支持和强化信息,下列的网站列举了一些令人瞩目的的数据图表, 它们以极富视觉吸引力的方式有效地表现了信息。Country Codes of the World(国家代码世界)国家代码世界地图映射了245个国家顶级域名代码,包括所有国家、联合国、众多岛屿及地区。每个两位代码对应到所指国家的地理位置及区域,并使用了便于快速检索的分色图例。
Flags as Infographics(国旗图表)这些招贴是为著名的政治杂志&Reportagem&所设计的,主要设计思想是通过添加图例把每个国家的国旗变成了一张图表。比如:美国。红色部分:支持伊拉克战争。白色部分:反对伊拉克战争。蓝色部分:不知道伊拉克在哪。
Independent: Infographic (独立:信息图形)中东:谁支持立即停火? 下列这张图表在2007七月的中东危机问题时期发表于&独立&杂志头版。
Virtual countries(虚拟国度)这个看台以国家和巨头公司的&国民&生产总值为依据,列出世界上这些&虚拟国度&的排名。
Net Neutrality(网络中立)这张图表期望于强调网络中立的重要性。这并不是一张真正意义上的数据图表,但传递了这些信息:这些就是我们可能遭遇的未来。译注:(这是07年的图,由此可见,对互联网发表预测是一件多哇哈哈哈哈的事。)
Corporate connections:(企业关系)一个非常紧凑和实用的信息来源译注:3个名人,35个企业,40多家子公司和300多个品牌的之间的千丝万缕。
DIZZIA, Gregory M.这张图表里描述了Gregory Dizzia所泡过的所有MM及其关系。时间轴持续23年。译注:(有兴趣的同学可以下载这张图看一下.pdf。作者真的很猛。垂直的是时间轴,每一列代表一个MM,长度代表交往时间。每个图表表示事件或特性。绿色图标代表认识的途径:聚会、网络等。蓝色图标MM吸引他的地方:身材、头脑等。黄色图表代表关系深入度:kiss或者XXOO。橙色代表重大事件:订婚、心碎、来路不明的孩子&&。红色代表分手的导火线。每一列底部的蓝色从浅到深代表了关系亲密程度。)
Amadana InfographicsAmadana是一家日本公司,这可以解释为什么他们会分不清scapegoat替罪羊和acuarium水族缸(见第一行的第二个图示)。第一行的电器是土司机,第二和第三行是空气净化器,最后一行的是电磁炉。
The Japanese Wii Safety Manual(日本WII游戏机的安全指南)这份日本WII游戏机的安全指南,基本上能解释日本人普遍的精神错乱。译注:(作者貌似不太喜欢日本人。。。不过点击下图有更多变态的安全指南图片供君欣赏)
Virtual Water虚拟水简洁、优雅、有效。这份双面印刷海报表现了产品和国家中水的使用足迹。译注:(点击图片可以查看这项环保海报的更多信息,设计非常专业。海报有两面,一面是重要国家地区中虚拟水的进出口统计,另一面是一些商品和食品在生产链各个步骤中使用的淡水量总和的统计。)
Apple&s Tipping Point: Macs For The Masses(苹果的引爆点:大众的苹果)设计很淡定,配色柔和,背景鲜明。设计者是 Paul Nixon
AT&T/Bell System Pre- & Post-Divestiture Chart (AT&T/贝尔系统前后分离图)Peter Ross.1985年创作。
Flickr User Model(Flickr的用户模型)一个数据有点复杂的信息图形,但仍然保持了清晰和良好的展示性。
Journey into the Universe (宇宙之旅)信息设计, 创作于1985.
Megan Jaegerman(人名)Megan Jaegerman和 Edward Tufte一起工作时的一些回顾。留意这些图表中所体现出的简洁之美和高度的可读性。译注:(她的网站里有不少非常优秀的插图,值得点击一看Edward Tufte :信息设计的先驱者。耶鲁大学统计学和政治学的退休教授。奠定了视觉化定量信息的基础。出版了包括&视觉解释&,&构想信息&,&定量信息的视觉展示&,和&数据分析的政治和政策&,&美丽的证据&在内的一系列书籍,最新的&美丽的证据&获商业周刊2006年最革新的设计书籍赞誉。)
Good Magazine Infographics(好杂志中的信息图形)在Good magazine的每一个议题里,都会提供杰出的,关系到我们生活方方面面的信息图形。下面有一些优秀的范例。译注:告诉我更多:那里即将发生什么?(关于达富尔的社会政治现状)
译注:女性的力量。女性在世界人口中的50%,政治领袖中女性却只占5%。
译注:冷酷的时间:自从美国在1976年恢复死刑,有118名死囚被证明无罪。&这118人共被监禁1125年。图像的力量啊
译注:零售业房地产:世界上最大的零售商的占地总面积比曼哈顿还大。
译注:美国膨胀的学生债务。达到4920亿。
Who Participates and what people are doing online(人们在互联网上做什么)一个比较别出心裁的表现形式会赋予图表独特性和吸引力。。译注:各个年龄段和性别的人在不同类型的在线应用上花费的时间
The Cost of Living on the Bleeding Edge of Gadgetry(电子产品深度患者的开销)价格和便携式电子产品在过去50年的价格和市场占有率。由Arno Ghelfi设计。从一个完全不同的视角表现。译注:每种颜色代表一种电子产品类型。柱状图的高度代表价格。宽度代表市场占有率。
A year in Iraq(在伊拉克的一年)一份不同寻常的数据图表,展现了2592起记录在案的致死原因的类型和分布地点。
Cubism and Abstract Art(立体主义和抽象艺术)简洁、丰富和优雅。Alfred Barr的设计,在Edward Tufte的书里可以找到。译注:连接线和因果箭头&巴尔艺术图 费曼图&进化树状图 隆巴迪
MyMap(我的地图)一个数据可视化的应用程序:基于60000封电子邮件存档数据,用不同颜色深度的线条呈现了地址簿中用户和个体之间的关系,比如回复、发送、抄送。&My Map&允许在不同的关系组和时间段里挖掘信息,体现不同关系中短暂衰退和流向。&My Map&从而成为名副其实的自画像、个人关系及社交的可视化反映。译注:外围的每个圈代表一个人,他们之间的线条代表联系,越高亮的颜色代表交流的频率越高。
When Bots Attack(机器人来袭)借助僵尸网络,你可以针对某个目标启动几十万甚至上百位次轰炸。在这种假设的情况下,由中国发起的针对美国的单个攻击可能只持续几个小时,但持续数天或数周的全面攻击会导致整个现代信息经济的瘫痪。下图用于说明这件事。译注:绿色点:攻击。蓝色点:黑客。白色点:肉鸡。红色点:目标。美国拟提高中国进口商品关税的条款引发了危机。北京下令对美国国会的计算机系统和支持该法案的公司进行限制性攻击。中国的安全部门官员雇用非法的 黑客联盟发动ddos攻击。通过像PayPal这样的匿名服务(通常使用在拉美地区的帐户)支付报酬。目标IP地址和邮件帐户(在更早就完成了搜集工作) 通过非法黑客的私人聊天室进行分发。一旦攻击进行,中国的媒体和外交部门将此次攻击描述为是黑客们的自发行为。
Mapping the Blogosphere (博客世界的映射)这就是博客世界看起来的样子。。。
Globalization(全球化)怎样的全球化?译注:(每种颜色的扇形区域代表一个洲的国家。中间的连线描述了这些国家之间的贸易经济往来)
George W. Bush Speech Infographics (乔治.布什的演讲)一种交互式的信息图形,比较了不同演讲中某些词汇出现的频率。这种设计方式能提供读者用更多方式去评估和理解特定的词汇或数}

我要回帖

更多关于 北京核磁共振多少钱 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信