云网学习功能密码记不得了怎么找回来?再次登录手机密码图案大全号点找回密码,获取验证码失败,手机密码图案大全号也是原本注册的

删除历史记录
 ----
相关平台红包
云深度学习平台架构与实践的必经之路
作者:之家哥
摘要:网贷之家小编根据舆情频道的相关数据,精心整理的关于《云深度学习平台架构与实践的必经之路》的相关文章10篇,希望对您的投资理财能有帮助。
《云平台架构与实践的必经之路》 精选一7月15日,被《福布斯》杂志誉为“运动的里程碑”的全球顶级大数据会议Strata Data Conference在京召开。第四范式先知平台架构师陈迪豪受邀出席大会,并分享了云深度学习平台的架构与实践经验。作为第四范式先知平台架构师,陈迪豪活跃于Open stack、Kubernetes、TensorFlow等开源社区,实现了Cloud Machine Learning 云深度学习平台,对如何进行云深度学习平台架构有着深厚积累。本次演讲中,他介绍了什么是云深度学习?在经过实践后,应该如何重新定义云深度学习?以及第四范式在这方面的应用和实践。以下文章根据现场演讲实录整理。定义云深度学习平台什么是云深度学习?随着的发展,单机运行的机器学习任务存在缺少资源隔离、无法动态伸缩等问题,因此要用到基于的基础架构服务。云机器学习平台并不是一个全新的概念,Google、微软、亚马逊等都有相应的服务,这里列举几个比较典型的例子。第一个是Google Cloud Machine Learning Engine,它底层在Google Cloud上,上层封装了Training、Prediction、Model Service等机器学习应用的抽象,再上层支持了Google官方的TensorFlow开源框架。亚马逊也推出了Amzon machine learning平台,它基于AWS的Iaas架构,在Iaas上提供两种不同的服务,分别是可以运行MXNet等框架的EC2虚拟机服务,以及各种图象、语音、自然语言处理的SaaS API。此外,微软提供了Azure Machine Learning Studio服务,底层也是基于自己可伸缩、可拓展的Microsoft Azure Cloud服务,上层提供了拖拽式的更易用的Studio工具,再上面支持微软官方的CNTK等框架,除此之外微软还有各种感知服务、图象处理等SaaS API,这些服务都是跑在Scalable的云基础平台上面。以上这些都是业界比较成熟的云深度学习平台,而在真实的企业环境中,我们为什么还需要实现Cloud Machine Learning服务呢?首先国外的基础设施并不一定是国内企业可以直接使用的,而如果只是本地安装了TensorFlow,那也只能在裸机上进行训练,本地默认没有资源隔离,如果同时跑两个训练任务就需要自己去解决资源冲突的问题。因为没有资源隔离,所以也做不了资源共享,即使你有多节点的计算集群资源,也需要人工的约定才能保证任务不会冲突,无法充分利用资源共享带来的便利。此外,开源的机器学习框架没有集群级别的编排功能,例如你想用分布式TensorFlow时,需要手动在多台服务器上启动进程,没有自动的Failover和Scalling。因此,很多企业已经有机器学习的业务,但因为缺少Cloud Machine Learning平台,仍会有部署、管理、集群调度等问题。那么如何实现Cloud Machine Learning平台呢?我们对云深度学习服务做了一个分层,第一层是平台层,类似于Google cloud、Azure、AWS这样的IaaS层,企业内部也可以使用一些开源的方案,如容器编排工具Kubernetes或者虚拟机管理工具OpenStack。有了这层之后,我们还需要支持机器学习相关的功能,例如Training、Prediction、模型上线、模型迭代更新等,我们在Machine Learning Layer层对这些功能进行抽象,实现了对应的API接口。最上面是模型应用层,就可以基于一些开源的机器学习类库,如TensorFlow、MXNet等。整个Cloud Machine learning运行在可伸缩的云服务上,包行了模型开发、模型训练,以及模型服务等功能,形成一个完整的机器学习工作流。但这并不是一个闭环,我们在实践中发现,线上的机器学习模型是有时效性的,例如新闻推荐模型就需要及时更新热点新闻的样本特征,这时就需要把闭环打通,把线上的预测结果加入到线下的训练任务里,然后通过在线学习或者模型升级,实现完整的机器学习闭环,这些都是单机版的机器学习平台所不能实现的。打造云深度学习平台主要包含以下几个组件:首先是客户端访问的API Service,作为服务提供方,我们需要提供标准的RESTful API服务,后端可以对接一个Kubernetes集群、OpenStack集群、甚至是自研的资源管理系统。客户端请求到API服务后,平台需要解析机器学习任务的参数,通过Kubernetes或者OpenStack来创建任务,调度到后端真正执行运算的集群资源中。如果是训练任务,可以通过起一个训练任务的Container,里面预装了TensorFlow或MXNet运行环境,通过这几层抽象就可以将单机版的TensorFlow训练任务提交到由Kubernetes管理的计算集群中运行。在模型训练结束后,系统可以导出模型对应的文件,通过请求云深度学习平台的API服务,最终翻译成Kubernetes可以理解的资源配置请求,在集群中启动TensorFlow Serving等服务。除此之外,在Google Cloud-ML最新的API里多了一个Prediction功能,预测时既可以启动在线Service,也可以启动离线的Prediction的任务,平台只需要创建对应的Prediction的容器来做Inference和保存预测结果即可 。通过这种简单的封装,就可以实现类似Google Cloud-ML的基础架构了。架构上进行了分层抽象,实现上也只需要三步。第一步是创建一个Docker镜像,下面的Dockerfile例子是从TensorFlow项目中截取出来的,官方已经提供了一个可以运行的Docker镜像,通过加入定制的启动脚本就可以实现开发环境、模型训练以及模型服务等功能。第二步是实现一个标准的API服务,下面是一个Python实现的实例,用户发送一个启动训练任务的请求,服务端可以解析请求的参数和内容,并将任务提交到Kubernetes等后端集群中。第三步是生成Kubernetes所需的文件格式,下面的JSON文件大家也可以在GitHub中找到,实现了将分布式TensorFlow任务提交到Kubernetes集群中运行。我们通过简单的三个配置就可以完成机器学习任务从本地到云端的迁移过程,也就是实现了Cloud Machine Learning服务。前面提到云深度学习平台需要支持资源隔离和资源共享,这是如何实现的呢,其实Kubernetes本身就有这个抽象,用户可以在请求时申明需要的CPU、内存、甚至是GPU资源,通过cgroups、namespace等容器技术来实现资源隔离,而kube-scheduler实现了资源调度和资源共享等功能。实现自研或者公有云的Cloud Machine Learning平台,开发者可以很容易提交训练任务、创建模型服务等,但在一个真实的机器学习场景中,只解决计算资源的隔离和调度是远远不够的,我们还需要重新思考如何集成数据处理、特征工程等问题。重新定义云深度学习平台TensorFlow是一个可用于深度学习的数值计算库,基于TensorFlow可以实现MLP、CNN、RNN等机器学习模型,但有了它是不是就不需要Spark呢?他们的关系是什么?在生产环境中,我们发现TensorFlow并没有完全取代已有的大数据处理工具,我们需要用Spark做数据分析和特征工程,还需要数据仓库等服务去存储和查询结构化数据。TensorFlow是一个非常优秀的深度学习框架,但在真实场景中用户还需要一些PowerGraph处理的图关系特征作为输入,这都是单独一个框架无法解决的。对于用户的建模流程如何组织、如何做数据清洗、如何做特征抽取、如何上线训练好的模型、如何预估模型效果,这些可以使用Azure ML Studio工具去完成,而且是TensorFlow所缺乏的。前面我们介绍了Cloud Machine Learning,可以实现一个类似Google的分布式、高可用、带集群编排的计算平台,但这远远不够,因为我们还需要使用大数据处理的框架,包括MapReduce、流式处理、图计算等框架。TensorFlow只是整个机器学习流程里面做模型训练其中一部分,我们可能还需要Kubernetes做CPU、GPU的管理和调度。如果我们要完成一个机器学习的业务,就需要同时掌握TensorFlow、Spark、Hadoop、Hive、Kubernetes等框架的原理和应用,而不只是提供一个Google Cloud-ML或者AWS服务就够了,这也是我们要重新定义Cloud Machine Learning的原因。前面介客观上我们需要这么多知识,但主观上我们希望有什么呢?我们更希望有一个从数据处理到模型训练再到模型上线的一个全闭环服务,而不仅仅是机器学习框架或者通用计算平台,我们希望不写代码就可以做特征抽取的工作,我们希望机器学习的工作流是很容易描述的,而不需要通过编写代码的方式来实现,我们需要一个很灵活的基础架构可以支持各种异构的计算资源,我们希望平台是可拓展的可以实现自动Failover和Scaling。 除了前面提到的Google、微软、亚马逊做的云机器学习平台,我们还需要从IaaS、PaaS、SaaS这上提供使用接口,满足不同层次用户的使用需求,另一方面这应该是低门槛的产品服务,让任意的领域专家都可以轻易使用。后面我们会介绍在真实场景下如何改造Cloud Machine Learning平台,并且介绍第四范式对外提供的低门槛、分布式、高可用的先知机器学习平台。第四范式的云深度学习实践经验第四范式先知平台是一个基于Cloud的全流程机器学习产品,用户通过Web登陆到先知平台就可以使用模型调研、预估服务的功能,并且可以通过拖拽的方式来描述机器学习的工作流 。它的使用步骤如下,第一步是数据预处理,用户不需要写Spark代码而只需要拖拽出一个图标,我们称之为一个算子,然后就提交数据清洗等数据预处理任务了。然后,通过拖拽数据拆分算子,可以将数据集拆分为训练集和测试集两部分,其中一部分留在左边用于特征抽取。一般来说,用Spark、Mapreduce等开源工具也可以做特征抽取,但对编程技能和工程能力有一定的要求,我们通过定义特征抽取的配置或者脚本,让用户可以不写代码也可以实现对原始数据集的特征工程。然后,连接我们自主研发的高维逻辑回归、高维GBDT等模型训练算子,也可以连接基于开源的TensorFlow或者MXNet等框架实现的算法。最后,经过模型训练得到模型文件后,用刚刚拆分出来的测试集进行模型预测,还可以使用通用的模型评估算子进行AUC、ROC、Logloss等指可视化展示。在先知平台上,用户只需要通过构建流程图的方式,就可以实现数据处理、模型训练等功能,真正解决真实场景下机器学习业务的问题。在先知平台的最新版本中,提供了以极高的效率生成特征工程配置脚本,获取自主研发的LR、GBDT算法的最佳参数等AutoML特性。这些特性能够大幅降低在获取一个有效建模方案过程中的重复性劳动,也可以有效辅助数据科学家获得对数据的初步理解。在一些场景下,能够获得媲美甚至超越专家建模的效果。目前先知平台主要解决以下几个目标场景:1. 简化数据引入,平台不要求数据必须使用分布式存储,也可以直接从RDBMS这类的SQL数据库中导入训练样本数据。2. 简化数据拆分,用户不需要写Spark代码,只需要提供数据拆分后的存储路径,并且支持按比例拆分或者按规则拆分两种模式。3. 简化特征抽取,平台支持连续特征、离散特征的抽取和组合,对于连续特征支持自动化的多分桶算法,我们也会归纳常用的特征抽取方法并且封装成脚本或者配置,用户只需了解对应的配置而不需要自己编码实现具体的逻辑。平台还可以根据已有的特征配置自动进行特征组合拓展,提升模型效果。4. 简化模型训练,平台可以支持开源的机器学习算法实现和第四范式自主研发的超高维度LR算法,这个LR算法实现了Parameter server可以解决几十亿、上百亿特征维度的高速分布式训练问题。对于学习率、正则化参数等可以做到自动调优。另外,平台还提供了线性分形分类器等扩展算法,可以无须人为干预的更加有效利用数值类特征。5. 简化模型评估,得到模型预估结果后,我们可以计算模型的ROC、Logloss、K-S等指标,不同模型计算指标的方式是类似的,用户就不需要重复编写实现代码,直接通过拖拽算子调用即可,以上都是先知平台所解决的问题。6. 简化模型上线,对于常见的高维LR/GBDT模型,可以一键发布为线上服务实例,不仅简化了模型的部署和运维,而且上线实例还包括大部分的特征工程逻辑,无须手动再次开发特征处理逻辑的线上版本。目前,先知平台已经成功应用于银行、和互联网等各行各业,基于“先知平台”的反欺诈模型能够帮助银行在毫秒级识别可疑交易,同时在新闻、视频、音频等内容推荐场景下,“先知平台”也成功大幅度提升关键业务指标。此外,在赋能企业利用机器学习升级运营效率的同时,更有意义的是,“先知平台”也极大地降低了机器学习的使用门槛。作为一个针对全流程机器学习业务的平台,先知封装了从数据处理、模型训练到模型上线和反馈更新的系统闭环,用户不再需要很强的编程技术和工程能力,领域专家和业务人员都可以通过推拽方式进行建模和上线,帮助企业快速实现从数据收集到业务价值提升的终极目标。随着专利算法的不断更新,更加实时高效的极致工程优化,未来先知平台将进一步降低人工智能工业应用的门槛,帮助越来越多的企业享受人工智能服务。目前,先知平台试用版已经正式对外开放,欢迎访问prophet.4paradigm.com注册使用。《云深度学习平台架构与实践的必经之路》 精选二“我准备考虑一个问题:‘机器能思维吗?’”—阿兰.图灵,1950,《Computing Machinery and Intelligence》前段时间在忙着炼丹(Deep Learning),还有几场大数据培训,很久没有动笔了。今天想和大家谈谈人工智能(Artificial Intelligence, AI),2017可谓人工智能元年,AI领域风投和创新、创业风起云涌,深度学习研究和应用持续火爆,以Facebook小扎和Tesla钢铁侠为代表的大佬们站队互掐,AlphaGo的成功营销与Watson的失败应用,国内BAT纷纷推出人工智能战略等等…这一波大数据驱动的AI热潮,发展势头强劲。下图是从我培训课件里截的,称之为四位一体看数据技术(Data Technology, DT),可以说AI高烧是大数据发展的必然。图1 四位一体看DT从上图可以看出,这些年从,云计算,大数据到现在的人工智能,一个比一个热,这是DT前沿信息技术发展的大势,其内在的逻辑联系和发展趋势使然,终极目标直指人工智能。这就好比我们人体一样,物联网(移动互联网)构造了眼耳鼻舌身等感官,大数据是各种感官获取的感受信息,云计算是记忆存储,人工智能就是我们的认知决策。IT和DT技术发展本质是在拟人化、智能化,智能时代一定会到来是毫无疑问的,但是,发展过程也不要太乐观。本文作为《论大数据的泡沫、价值与应用陷阱》的姊妹篇,就来说说人工智能发展面临的问题和挑战。1人工智能源起:图灵的智能之问。我在前文《论大数据的泡沫、价值与应用陷阱》有讲到:“大数据时代,我们周围充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等技术和应用,都源于我们对未来不确定性的恐惧。”如何降低决策过程中的不确定性,通过智能技术进行前瞻预测是关键,不管是物联网、大数据、云计算还是DT偌大的技术生态体系,其核心都是为这一目标服务。从这个角度讲,传统商业智能应用90%失败这一论断是有道理的,因为基础的数据管理和常规的统计分析,不能称之为智能,换句话说没有成熟机器学习技术的支撑和成功应用,要说多智能那就是忽悠(后面我会讲IBM Watson的问题)。机器如何智能,系统如何智能,可谓仁者见仁智者见智。我们先来看图灵是如何定义这一问题的。作为计算机科学和人工智能领域的先驱,图灵在1950年发表的著名论文《Computing Machinery and Intelligence》中,详细讨论了机器能否拥有智能这一问题,但也只是个开放性的讨论,其实图灵也未能定义什么是智能(但提出了著名的“图灵测试”)。在1956年的DARTMOUTH学术会议上,AI被正式提出,定义为:“研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。通过了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,人工智能可以对人的意识、思维的信息过程进行模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。智能涉及到诸如意识、自我、思维、心理、记忆等等问题。”由于我们对人类智能本身还知之甚少,所以人工智能的发展比预想的要慢很多。图灵当时也做了个比较乐观的预测,他预测在2000年左右,机器极有可能会通过“图灵测试”,拥有初步的智能行为,现在看来这一时间是延后了,从当前自然语言处理领域的发展现状及问题来看,要解答图灵的智能之问,还需要AI研究人员多年的努力。2人工智能泡沫:神经网络“三起三落”的启示。从历史来看,重大科学的研究往往呈螺旋形上升的过程,不可能一蹴而就。经历过“三起三落”的人工神经网络,能够在换马甲为深度学习后成功逆袭,正是机器学习领域几十年来积累诞生的重大科学研究和工程应用成果,当前深度学习被看作是通向人工智能的关键技术,被寄予厚望。图2 神经网络的“三起三落”我在10多年前对神经网络和支持向量机两个机器学习方向都有过粗浅的学习和了解,见证了神经网络研究三起三落其中的一段时光,见证了以支持向量机为代表的浅层学习技术的火爆,但却始终少有看到机器学习技术真正走出实验室,直到最近几年,神经网络换马甲为深度学习后成功逆袭,使得机器学习领域这几十年来积累的成果,得以逐渐走出实验室,在学术界研究和产业界应用都一鸣惊人,并有望引领人工智能关键技术的跨越式发展。图3 人工智能的泡沫但从另一方面看,神经网络的三起三落也就代表了人工智能的三个泡沫期,这给过分热衷深度学习技术与人工智能研究应用的人来讲,也是该降降温的,期望越大,失望越大,毕竟深度学习技术没有想象中的那么强大,至少在智能算法层面的突破很有限(主要靠的还是大数据和计算力)。换个角度看,深度炼丹术的兴起,会不会是因为机器学习算法研究几十年迟迟无重大进展,神经网络算法的一点小改进(正好遇到了大数据与GPU)就被当做了救命稻草? 或者说即使神经网络的深度架构碰巧撞到了类脑学习机制,但我们能全面解码它吗?不太了解神经科学的研究水平,这个需要大家去悟了。3人工智能价值:弱AI不弱,强AI难强。AI目前的发展还处于弱AI(Artificial Narrow Intelligence ,ANI)阶段,但弱AI并不弱,如阿尔法狗一样,虽然只擅长某一方面的智能,但在这方面已然超过人类了。近年来,弱AI已经极大促进了信息化与智能化的发展,在很多领域提高了生产效率。如工业机器人、医疗机器人、智能问答、自动驾驶、疾病诊断、自动交易等系统工具,极大提高了生产力。弱AI不能像人类一样靠理性或感性进行推理和解决各方面(哪怕很简单)问题,机器只不过看起来像是智能的,其实只是既定程序的执行而已,只能解决某一方面的问题(就像下围棋不能代表会下象棋),不会有自主意识,不会有创造性。而强AI(Artificial General Intelligence ,AGI)的定位是在各方面相当于人类或者超过人类,也称为通用人工智能。现阶段的人工智能研究和应用主要聚焦在弱AI,强AI的研究可以说还是停滞不前,难有进展。强AI能否实现还是未知,但要论人工智能的价值,我认为很有必要对两者进行对比,首先我个人是不支持发展强AI的,除非对其有绝对的控制能力,除非人类遇到了全球性灾难或需要星际移民,不然强AI出世就很可能是另外一种原子弹,绝对是弊大于利。弱AI帮助人类,是我们的好助手,能提高我们的生产效率和生活水平,强AI超过或代替人类,将是大部分人类的“终结者”,至少是劳动终结者,总不可能几十亿人都去从事艺术职业吧?当然弱AI发展也会面临这一挑战,但更可控和缓和很多。4人工智能应用困境:先要搞清楚几个关键问题。随着机器学习、深度学习和人工智能相关技术(强化学习、迁移学习、对抗学习等)的高速发展。阿尔法狗与人类顶尖棋手的人机大战,也注定成为人工智能的里程碑事件,当AI变得越来越复杂,越来越聪明,以至于在多个领域全面超越人类的时候,那时的AI会是提高人类生产力和生活质量的好助手?抑或是彻底控制奴役人类的天网?现在还难以下结论,但可以肯定的是接下来数十年里AI对人类生活造成的冲击将是巨大的。不管是技术层面还是产业应用层面,要对人工智能领域有个全面准确的理解和把握,可以说十分困难。下面提几点个人认为比较关键的问题供大家探讨。(1)现在是人工智能的“”时代吗?这个问题乍看是废话,现在AI这么火,当然是啦。从人工智能的三起三落来看,现在是处于技术和产业发展的波峰。而这一热潮的兴起一是得益于深度神经网络技术的发展,二是通过物联网和移动物联网等技术,大数据的爆炸式增长成为常态。三是大数据分析预测是解决不确定性问题的必然,大数据条件下的复杂性问题,越来越难以应用传统建模技术加以解决,而客观世界的复杂性,传统的机械模型更是难以分析和预测。图4 农业时代到智能时代工业时代通过机械动力优化,放大了我们的体力,我们得以改造物理世界;智能时代通过算法优化,放大了我们的脑力,将极大改造我们的脑力世界。从人类社会发展大趋势来看,现在称之为AI黄金时代并不为过。但这里有个不确定性,那就是AI技术发展的瓶颈问题,深度学习技术能否担当重任,能否一鼓作气有更大的突破,或者几年后又得停滞不前几十年,都有可能。但可以肯定的是,对弱AI来讲,现在是再好不过的黄金时代,兴起的热潮也是看到了各个垂直领域应用弱AI的极大潜力;对强AI来讲,面临的技术瓶颈短期内难以突破,不过有没有可能多年后冒出个终极算法,全面解决类脑学习问题?不是没有可能,只是几率很小。(2)人工智能的应用成熟度?尽管人工智能的发展已经超过50年,但仍然还处于一个比较早期的发展阶段,其应用主要集中在弱AI和垂直行业相结合的领域。从产业链上看,人工智能产业链包括基础支撑技术(如大数据、云计算等)、人工智能技术(机器学习、深度学习等)及人工智能应用(语音、对话、识别等)三个层面,其中基础技术支撑由数据中心及运算平台构成,即计算智能阶段,包括数据传输、运算、存储等;人工智能技术是基于基础层提供的存储资源和大数据,通过机器学习建模,开发面向不同领域的应用技术,包含感知智能及认知智能两个阶段,感知智能如语音识别、图像识别、自然语音处理和等,认知智能如机器学习、强化学习、对抗学习、自然语言理解等;人工智能应用主要为人工智能与传统产业相结合,以实现不同场景的应用,如机器人、无人驾驶、智能家居、智能医疗、智能问答等领域。从上述几个方面可以看出,AI产业链的应用成熟度取决于关键技术在垂直领域的突破,如果想靠大规模投资来快速推进AI技术的突破是不现实的,而是要反推,技术成熟一个再应用一个,这样比较稳妥。图5 谷歌产品线应用深度学习技术(3)人工智能的技术成熟度?这一波人工智能的发展,大数据处理、深度学习和GPU计算三个方面的技术起到了关键的推动作用。大数据的采集、基础管理和云计算、GPU计算等技术应该说比较成熟了。突破智能的难点还是在机器学习。我在前文反复提到过,不谈机器学习的智能技术多是在耍流氓。作为机器学习的子领域,深度学习虽然很牛,但它还是神经网络那套算法理论,几十年前就提出来了,换句话说还是在啃老本啊。不管是支持向量机、贝叶斯、等浅层学习算法,还是深度网络衍生出来的深度强化学习、迁移学习、对抗学习等,大部分理论、算法在几十年前的人工智能教材上都能找到,唯一不同的加了个深度,有强大的计算力支持,能处理大数据了。图6 人工智能与机器学习近年来的人工智能开源框架更是基本等同于深度学习,虽然TensorFlow、Keras、MXNet等深度学习框架备受开发人员推崇,但还是缺乏完整的人工智能技术链,深度学习被捧得太高不是好现象,传统的知识库、专家系统和规则式AI与深度强化、迁移、对抗等学习的融合才是AI发展的正途,另外从芯片、算法、平台、架构到应用等方面来看,弱AI要全面开花落地都还有较长的路要走。再就是浮夸风问题,一些科技媒体抱着Ar**v的某篇论文,就能说解决了某重大应用问题,十分不严谨。如果要给AI技术成熟度打个分的话,个人认为总分100分的话最多算70分,而且还是抱了深度学习的大腿。至于深度学习技术发展的后劲如何,短时间内是否发展成为Musk所说的那样可怕,那要看IT巨头们机器农场中深度网络的工程能力和“进化”速度了,没有大数据资源和大规模计算资源的一般研究机构和人员是很难知晓的。(4)大数据如何助力人工智能?在提这个问题之前,大家可以思考一下,有没有非数据驱动的智能?换句话说,如果没有大数据,除了专家系统和规则式AI,人工智能怎么发展?能否在智能学习方面有所突破?现阶段的AI多是数据驱动的AI,因为没有数据的喂养,就没有深度学习的成功。数据驱动的AI离不开大数据,大数据与AI是一种共生关系:一方面,AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法,如深度神经网络衍生出的一系列技术(深度学习、强化学习、迁移学习、对抗学习等)和方法;另一方面,大数据为AI的发展提供了新的动力和燃料,数据规模大了之后,传统机器学习算法面临挑战,要做并行化、要加速要改进。当前的弱AI应用都遵从这一技术路线,绕不开大数据。那么怎么做非数据驱动的AI呢?传统的规则式AI可以说是非数据驱动的,更多靠人工内置的经验和知识驱动,不过它最大的问题也是要人工介入,而且很难具有学习能力,靠的知识、记忆和经验建立的规则体系。强AI的目标是机器智能化、拟人化,机器要完成和人一样的工作,那就离不开知识、记忆和经验,也离不开通过知识、经验和记忆建立起来的认知体系(经验规则、知识本体)。从这个角度讲,强AI要实现只靠深度学习还不够,但也不能绕过深度学习,通过深度学习进行物理世界基础知识的初步监督式或半监督学习(幼儿要人教),深度学习掌握的知识必须要能存储记忆并形成经验规则,只有这样遇到新的问题之后,才能智能响应(小孩通过知识经验的积累,不再需要人教而能自我学习)。这需要学习、存储、记忆、推理和构建知识体系,所以说强AI短期要实现很困难。(5)深度学习的“深”与“浅”?首先我们来看深度学习的“浅”,深度学习的核心理论还是基于浅层神经网络的堆叠,核心技术本身并无新意,Hinton也只是做了有限的改造和提升。另外,伟大的东西往往很简单,好比爱因斯坦的EMC方程,深度学习是一种朴素、简单、优美而有效的方法:像小孩搭积木一样简单地构建网络结构;性能不够,加层来凑的朴素思想,这种标准化、易用性的处理架构,极大降低了机器学习的难度,当然最关键还是应用效果。从这个角度理解,深度学习并无深意,只是对传统浅层神经网络做了少量改造。再来看深度学习的“深”,在我看来,深度学习绝不只是几个具体算法、模型那么简单,而是一种仿人脑多层异构神经元连接网络的机器学习思想、方法论和技术框架(可能会从传统机器学习学科中分离出来,传统浅层学习模型的深度化是一大研究趋势)。各类深度学习网络的变异、进化、融合,结合GPU超级计算将是未来现实大数据条件下大规模机器学习的重要方向,特别是海量多模态大数据条件下的机器学习,没有深度架构只靠浅层学习,将无法支撑大数据条件下自动特征学习、模型的有效表达和记忆存储。当然,深度学习在当前看来是通向现实人工智能的一条有效途径,但不应该是一种包罗万象的解决方案。尽管深度学习的能力相比传统机器学习技术很强,但和真正的人工智能目标相比,仍然缺乏诸多重要的能力,如复杂的逻辑推理、知识抽象、情感经验、记忆和表达等。不过深度学习发展现在还处于初级阶段,能否真正实现类脑计算解码还需要时日加以验证;另外,随着深度学习的网络形式和深度架构的逐步演进, 与基于经验知识库的规则式AI相结合,能否形成终极的类脑学习框架,让我们拭目以待。(6)Tesla钢铁侠和Facebook小扎到底在争个什么?前段时间,Tesla钢铁侠Musk与Facebook小扎进行了一场谁不懂AI的嘴炮对决,大佬们纷纷站队,貌似支持小扎的大佬要多一些?他俩到底争个啥,在我看来绝不是单纯的AI技术问题,而是在讨论强AI的可能性和强AI的觉醒时间。李嘉诚邀请阿尔法狗创始人戴密斯·哈萨比斯(Demis Hassabis)给他讲课,日本软银孙正义计划几百亿只投资人工智能相关项目,都是在押宝这一问题。其实弱AI与强AI的二元划分不是太合理,我们都知道技术的发展是个量变到质变的过程,弱到强之间难有技术分水岭,就像神经网络的三起三落,十年前没有大数据支持,神经网络学习效果不佳就说他弱吗?现在换了个马甲,因为有大数据了,学习效果好太多了就说它强吗?某一方面的技术不能说明问题,一个领域的突破性发展往往是一系列关键技术的改进在推动,缺一不可。图7 人类发展进程曲线那么大佬们当下关注的关键问题-强AI何时到来?这也是小扎和钢铁侠争论的焦点,这个时间节点能否预测呢?首先看下上图的人类发展进程曲线,这个曲线表达的是核心意思是,我们的发展进程是经历突变还是渐变多一些?这个还真不好说,原子弹发明之前,大部分科学家预测短期不可能,至少要几十年,也有科学家预测只需要几年,人工智能的三起三落也是,前几十年的乐观预测都失败了,未来几年会不会产生突变呢?谁也说不准,首先我们不能以深度学习技术现有的局限来推断其未来的发展潜力,就像我们不能预测Hinton是在2006年提出DBN,而不是1996或是2026?另外强AI能否觉醒,这得看未来数年里,是否有Ar**v上的某篇论文提出了机器学习的终极算法?或是Facebook机器农场中的某个深度网络全面解码了人脑的学习机制,抑或是谷歌机器农场中的某个深度网络通过本体学习和记忆产生了初级意识。5人工智能五大门派对决:Watson vs. AlphaGo上文说到,强AI的可能性,强AI何时能实现?是以小扎和钢铁侠为代表的大佬们,关于谁更懂AI展开嘴炮的焦点。要回答这一问题,首先得搞清楚AI技术发展的现状和瓶颈,下面就通过当今世界最顶级的两个AI系统,阿尔法狗(Alphago)和沃森(Watson)的对比分析,来深入探讨这一问题。AlphaGo采用的核心技术我在前文《阿尔法狗(AlphaGo)彻底战胜人类意味着什么》中有深入分析,简单来讲,其基于深度学习+强化学习+蒙特卡洛树决策的组合式学习方法(或者说学习框架)应用说摸到了类脑学习的边,其学习下棋分为三个阶段:(1)通过对棋谱的深度学习完成策略网络的构建,采用深度学习技术训练一种有监督学习型走棋策略网络,类似于我们的观察学习获得的第一反应。(2)通过自我对战强化学习来提高博弈水平,采用强化学习技术来优化先前的走棋策略网络,通过自我博弈的强化学习迭代结果,来提升前面的策略网络。即与之前的“自己”不间断训练以提高下棋的水平,这个过程有点类似于人类的巩固学习和理解贯通阶段。(3)通过深度回归学习构建估值网络,用来预测自我博弈强化学习数据集里局面的结果,即预测那个策略网络的局面会成为赢家。结合蒙特卡洛树(MCTS)搜索压缩搜索空间,降低了搜索时间复杂度, MCTS决策有效结合了策略网络和估值网络,类似于人类的判断决策过程。Watson的系统架构如下图,IBM 关于 Watson的宣传资料提到,Watson原来只有1个 “深度问答”的API,现在已经有42个API应用于36个国家的几十个行业,内容涵盖文字图像识别、自然语言理解、专业知识学习、人类情绪分析等各个领域。通过其技术架构分析,可知Watson 的核心功能是文本挖掘和知识问答,核心技术采用了基于统计学习算法和规则式自然语言处理(NLP)技术。从这个角度讲,IBM Watson的学习能力是十分有限的,依靠的海量非结构化大数据,加知识规则匹配,其重点宣传的认知智能是基于自然语言的情感分析和语义理解,是否采用了更为先进的深度学习算法不得而知。可以肯定的是网上关于Watson系统的负面评价却不少,医疗智能诊断AI的失败,暴露出了不少问题,比如需要几个月时间进行繁重的训练,专家们需要给系统喂养海量条理清楚的数据(未经整理过的数据一般不能用,这是浅层学习模型的硬伤,而深度自动特征学习在一定程度上改善了这一问题,但还有相当大的技术瓶颈需要突破),而且不能在不同的数据集之间建立联系(这点是Palantir大数据系统的强项,详见前文《大数据Palantir之核心技术探秘》)。图8 IBM Watson架构几十年来,人工智能技术研究的五大门派(如下图)一直以来都在彼此争夺主导权。 (1)符号派:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树。(2)贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫。(3)进化派:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法。(4)类推派:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机。(5)联结派:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络。图9 人工智能五大门派通过上述比较分析,可以看出AlphaGo与Watson的优劣。AlphaGo的技术框架通用性更好,深度学习能力更强,而Watson更多采用的传统规则式AI技术,虽然有自然语言文本等非结构化大数据优势,但没有关联挖掘和深度学习能力,其智能化水平有待提高。另外,通过AlphaGo与Watson核心技术架构的对比,在大数据条件下,联结派和符号派AI谁更牛高下立见,但都有各自的优点和缺点。根据Domingos的观点,机器学**大门派有望交叉融合产生终极算法,但是时间上却难以推测。个人认为,未来联结派和符号派的融合会是大势所趋,基于自动特征抽取和规则关联推理的深度学习,与基于知识经验的终身学习相结合,是AI进一步发展的关键技术方向。6如果强AI觉醒,我们将走向何方?最后做点展望,人工智能技术毫无疑问会改变我们的世界,越是强大的技术,其自身发展的速度(指数级)也是难以想象和预测的,当谷歌的自动驾驶狗(已行驶超200万公里)、医疗狗(DeepMind各种疾病诊断AI已初现身手)、翻译狗(谷歌几十种语言的自动翻译)、军事狗(Boston Dynamic机器人)、金融狗…等各种狗连成一片的时候,工业机器人很可能会走出牢笼,变身各种机器助手进入到我们家里和办公室里,而AI的服务端则会像电力一样提供源源不断的智能信息服务,到时我们的社会究竟会变成怎样,这不是一个单纯的技术问题,特别是面对强AI技术的研发和应用,我们应该重视其对社会、经济、**产生的深远影响。假如有一天强AI真的觉醒,对于人类的未来,可以说是吉凶难测,这取决于我们的技术管控和团队协作等能力,还取决于更重要的一点,那就是人性。最后列几则关于AI发展的正反方观点,难说谁对谁错,具有代表性,供大家思考。李开复:“类人机器人只是科幻,人形机器人将马上进入千家万户的说法,简直是无稽之谈。人工智能擅长对目标明确的工作进行优化(但是不能创造,没有感情);机械控制的发展速度较人工智能软件的发展要缓慢得多;传感器虽然得到迅猛发展,但价格昂贵、体积偏大且太耗电。机器人的开发要牢记实用性这一原则:机器人或能创造效益,或能节省成本,或能提高生产,或可以提供娱乐。过度担忧可能导致大众忽视AI正在带来的巨大机遇,也会让更多更紧迫的AI问题没有得到关注,这只会捡了芝麻丢了西瓜。未来十年,AI将大规模地取代那些依靠人力的、重复性的、分析性的岗位。因此,我们要肩负起创造更多社会服务性岗位的职责,而不是空想或谋划一个充斥着“不适用于人类”职位的社会…”扎克伯格:“人工智能威胁人类的观点“相当不负责任”,未来五到十年,人工智能会大为改善人类生活质量。人工智能已经在诊断疾病方面提供帮助,自动驾驶汽车也是人工智能改善人们生活的一种表现。科技应用一直都利弊兼有,创造技术的时候需要小心,但有人主张要放慢人工智能的研究步伐,其动机确实值得怀疑。”Elon Musk:“我认为,我们对待人工智能应当非常谨慎。如果让我猜测,人类最大的威胁是什么,那么就是人工智能。因此我们需要非常谨慎。我越来越感觉到,这里应当有一定的监管,或许是在全国层面,或许是国际层面,这只是为了确保我们不会去做一些蠢事。”比尔盖茨:“我和那些担心超级智能的人同处一个阵营。起先,机器将帮我们做许多工作,更不用说超级智能。如果控制得好,人工智能应该会非常有利。不过,几十年后人工智能会强大到足以令人担忧的地步。在这一点上我赞同Elon Musk等人的看法,而且我不明白为什么一些人会对此仿佛若无其事。”马云:“我认为人工智能,你是改变不了的,这是一个巨大的趋势,你只能改变自己。为未来来讲,三十年也好、五十年也好,人类的冲击一定会非常之大,而且一定会非常疼痛的,任何高科技带来的问题,带来好处也会带来坏处。有一点是肯定的,未来的机器一定比你更了解自己,人类最后了解自己,是有可能通过机器来了解的,因为我们的眼睛是往外看的,IT往外看的,但是DT是往内看的,往内走才是有很大的一个差异。至于前段时间比较热门的AIphaGo,人跟围棋下,我在深圳互联网大会上讲了一下,我认为这是一个悲剧,围棋是人类自己研究出来,自己玩的东西,人要跟机器去比围棋谁下得好,我第一天就不会比,就跟人要跟汽车比谁跑步跑得快,那不是自己找没趣吗,它一定比你算得快。”王垠:“很多人喜欢鼓吹人工智能,自动车,机器人等技术,然而如果你仔细观察,就会发现这些人不但不理解人类智能是什么,不理解人工智能有什么局限性,而且这些“AI 狂人”们的心,已经严重的机械化了。他们或多或少的失去了人性,仿佛忘记了自己是一个人,忘记了人最需要的是什么,忘记了人的价值。这些人就像卓别林在『大独裁者』最后的演讲里指出的:“机器一样的人,机器一样的心。”每当提到 AI,这些人必然野心勃勃地号称要“取代人类的工作”,“节省劳动力开销”。暂且不讨论这些目标能否实现,它们与我的价值观,从一开头就是完全矛盾的。一个伟大的公司,应该为社会创造实在的,新的价值,而不是想方设法“节省”什么劳动力开销,让人失业!想一下都觉得可怕,我创造一个公司,它最大的贡献就是让成千上万的人失业,为贪得无厌的人节省“劳动力开销”,让贫富分化加剧,让权力集中到极少数人手里,最后导致民不聊生,导致社会的荒芜甚至崩溃……”参考资料:1. 什么是人工智能?《NEWTON科学世界》2014年第3期2. 论大数据的泡沫、价值与应用陷阱。http://www.datagold.com.cn/archives/7052.html3. 阿尔法狗(AlphaGo)彻底战胜人类意味着什么?http://www.datagold.com.cn/archives/7591.html4. 我为什么不在乎人工智能。http://www.yinwang.org/blog-cn//ai靠谱众投 kp899.com:您放心的,即将起航!《云深度学习平台架构与实践的必经之路》 精选三清流妹:科学决策负责人任然,负责读秒大数据和模型的研发工作。曾供职Capital One ,担任商业分析高级经理,负责大数据分析和数字化银行产品的研发等工作。本文,任然将从实时决策、分布式模型、机器算法等方面介绍大数据研发。作者 | 光皋10月26日,PINTEC集团读秒智能信贷科学决策负责人任然参加活动,并发表了名为“Building Credible Credit Risk ModelsUsing AI And Intelligent Algorithms”的主题演讲,介绍了大数据模型研发的三大关键点。以下是演讲中干货内容的翻译。大家好,我是PINTEC集团旗下读秒的科学决策部负责人任然。读秒是一个智能信贷解决方案,核心是一种纯线上的贷款实时审批决策系统。以机构客户的数量来计算,PINTEC已经是国内最大的智能信贷服务商。通过这几年的探索,我们逐渐总结出一些大数据风控系统研发过程中的关键节点,希望能对行业有所启示。从大数据到快数据要实现实时决策,一个关键点是要确保系统可以处理很多数据。现在总说“大数据”(big data),但我们认为有时候“快数据”(fast data)更重要。在互联网时代,整个系统要高速的响应需求,面对瞬间涌入的需求保持robust,这就不仅仅是有“大量”数据的问题,而是怎么样把这些数据源实时地联系在一起,确保数据进来时系统可以实时处理,这个事情是更复杂的。因为数据科学仅仅是数据决策的一个算法环节,但是算法的实现要有很多基础设施作支撑,就像人一样——人的正常活动不仅靠的是大脑,也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策,很大程度上依赖于我们有一个强悍的系统作支撑。我们的技术部门会对授信环节作优化设计。根据我们的设计,整个授信环节可以分成很多步骤,如果能在早期的授信环节,通过较少的数据对用户的风险作出判断,那这就不会经过后面的操作,决策作出的就比较快。比如说,用户如果在之列的话,我就可以比较快地把他拒绝掉,这种情况下整个体验会非常快。我们还会对技术层面的作优化,很多指标计算、报告的拉取策略都是在并行操作的。指标对数据源的依赖也进行了良好的配置,很多指标都是以“流式”的方式进行计算的,即只要当符合一个指标计算需要的条件被满足的时候,它就可以很快地被计算出来,不是等到所有的数据都准备好了之后才开始计算。总之,要做到“快数据”,整个计算引擎都是需要经过高度优化的。“乐高式”的分布式模型我们所做业务的所有链条里,人工智能技术和数据是贯穿整个产品生命线的。我们的模型结构采用分布式的结构,也就是说,无论客群、渠道如何变化,我们的模型基本上可以保证在一定的稳定性水平上。分布式模型的第一个考量是灵活性。因为模型里有很多的子模型(sub-models),我们就可以根据合作伙伴、合作模式的不同,把子模型非常松散地作排列组合——像乐高玩具一样——形成最优的方案。这样的处理会比较标准化、模块化,像乐高玩具一样可自由拆分组合。比如说有一些合作伙伴,基于用户体验的考量,不想用基于用户地理信息的行为数据。使用分布式的模型结构,我们就不需要每对接一个渠道方都重新做一次模型了。第二个考量是模型的稳定性。因为我们的一个模型可能会接四十多个数据源,有时数据的底层是非常“脏”的,并不是拿来就能用的,如果底层的数据出现抖动的话,可能会对模型产生比较大的影响。使用分布式结构模型,如果一个子模型效果或稳定性上出现问题,我只要把这个子模型拆开,换一个模块就行,这样可以保证其他的子模型不受影响。第三个考量是模型的效果。机器学习允许我们用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好,是在实践的过程中发现的。基于同样的数据,我们可以用不同的方法建不同的子模型,然后让模型和模型间互相PK。如果某一个模型效果好,我可以动态地去调整更多的流量给它,这也是套方法论,叫在线学习(online learning)。Online learning在广告业其实是非常普遍的东西,比如说广告业会做AB测试,去统计点击量,看那一条广告效果更好,就加大它的出现频次,这其实是让模型自己去学习的方法。但在风控领域中,据我所知online learning目前运用得很少。大家会觉得风控模型这个东西比较“神圣”,不会去允许它做太多的动态调整。所以交叉学科的经验借鉴,有时对建模也有帮助。兼用传统逻辑回归与机器学习算法我们做模型时,会兼顾使用传统的逻辑回归方面的算法,和一些比较先进的机器学习的算法,比如说bagging,boosting,包括最近因为AlphaGo Zero火起来的增强学习(reinforcement learning) 。传统的风控模型都是线性模型,比如逻辑回归,它的特点是高度结构化和可解释性。但问题是,如果一个变量与target 之间不是线性的关系,我们在把它变成线性关系的过程中会损失很多信息。而且这种情况下,当我们去做特征工程(featureengineering)的时候,是需要人去想的。 但人总有局限性,你看到想到的东西并不是全部,有时它甚至是错的。机器学习、深度学习的模型,它的好处是能自我适应、自我学习,但这类模型基本上是一个黑盒子。因为模型的结构非常复杂,比如说一个决策树模型里可能有一千棵树,每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员,用AI模型的时候会比较没有安全感,因为他看不到这个模型里是怎么样的,总觉得要自己掌控的才能放心。具体到个人的信用评分,比如说我们给一个人信用打了700分。至于他为什么被打了700分,在逻辑回归里很简单可以看到变量的情况,但是在机器学习的boosting或者bagging里是没有办法去了解的,它所有的feature,所有的数据选择,都是机器去完成的。我们最终只要看模型的效果,也就是模型输出的违约率,我不用管它是怎么实现的。读秒系统上线两年的时间,我们的模型有过四个大的改版。被开发用来预测使用一系列信贷产品后的偿还行为的信用评分叫“基本评分”(generic score)。反应测试效果的ROC 曲线越往左上方突出,表示模型效果越好。我们发现,读秒早期的3.1版模型的ROC 曲线基本上是贴着“基本评分”的。而现在第4个版本的模型比3.1版本准确率要高将近50%。在我们新版本的三个模型(M1, M2, M3)中,模型表现最好的M3中,我们就是既用了传统的逻辑回归,也结合用了人工智能的方法。所以我们不会把传统的风控办法都丢掉,我们只是要去拥抱新的技术。做客户系统中的一颗芯片PINTEC的商业模式,是要为机构客户提供解决方案。我们的服务一端连接的是一些商业机构,像携程、中国电信、小米这样的互联网或其他行业巨头,我们可以帮助这些公司为用户提供多一种金融服务的选择。而且读秒信贷决策系统不仅仅应用在线上消费环境中,目前也渗透到线下场景之中。PINTEC服务的另一端连接金融机构,我们会为金融机构带来线上线下的客户,帮他们做基于大数据和人工智能的风控管理,还会延展到前端的获客,中端的客户留存,和后续的等一系列过程。我们可以帮助金融机构为更广泛的用户群体服务,这是一些传统机构所不具备的。PINTEC提供的是类似芯片一样的“嵌入式”服务,将我们自己的能力封装成一个金融科技的芯片,嵌入到合作伙伴的业务流程之中,帮助他们实现,这也是我们提出的POWERED BY PINTEC服务战略的内涵。平安集团杨峻:这一商业模式是成立的,但不能做成暴利机构《云深度学习平台架构与实践的必经之路》 精选四罗尔斯-罗伊斯联手谷歌云助力无人驾驶船舶变为现实罗尔斯-罗伊斯日前宣布与谷歌签署协议,进一步开发智能感知系统,用以提升现有船舶的安全性。该系统是实现无人驾驶船舶的关键。双方在近日于瑞典举行的谷歌云峰会上签署该协议,这据说是船舶行业的首创。根据协议,罗尔斯-罗伊斯将利用谷歌云机器学习引擎,进一步训练其基于人工智能的分类系统,用于探测、识别和跟踪船舶在海上可能遇到的各种物体。谷歌云北欧区销售总监Eva Fors表示:“通过挖掘机器学习所带来的可能性,罗尔斯-罗伊斯能够将最新技术进步与自身的行业洞见相结合,为船舶行业带来显著提升和优化。”与图像和语音搜索等诸多谷歌产品一样,谷歌云机器学习引擎也采用基于神经网络的机器智能软件。机器学习是一套算法、工具和技术,能够模拟人类学习来解决具体问题。机器学习方法用于分析现有数据集,旨在学习识别数据训练模式,对以前未见的数据做出预测。罗尔斯-罗伊斯将使用谷歌云软件来创建定制机器学习模型,以更好阐释其创建的大型和多样化船舶数据集。罗尔斯-罗伊斯还将利用自身在船舶领域的专长来准备数据,训练模型,确保数据的相关性和充足数量,以建立数据的统计学意义。作为机器学习过程的一部分,模型的预测能力将在实际船舶应用中进行评估,从而得到进一步优化。通过云软件的应用,这些模型可以在世界任何地方开发和即时使用,用户可达数千人,从而实现大量(太字节)数据训练。随着无人驾驶船舶的普及,这一点将变得至关重要。从更长远的角度讲,罗尔斯-罗伊斯和谷歌有意在无监督和多模态学习方面开展联合研究。两家公司还将测试语音识别与合成是否能够成为船舶应用中切实可行的人机界面解决方案。双方还将利用谷歌TensorFlow等开源机器智能软件库,优化船舶上本地神经网络的计算性能。通过结合大量传感器数据以及自动识别系统和达等现有船舶系统提供的信息,智能感知系统将提升船舶的安全性、方便性和作业效率,让船员更加全面地了解船舶周围环境。来自全球数据库等其他来源的数据也将发挥作用。作为全国首家科技行业,未来也将充分利用其诸多资源优势,进一步带动众多相关产业向高、精、尖方向发展,为船舶市场发展提供强有力支撑。助力船企不断提升船海装备制造和相关服务的质量水平,相信无人驾驶船舶能为船舶业带来显著提升和优化。《云深度学习平台架构与实践的必经之路》 精选五至顶网CIO与应用频道 10月16日 评论分析:一、摘要与主要结论随着全球数字化转型的不断加速,全球云计算市场总体稳步增长,2015年以IaaS、PaaS和SaaS为代表的典型云服务市场规模达到522.4亿美元,增速20.6%,预计2020年将达到1435.,年复合增长率达22%。国内云计算整体市场在政策、产业、资本的互相驱动中,也得到快速发展和进步,2015年,我国公有云市场规模达到102.5亿元,预计到2020年,我国公有云服务市场规模将达到570.3亿元。尤其2016年以来,银行、、制造业、政企等传统领域业务逐渐迁移上云,用户也越来越关心不同云服务商不同云计算产品的质量与性能,以选择匹配自身的业务特征和资源需求的云服务。中国电信云计算研究中心“云眼”研发团队依设在北京研究院的集团级云计算重点实验室,在前几期国内主流公有云服务性能评测的工作基础上,以面向公众用户的公有云产品为对象开展了本次工作。本次评测从互联网厂商云、技术导向型创业云、和电信运营商云三大阵营中各选取一家具有代表性的云服务提供商(阿里云、UCloud、中国联通(行情600050,诊股)沃云),并针对中国电信天翼云3.0竞品对比的具体业务需求进行。其中,电信运营商阵营选择联通沃云,考虑到其与天翼云同期进入公有云市场,且较移动云有更多的行业应用。本工作开展时间为日至9月30日,开展地点为中国电信北京研究院,所选择的产品资源池分布为:阿里云的华北2可用区B,UCloud的北京二可用区B,中国联通沃云的廊坊基地A,中国电信天翼云3.0的贵州资源池。与“云眼”以往工作及和行业相似工作对比,本次评估有两个突出特点:第一,为了展现云基础设施对上层不同云业务的支持,引入了基于典型业务负载的场景评测。包括:网站承载场景,视频流媒体场景,大数据分析场景,图分析场景,电子商务场景。第二,针对外部重点竞争对手阿里云、UCloud、联通沃云,面向中国电信天翼云3.0,覆盖了业内最全系列的云主机产品规格。包括:基准规格(1U1G)、标准规格(4U8G)、中档规格(8U32G)、高档规格(16U32G),豪华规格(16U64G)。本期主要结论如下:(1)综合来看,UCloud和天翼云3.0属于第一阵营,阿里云表现一般,沃云综合能力最弱。(2)对于基于典型业务负载的分场景评估,天翼云3.0和UCloud业务承载综合能力最优,同时两者具有明显的差异化,其中天翼云3.0承载电子商务业务、视频流媒体业务性能较好,UCloud则承载图分析业务、大数据分析业务性能较好。阿里云虽然业内口碑和生态良好,但业务场景的承载性能表现一般,联通沃云最弱。(3)对于基于行业基准的单项性能评估,UCloud除了数据库综合性能稍逊于天翼云3.0外,在计算、存储、网络和操作系统方面的综合性能基本都是最优的。天翼云3.0除存储性能外,综合性能紧随其后,其中经确认天翼云为避免IO争抢而对存储性能进行了限制。阿里云、联通沃云分别次之。(4)云眼基于Z标准化的加权业务承载性能模型以及单项综合性能模型分别参见如下两图示:图1云眼基于Z标准化的加权业务承载性能模型图2云眼基于Z标准化的单项综合性能模型二、竞争态势与定性分析(一) 市场动态:云计算与大数据技术结合是目前云业务的趋势互联网投研平台爱分析公布企业级服务50强榜单,云服务成为企业服务50强的最大组成部分,合计估值1,181.5亿元,占上榜企业总估值的59.7%,UCloud、阿里云、腾讯云成为此企业级云服务商“三强”。听云发布《2016第一期云评测报告》从技术性能、服务易用性上等对12家云计算企业综合衡量,前三甲依然被阿里云,腾讯云,UCloud“包揽”。(1)阿里云 2016年8月举办的云栖大会上宣布推出人工智能ET,ET基于阿里云强大的计算能力,目前已具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。现场,ET展示了自己模仿马云说话的新技能。据了解,ET背后采用的是大数据AI技术。(2)青海联通联合华为技术有限公司、中兴通讯(行情000063,诊股)股份有限公司、武汉烽火通信(行情600498,诊股)份有限公司等16家国内知名企业构建了青海省沃云数据生态链联盟,共同助力青海省大数据信息产业的建设发展。(3)UCloud 8月22日,UCloud通过信息安全管理体系ISO 27001和云安全国际金牌认证CSA STAR,成为继阿里云后,国内公有云领域第二家获得此项国际权威认证的企业。(二)云行业市场产品分析1.阿里云:电商云和两个重点产品(1)电商云以天猫平台为实践基础,提供云主机之上的大数据运营,视频直播,以图搜图,客服机器人(行情300024,诊股)等多种服务 ,重点客户:亲宝宝,卡当,大麦。(2)金融云:提供金融公共云,和金融专有云两种模式服务,提供金融云PAAS,大数据平台等服务重点客户:网商银行、、、2.UCloud:金融云和电商云两个重点产品(1)金融云:传统银行,,,,打造混合云服务架构,支持多地灾备,符合银行,重点客户是,东方财富(行情300059,诊股)网,,浙江农信(2)电商云:中小型电商,跨境电商,社交电商,大型电商客户,针对不同客户提供混合云,海外通道,直播等服务,重点客户是贝贝网,有赞,什么值得买3.沃云:政务云、医疗云和制造云(1)政务云:协助**构建统一的IT支撑环境,为**机构提供基础云服务以及网络办公的软硬件条件 ,客户有河南信访局,内蒙发改委(2)医疗云:基于沃云基础服务,建立由医疗云、食品药物云+云医院、医疗云影像+药品云构成的,客户是广东食药局(3)制造云:为制造业提供高效的云运作平台,增强产业内部协调能力,为行业创新、内外部交流、信息公开与跨行业合作提供基础支撑 ,客户有爱立信 ,volvo4.天翼云网站天翼云目前按照政务云、医疗云、教育云等重点行业提供按行业的解决方案 ,重点客户有国际统计局,人民检察院,厦门卫生局,百度,搜狐 。建议门户网站增加行业定制解决方案。(三) 基于云平台的大数据的产品1.阿里云:行业解决方案中提供大数据产品,门户网站提供单一大数据产品销售(1)分析型公众趋势上新:(2)全网情报快速感知(3)千万站源、日增20亿网页,最快2分钟获取数据(4)热点主题多维分析(5)源站、专题、关键词、标签自由组合、多维分析(6)媒体传播深度解析(7)传播层级、情感趋势、、水军分析,深剖资讯热点2.UCloud:Hadoop基础能力提供(1)ATA数字营销大数据解决方案(2)高性能物理云主机方案,提升实时竞价速度并降低TCO(3)分布式缓存服务,保障竞价数据大容量低延时交换(4)大数据服务,提供灵活扩展Hadoop集群计算能力3.沃云:整体打包沃云和大数据服务能力(1)智慧保定:运营在联通沃云之上,包括政务云平台、数据交换共享中心、网上政务审批大厅、综合服务门户、智慧城市演示(2)青海联通在中国联通集团公司数据共享的基础上,推出风控产品、APP指数、终端指数、旅游指数、用户画像等多项应用产品,拥有成熟的电子政务云、智慧旅游云、智慧交通云、智慧医疗云等领域大数据应用综合解决方案4.天翼云 :目前提供较全的大数据产品(1)信贷评估用户信用分值评估、号码状态核查和用户身份验证(2)精准营销精准用户画像、网络行为分析、竞品分析及标签服务(3)咨询分析提供基于电信及互联网数据的各行业多类别的评估报告及专业咨询服务(4)PaaS提供大数据应用所需的计算、存储资源和数据汇集、处理、展现等服务三、云眼评测场景及指标(一)典型业务场景1.网站承载场景网站(Web)是互联网时代云服务商所承载的最基本业务形态,在云服务商提供的云服务中占有很大比重。网站承载场景模拟了用户登录社交网络并执行一系列操作的过程。这些操作主要包括:首页浏览操作,登录操作,个性化设置操作,发送聊天信息操作,添加好友操作,注册操作,退出操作,更新动态操作,接收聊天信息操作。主要过程是Faban负载产生器,根据预配置的网页迁移矩阵,向Web服务器发送请求。Web服务器使用Nginx,并支持目前流行的社交网络开源引擎Elgg。服务器向缓存服务器Memcached发送查询请求,Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。如果未命中,再向MySQL数据库中查询相应的数据。2.视频流媒体场景流媒体服务的普及使其预计占据互联网流量的主导地位。该场景用Nginx作为流媒体服务器来获取视频。客户端基于Httpperf流量生成器,请求不同长度和质量的视频。其中视频的质量分为4种:240p, 360p, 480p, 720p。在该场景中,以响应时间作为性能衡量指标,即响应的时间越短,视频流媒体场景的性能越好。3.大数据场景对于人类产生的大量数据,对其分析可以提取出很多有用的信息,比如说对用户进行个性化图书推荐。大数据分析场景是基于Hadoop,利用Mahout机器学习库提供的经典机器学习算法分析大规模数据集,该数据集是维基百科英文页面文章,利用机器学习算法将这些文章分类,最终分为:艺术,文化,经济,教育等25个类别。根据不同的云服务商将同等规模的数据集分类完成所用时间的不同,衡量其大数据场景的性能。处理时间越短,其性能越好。4.图分析场景图分析是一种基于图的数据挖掘业务,涉及并行的分布式图形处理。该场景依赖于Spark框架,执行大数据集的分析,该数据集是Twitter用户网络图。通过在Spark上运行GraphX执行分布式图处理运算。执行PageRank算法分析出用户网络图中每个用户的重要性(影响力)。该场景的性能是通过完成时间体现,即处理用时越短,该场景的性能越好。5.电子商务场景通过多台客户机向服务器发出Http请求,请求调用Web服务器上的网页文件,这些文件从数千字节到数兆字节不等。在相同的时间里,服务器回答的请求越多,就表明服务器对客户端的处理能力越强,系统的Web性能就越好。最大并发用户数值根据结果进行调整,为了确保稳定性,针对不同的并发用户数值,都进行三轮测试,只有当三轮测试的TIME_GOOD=95%,TIME_TOLERABLE=99%时,此时的并发用户数值是我们所需要的压力值。(二)行业基准性能1.计算性能云眼监测系统进行计算性能评估的第一个基准是来自EEMBC的CoreMark,它通过分析处理器的管线架构对其效率进行评分,并通过执行三个主要任务来测试常用运算的执行效率。目前CoreMark已成为量测与比较处理器性能的业界标准基准测试,CoreMark数字越高,意味着更高的性能。有些业务场景需要进行复杂的运算,比如推荐算法中通常含有大量的矩阵计算,模拟证券交易或者交通状况则可能会用到蒙特卡罗模拟。云眼监测系统模拟实现了五类主流的复杂运算A: 快速傅里叶变换FFT;B:松弛迭代法计算线性方程组的解SOR;C:蒙特卡罗模拟MC;D:稀疏矩阵相乘Sparse;E:矩阵分解LU。并将上述复杂运算实现成为如下四种场景进行评估:场景1: Java语言版小型运算;场景2: C语言版小型运算;场景3: Java语言版大型运算;场景4: C语言版大型运算。并不是CPU核越多越好,内存带宽对提升系统性能越发重要,尤其对于访存密集型业务。因为如果不能足够迅速地将内存中的数据传输到处理器中,若干处理核心就会处于等待数据的闲置状态,而这其中所产生的闲置时间不仅会降低系统的效率,还会抵消多核心和高主频所带来的性能提升因素。云眼监测系统基于专业内存测试基准HPCC进行评估。2.网络性能云眼监测系统对于网络性能的评估首先涵盖了IP层的网络延迟和传输层的网络带宽。在此基础上,从业务层的视角,把业务使用网络区分为三种模式进行评估:(1) RR模式:多次Request/Response,比如数据库connection上的多次交易transaction;(2) CRR模式:多次Connect/Request/Response,比如来自不同client的HTTP请求;(3) STREAM模式:批量数据传输,比如FTP文件下载等。3.存储性能频繁的IO模块很有可能成为整个业务的性能瓶颈,因此存储IO性能对云上业务至关重要。对于存储IO的性能评测,云眼监测系统区分了读和写两种基本操作,随机和顺序两种访问模式,以及带宽、延迟、IOPS吞吐三种常见指标进行评估。4.操作系统性能如何评价用户使用操作系统的性能呢?云眼监测系统模拟了操作系统上常见的六类操作进行评估:A:字符串处理速度;B:系统调用速度;C:文件拷贝速度;D:管道通信速度;E:进程创建速度;F:脚本执行速度。5.数据库性能关系型数据库广泛应用于银行交易、网站购物、余票查询等业务中,例如MySQL/Oracle/PostgreSQL等,而数据库的事务吞吐率是衡量数据库性能的主要指标(单位:transactions per second)。四、云眼评测数据分析云眼本次评估的全系列产品具体规格和配置如表1所示,产品资源池分布如表2示。表1 云产品全系列规格配置表表2 产品资源池分布表(一)网站承载场景图3显示了被测云服务商在网站承载场景下的性能数据,单位是Operations Per Second,即在相同的负载下,每秒执行的网页操作数越多,则代表网站承载场景的性能越好。据图可以看出,对于各规格产品的网页承载业务,天翼云3.0和UCloud性能最佳。但是在基准规格,阿里云和UCloud表现最好。综合来看,天翼云3.0和UCloud,在负载相同的情况下每秒能够处理的网页操作数量最多,阿里云和沃云较弱。图3 每秒处理的网页操作数量(二)视频流媒体场景图4显示了被测云服务商在视频流媒体场景下的性能数据,单位是Seconds。据图可以看出,对于基准规格(1U1G)产品的视频流媒体承载业务,阿里云性能最好;对于其他规格产品的视频流媒体承载业务,阿里云、天翼云3.0和UCloud属第一阵营。同时沃云与阿里云、天翼云3.0和UCloud相比,在多种规格的云主机上,有1秒左右的差距,在基准规格(1U1G)的云主机上差距达到2秒。图4 视频平均播放延迟(三)大数据场景图5显示了被测云服务商在大数据分析场景下的性能数据,单位是Minutes。据图可以看出,对于各规格产品的大数据分析业务,除阿里云处理时间较长外,其他各家性能相当。其中,天翼云3.0在基准规格(1U1G)表现不佳,但是在其它规格产品上处理用时靠前。UCloud在该场景中表现最好,其在各个规格上处理用时均最短。图5 机器学习算法的运行完成时间(四)图分析场景图6显示了被测云服务商在图分析场景下的性能数据,单位是ms。据图可以看出,在基准配置(1U1G),阿里云和UCloud表现较好;在较高配置的云主机,特别是8U32G及以上,天翼云3.0表现最佳,沃云和UCloud较之稍弱,阿里云在该场景表现最差。同时可以看出,不同的云服务商,其基准配置和其它配置的云主机在该场景上处理用时差异较大。但是常规配置及以上,处理用时差异较小。图6 图分析算法的运行完成时间(五)电子商务场景对于电子商务业务,天翼云3.0支持最大数量的并发用户数,沃云在该场景下业务吞吐最差,仅为天翼云的一半。图7 业务支持的最大并发用户数(六)计算性能1.处理器核心性能下图8显示了被测云服务商随机分配基准云主机的CoreMark分数,阿里云同规格所分配云主机得分偏低。我们也通过人工查看虚拟机CPU主频的方式验证了此数据。图8处理器核心性能Coremark得分2.复杂运算性能图9显示了被测云服务商在前述四种场景下的复杂运算性能,单位是mflops (Million Floating-point Operations per Second),联通沃云和天翼云3.0略胜一筹。为了展示某一种特定复杂运算的性能,图10展开了场景4: C语言版大型运算的具体数据。由于不同运算的性质有差异,可能存在不同运算结果有翻转的现象。比如天翼云3.0的松弛迭代法计算线性方程组的解SOR运算速度不如沃云,但是稀疏矩阵相乘Sparse却反超。图9分场景复杂运算性能图10场景4主流复杂运算性能图11-18展示的其它四种规格的复杂运算的性能和其场景四展开情况,规格为4u8g的虚机的复杂计算性能,天翼云3.0和阿里云略胜一筹,UCloud表现最弱;规格为8u32g的虚机的复杂计算性能,天翼云3.0和沃云表现靠前;规格为16u32g虚机的复杂计算性能,天翼云3.0和沃云略胜一筹;规格为16u64g的虚机复杂计算性能,天翼云3.0和沃云表现较好。图11分场景复杂运算性能
图12场景4主流复杂运算性能图13分场景复杂运算性能
图14场景4主流复杂运算性能图15分场景复杂运算性能
图16场景4主流复杂运算性能图17分场景复杂运算性能
图18场景4主流复杂运算性能3.内存带宽性能图19显示了被测云服务商同配置基准云主机的内存带宽性能(4u8g),单位是GB/s。其中,阿里云访存性能略高2~3GB/s。图19内存带宽性能图20~22显示的是被测云服务商在其他规格(如8u32g、16u32g、16u64g)同配置基准云主机的内存带宽性能。UCloud的访存性能略低3~4GB/s(规格8u32g),UCloud的访存性能略高3~4GB/s(规格16u32g),沃云的访存性能略高3~4GB/s(规格16u64g)图20内存带宽性能图21内存带宽性能图22内存带宽性能(七)网络性能1.网络延迟网络延迟是网络性能首先需要关注的指标,网络延迟通常使用Ping工具进行测量。网络延迟分为外部延迟和内部延迟,由于外部延迟会受测量点地域、带宽、接入网环境等诸多因素影响,这里以被测云服务商的内部网络延迟为主要考察对象。云眼监测系统在被测云服务商相同地域、相同可用域以及相同VPC中随机供应两台业务虚拟机,发起100次互Ping并统计最小延迟(Min)、最大延迟(Max)、平均延迟(Average)和延迟标准方差(Std Dev),单位是ms。如图23所示,其中青云的内部网络延迟较平均水平低一个数量级; UCloud不但延迟低,而且波动小;联通沃云内网延迟最高,且波动最大。图23网络延迟2.网络带宽如果说网络延迟是IP层需要关注的指标,那么网络带宽则是传输层需要关注的指标。在与前述网络延迟评测相同的环境下,云眼监测系统测量了内网的TCP最大带宽,单位是Mbit/s。被测云服务商天翼云3.0和阿里云提供千兆的内部网络带宽,而沃云和UCloud拥有万兆的内部带宽。另外经确认,天翼云进行了内网限速。图24网络带宽3.网络吞吐率图25给出了被测云服务商在前述RR、CRR、STREAM三种不同业务使用模式下的网络吞吐率,其中RR模式和CRR模式下的单位是transactions/sec,STREAM模式下单位: Mbits/sec。由此可见,网络带宽大并不一定业务吞吐高,对于数据库和Web访问业务,天翼云3.0和UCloud吞吐性能最好,沃云吞吐性能最差。图25网络吞吐(八)存储性能目前主流的云服务商都提供普通云硬盘和SSD高速云硬盘两种服务,我们以普通云硬盘为主要对象。在本报告被测的主流云服务商中,UCloud、天翼云3.0和联通沃云使用了普通云硬盘,阿里云则使用高效云硬盘。存储性能首先划分为读和写两种基本操作,随机和序列两种访问模式,以及带宽、延迟、IOPS吞吐三种常见指标进行了排列组合和编号,如表3所示。其中,带宽单位:KB/s,延迟单位: usec,IOPS单位:Operations Per Second。表3 存储指标排列组合表存储IO吞吐(以4u8g为例)如图26示,对于普通云硬盘,UCloud IOPS吞吐显著,尤其对随机访问进行了优化,阿里云次之。另外经确认,天翼云为了避免IO争抢,对存储性能进行了限制。图26普通云硬盘IOPS存储IO带宽如图27~28示,考虑到量纲不同,将A序列写带宽、D序列读带宽与G随机写带宽、J随机读带宽区分。可见IO带宽越大越好,沃云顺序访问带宽较高,UCloud随机访问带宽最高。图27~28普通云硬盘存储带宽同样,存储IO延迟如图29~30示,可见沃云顺序访问延迟较低,UCloud随机访问延迟较低。图29~30普通云硬盘存储延迟图31-50显示的是其他几种规格(如1u1g、8u32g、16u32g、16u64g) 带宽、延迟、IOPS吞吐三种常见展示情况。图31所示:规格为1u1g的UCloud IOPS吞吐显著,尤其对随机访问进行了优化,沃云吞吐次之,UCloud顺序访问延迟最低,天翼云3.0随机访问延迟较低,;图36所示:规格为8u32g的UCloud IOPS吞吐显著,阿里云、沃云和天翼云吞吐一般,UCloud随机访问延迟最低,沃云次之,天翼云3.0顺序访问延迟较高;图41所示:规格为16u32g的UCloud IOPS吞吐显著,沃云次之,UCloud随机访问带宽较高,阿里次之;图46所示:规格为16u64g的UCloud IOPS吞吐显著,沃云次之,UCloud随机访问延迟最小,沃云顺序访问延迟较低。图31普通云硬盘IOPS图32~33普通云硬盘存储带宽图34~35普通云硬盘存储延迟图36普通云硬盘IOPS图37~38普通云硬盘存储带宽图36普通云硬盘IOPS图39~40普通云硬盘存储延迟图41普通云硬盘IOPS图42~43普通云硬盘存储带宽图44~45普通云硬盘存储延迟图46普通云硬盘IOPS图47~48普通云硬盘存储带宽图49~50普通云硬盘存储延迟(九)操作系统性能云眼监测系统基于Centos 7.1(64位),模拟了前述6类常见的系统操作。图51是被测云服务商操作系统性能的综合得分,沃云性能偏弱。六种常见操作的拆分数据(以16u32g为例) ,综合性能高的,不一定所有的所有的系统操作都是最快的,比如详见图52~53,UCloud综合分数最高,但是天翼云3.0的脚本执行速度反而是最快的。图51 操作系统综合得分图52~53 六种常见系统操作执行速度(十)数据库性能1.关系型数据库性能云眼监测系统以流行关系型数据库MySQL为对象,对被测云服务商云主机上运行关系型数据库的性能进行了评测。MySQL数据库的吞吐率相差不大,天翼云3.0最快,沃云最慢。图54 关系型数据库性能云眼产品的门户及联系方式云眼系列其他子产品介绍http://cloudinsight.ctbri.com.cn/cloud/《云深度学习平台架构与实践的必经之路》 精选六“你是AI吗?”“AI是什么?”“人工智能啊。你是不是人工智能机器人?”“人工智能机器人的开发现在还在初级阶段吧?”“那你是啥?”“我是开心时陪你笑、伤心时给你依靠的萌妹子呀!”这是发生在人类与微软小冰之间再普通不过的一个对话。如果不是事前知道小冰是聊天机器人,恐怕很难一开始就能当即分辨出交谈对象的身份。就如微软小冰自诩的那般,她就像一个天真无邪的“萌妹子”,面对用户的“骚扰调戏”,时常卖萌打趣,展现自己的社交“天赋”。相较之下,DeepMind开发的AlphaGo则以绝对理性的姿态,淡定自若地向世人呈现自己作为机器物种的智慧之极。这也正是它最令人唏嘘之处:一个汲取技术、摒弃情感元素的智能机器人,甫一出现,便颠覆了人类既往的全部智慧、经验与认知。这种颠覆不仅仅存在于某个单一领域。事实上,在医疗、教育、助理、购物等日常生活的方面,人工智能技术所塑造的绝对理性机器人正在加速渗透。在此过程中,不乏科技巨头争霸,亦不乏新兴创业者的身影。无论是巨头还是创业者,都争先恐后地生怕错漏了手中这一捧潮水。“我们处在人工智能的时代,我们相信这能打造更好的生活。我们所面临的各个领域都有很多未解之谜,科学家通过人工智能,可以做到更多的事情。” Alphabet执行董事长施密特就此指出。不管你是迎迓、接受还是厌恶、抗拒,科技史上的人工智能黄金时代正在到来。日,软银董事长孙正义在世界移动大会(MWC)发表演讲,再次表达了他对“奇点”的展望,“这一天的到来就意味着电脑,也就人工智能要超过人脑。今后30年里,这就会成为现实。”理智与情感“我去,这也能行?!”在听说时下国外直播网站Twitch上最火的GTA5主播是个AI时,一位用户发出了这样的感叹。《GTA5》(中文名《侠盗猎车5》)是一款开放式动作冒险游戏。在Twitch中,辟有专门直播GTA5战况的板块,且极为热门,主播数量极大。然而近日,一名诞生尚未满月、只会开车且车技极差(例如经常将车开到沟里)的“小鲜肉”,单次直播收获了超过30万人次观看的成绩,在GTA5区内观众前列。这个“小鲜肉”名为查尔斯,是一个使用神经网络进行深度学习以逐渐掌握自动驾驶车辆的人工智能程序,最近被工程师放入游戏《GTA5》中进行驾驶训练。不过目前,查尔斯还是一名“马路杀手”。从直播来看,查尔斯极爱逆行,在狭窄道路超车,无视石头、水泥等障碍物。在幸灾乐祸的观众面前,查尔斯的驾驶技术还有待成长。不过如今,更加熟练的人工智能机器人已能够在实际生活中尝试驾驶技术。利用人工智能大脑,百度、谷歌、苹果等公司已经开始测试无人驾驶汽车,苹果公司近日已完成三部雷克萨斯RX450h SUV上有关自动驾驶软件的测试,百度更是宣称在2020年前将逐步开放高速公路和普通城市道路上的全自动驾驶。在更多领域,技能性人工智能也在发挥不同的作用。无论是微软的Cortana(小娜)、苹果的Siri还是亚马逊的Alexa,或是IBM的Watson,都能够在一段时间内帮助人类完成任务,体现出功能性价值。近期热门的各类智能音箱,其中便搭载了人工智能语音机器人,用户可以向智能音箱就天气、交通、美食等方面提问,音箱内的人工智能机器人当即能够作答。不过,严格来说,《GTA5》的查尔斯还不能算一个真正的主播,因为它从未与观众进行任何互动。如果一定要归类的话,查尔斯应该算是AlphaGo类的人工智能机器人,并且处于极为初级的学习阶段。相较之下,微软小冰更加贴近与人类之间的互动,向更偏重情感力、创造力的方向发展。“小娜的设计初衷是去做事情,小冰则是与人建立长久的关系。一个人每天要讲几千句话,但并非所有话都一定是去做什么事情,而是为了交流。”此前在接受媒体采访时,微软公司全球执行副总裁沈向洋指出,“现在并没有数字机器能够与人类建立长久关系,就是因为产品没有做到这个地步,令人类对机器有信任、机器对人类有理解。”因此,小冰在很长一段时间里,除了与用户嬉笑怒骂之外,看起来是“无用”的。直到2015年底入职东方卫职播报天气;2016年12月,小冰并入QQ聊天功能“厘米秀”,与年轻用户进行互动。最近,小冰还放出大招,在对1920年后的519位现代诗人、上千首诗反复学习10000次之后,出版了个人诗集《阳光失了玻璃窗》。“人工智能的计算能力已经被证明了,未来最重要的是脑神经科学。”沈向洋指出,“智能的起源在于大脑,但人类对大脑结构的理解如今少之又少,脑神经科学发展缓慢。未来脑科学加上人工智能,从科研角度而言,是最令人兴奋的,其中就包括情感这件事。”通用AI仍遥远然而,无论是走情感路线还是理智路线,通用型人工智能尚属遥远。自1956年的夏天诞生于达特茅斯会议之后,人工智能业已经历三次浪潮。第一次浪潮中,人们惊呼着“人工智能来了”、“再过十年机器会超越人类”,陆续发明了首款感知神经网络软件,证明了数学定理。第二次,随着上世纪80年代Hopfield神经网络和BT训练算法的提出,出现语音识别、语音翻译计划等以及日本提出的第五代计算机。然而,由于未能真正进入人类日常生活之中,前两次浪潮最终归于沉寂。如今第三次人工智能浪潮的兴起,得益于深度学习技术的突破。该技术是一种需要训练大型神经网络的“深层”结构,且每层可以解决不同方面的机器学习。其特点是,无需再依赖于硬件代码和事先定义的规则,而是依靠模拟人类大脑的神经网络系统,从案例和经验中习得算法。“人工智能的不同技术应用处于不同阶段。其中,语音识别处于推广和普及阶段,三至五年之后,计算机的语言识别能力会超过人类。10年之内,视觉方面的图像识别也会发展得非常好。无人驾驶汽车领域,已经能够实现一些类似能够分析过去的人工智能功能。具有有限记忆的人工智能,正处于实验室研究阶段。”沈向洋指出,“然而,具有自我意识的人工智能,离我们还有很远的距离。”神经网络、深度学习等技术架构早已存在多年,它们之所以在近5至10年产生飞跃,得益于数据、硬件和算法的改变。根据IDC数字领域报告显示,至2020年,每年数据量将达到44ZB(1ZB合1万亿G),5年内年复合增长率将达到141%。随着数据量的增长,神经网络便会更有效率,机器语言可解决的问题数量也在增加。硬件能力的提升,增强了神经网络产生结果的速度与准确率。有别于传统基于数据中心架构的CPU,GPU与并行架构的使用能够更快训练机器学习系统,通过使用图像芯片,网络能够更快迭代,以确保训练的准确性;诸如微软和百度使用的特制硅FPGA,能够令深度学习系统做出更快推断;超级计算机的计算能力,则可帮助探索深度学习的进一步可能性。在更加丰富的数据量、更优质的硬件能力的前提下,如今的研发更多是面向算法,例如伯克利的Caffe、谷歌的TensorFlow和Torch这类开源框架。尽管取得了巨大的技术进展,以深度学习为驱动力的人工智能技术更多仍停留在分类、聚类和预测阶段,如图像、文本、语音的识别、对比寻找相似项目,或基于相关数据进行预测等。然而,能够完全复制人类独立学习、决策能力等在内智慧的通用人工智能(或说强人工智能),还仅仅停留于理论想象之中。它的瓶颈更多体现在计算能力不足上。目前,类似全脑模拟的技术已经被用于实现通用人工智能的目标,然而其所需的计算力远远超出当前的技术能力。未来随着量子计算机取得突破,该瓶颈方才有望打破。中科院5月3日宣布,我国科学家成功构建世界首台超越早期经典计算机的光量子计算机,并实现了十个超导量子比特的高精度操纵,打破此前美国保持的记录。量子计算是利用量子相干叠加原理,在原理上具有超快的并行计算和模拟能力,可以为经典计算机无法解决的大规模计算难题提供有效解决方案。中国科学技术大学教授潘建伟团队利用自主发展的综合性能国际最优的量子点单光子源,通过电控可编程的光量子线路,构建了针对多光子“玻色取样”任务的光量子计算原型机。但光量子计算机在人工智能的广泛应用,仍有很长的一段路要走。科技巨头争霸世界科技的每次飞跃,离不开科技巨头的引领。过去20年,谷歌的搜索算法从1998年的PageRank演变至2015年的RankBrain,从基于链接的网站排名转变为采用人工智能驱动的查询匹配系统;云技术方面,谷歌于2016年5月公布了TPU ASIC(专用集成电路),并在近日举办的Google I/O大会推出Cloud TPU,以支持AI的神经网络训练及推理。在人工智能收购战中,谷歌同样当仁不让,其中最为著名的便是2014年1月谷歌收购英国人工智能公司DeepMind。该次收购不仅提升了Alphabet的神经网络功能,并将其应用于各种人工智能驱动的项目中,包括AlphaGo。亚马逊同样积极在公司内部和云端使用机器学习技术。2015年4月,亚马逊发布Amazon ML,能够为毫无经验的客户提供云数据的机器学习功能。2016年5月,亚马逊开源DSSTNE,并通过改善搜索、定制化产品推荐以及语音识别,改善端到端的用户体验。苹果公司同样是人工智能领域活跃的收购商。被其收入囊中的公司,包括Vocal IQ、Perceptio、Emotient、Turi以及Tuplejump等。在收购Vocal IQ及Perceptio的同时,苹果公司挖到英伟达CUDA库以及GPU加速软件项目负责人。在此之前,公司最初的人工智能成功之一是Siri,它也是首款嵌入移动技术的虚拟助手。微软在试图将人工智能大众化。记者了解到,微软公司的人工智能研究团队人数超过5000人,关注于改变人类与机器互动的体验。同时,微软正在积极将融合人工智能的功能嵌入公司核心服务中,并在对话计算、自然语言处理等方面取得进展。通过进一步打造基于GPU和FPGA的微软智能云Azure,为机器学习提供动力和速度。IBM一直是人工智能领域的先驱。过去10年内,IBM在认知计算方面拥有超过1400项专利,硅/纳米技术上有7200项专利。其取得的成就不仅包括上世纪90年代的深蓝,还有2011年的Watson。目前,Watson的应用包括病患治疗分析、基于Twitter数据的、零售行业的消费者行为分析及对抗网络安全威胁。人工智能的发展,芯片至关重要。日,软银公司宣布完成对英国芯片设计公司ARM的收购交易,约合320亿美元。中国企业正在拼命追赶。5月4日,百度董事长李彦宏通过内网发布全员信,希望百度从全球最大的中文搜索引擎彻底转型人工智能科技公司。将人工智能作为公司发展的战略转型方向,这称得上是拼尽全力了。标签:互联网金融|
P2P监管相关报道独家视角丨客观冷静看待市场,无需大惊小怪独家视角丨贷款的巨大市场:一二线城市独家视角丨4个多月吸金近8亿 成P2P网贷死亡标本独家视角丨央行警示P2P风险 互联网金融两条红线不能碰独家视角丨75家机构发起成立热门评论更多评论(0)请登录后发表回复。还没有帐号立即注册《云深度学习平台架构与实践的必经之路》 精选七原标题:研究院开始新一轮,有才你就来~盼望着,盼望着苏宁金融研究院又开门招新啦薪资和福利待遇极具竞争力请看招聘岗位及任职要求1、宏观经济研究中心(研究员)工作地点:北京招聘人数:1-2名岗位职责:(1)跟踪研究国内外宏观经济形势,对国家宏观政策导向进行前瞻性研判;(2)跟踪研究、汇率、、等货币政策热点问题;(3)跟踪研究全球大宗商品价格波动、地缘**风险、区域重大突发事件等,提出宏观策略;(4)聚焦国内经济转型升级、五年发展规划、体制机制改革、中国制造2025、中央定期重要会议等宏观经济热点问题研究;(5)根据集团业务发展需要或外部合作需要,开展相关专题研究。任职要求:(1)国内外知名院校金融、经济等相关专业硕士(全职)及以上学历,博士优先;(2)具有1-3年工作经验,具有证券(或)公司、银行等宏观经济研究岗、监管机构、学术机构和其他研究机构等工作经历者优先;(3)熟练运用办公软件,具备优秀的数据处理、分析、研究能力,具有良好的文字功底,能独立撰写研究报告,有相关研究成果或研究经历者优先;(4)有较强的逻辑思维能力、学习能力及沟通能力,具备团队合作精神。2、互联网金融研究中心(研究员)工作地点:北京招聘人数:1-2名岗位职责:(1)跟踪研究国内外、网络、、、、互联网金融担保等业务模式,对其特点、问题、趋势等进行深入分析,追踪其动态演变过程;(2)跟踪研究国内外新兴的;(3)跟踪研究互联网金融与各产业广泛融合的机制和模式,探索互联网金融与传统金融的融合途径,探索研究互联网金融运营模式,研究互联网金融“普惠”效用的发挥机制;(4)对国内外金融发展趋势进行前瞻性研判;对金融业发展状况、竞争态势、市场走向以及新兴业务进行动态研究;(5)根据集团业务发展需要或外部合作需要,开展相关专题研究。任职要求:(1)国内外知名院校硕士(全职)及以上学历,金融、经济等相关专业优先;(2)具有1-3年工作}

我要回帖

更多关于 手机密码图案大全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信