2016双十一峰值最高值是25万笔/秒的支付数量,导致阿里云出现短暂的宕机,我想问问日常阿里云的交易数有多少

今天,谷歌的服务经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响.此次事件的原因深究起来需要进入互联网络那深邃的.黑暗的角落.我是CloudFlare公司的一名网络工程师,在帮助谷歌从此次宕机中恢复回来提供了一臂之力.下面就是事情发生的过程. 大约在太平洋标准时间号下午6:24分/时间标准时间号凌晨2:24分,CloudFlare的员工发现谷歌的服务中断了.我们使用谷歌的电子邮件等服务,所以,当它的服务不正常时,办公室的人会很快发现.我
这篇文章主要介绍了PHP脚本内存泄露导致Apache频繁宕机解决方法,本文的原因是因为MaxRequestsPerChild参数没有配置正确,配置MaxRequestsPerChild后解决了本文中的问题,需要的朋友可以参考下 在部署一套内网测试环境时,频繁宕机,开机后不断的吃内存,重启apache之后内存占用会不停的上涨,直到swap用完,直到死机,由于是内网环境,服务器并发和压力都很小. 查看apache错误日志,报大量类似错误: [Tue Feb 14 14:49:28 2012] [wa
周二晚上,在美国2012年总统大选揭晓的时刻,微博网站Twitter遭遇了有史以来最大的访问冲击,服务的负载量陡增,但却没让用户感到丝毫的反应迟钝--一些Twitter的开发人员把这归功于公司把后端软件从Ruby迁移到Java的正确决策. 根据Twitter公司负责架构的副总工程师Mazen Rawashdeh在博客上透露的信息,周二在太平洋时间的晚上8:11分到9:11分期间,Twitter用户平均每秒钟发布9965条信息. Rawashdeh写到,在8:20分里的有一个一秒里,Twitter
在9月13日周五早晨,Amazon Web Service(AWS)在美国东一区的服务再次出现宕机,由于这一地区是整个Amazon最大.时间最长久并且业务最繁忙的地区,这次宕机使包括Heroku.Github和CMSWire在内的一大批主流应用服务中断,还影响到了其它许多Amazon的客户. 就在最近这次宕机事件发生数日前,关注云端服务的评论者Ben Kepes还撰文写道:&每次AWS的宕机事件,看起来都是由于东区导致了服务故障.&Kepes还引用了分析师René Büst的一段文字,
据国外媒体报道,北京时间周日傍晚5点,Twitter出现宕机情况,但目前无法确定是否与世界杯有关. 据最新消息,在北京时间周日晚6:15,Twitter已经恢复大部分功能,其官方博客上的公告表示:&由于网络服务中断,我们全站出现了无法访问的问题.我们正在解决这一问题.一旦有最新消息,我们将及时公布.&
北京时间8月9日上午消息,据国外媒体报道,Twitter和Facebook等社交网站本周四发生宕机事故,导致全球数百万用户无法访问.有迹象显示,针对一名格鲁吉亚博客的网络攻击是引发此事件的主要原因. 到本周五为止,Twitter仍受到这一攻击的影响,一些用户仍无法登录Twitter网站.而Facebook已从事故中恢复. 旧金山非盈利机构Packet Clearing House研究主管比尔·伍德考克(Bill Woodcock)表示,美国当地时间周四早间(北京时间周四晚至周五凌晨),互联网上爆
Auth0是一个&身份即服务&创业公司,同时也是重度的云服务用户.对于他们来说,服务中断意味着大量用户托管应用无法登陆,因此可用性对于他们来说至关重要.近日,Auth0工程主管JoseRomaniello分享了他们可以豁免大范围MicrosoftAzure宕机的跨提供商多云架构. 以下为译文 Auth0是一个&身份即服务&创业公司,它可以让用户忽略底层基础设施,为移动.网络.本地等任何类型堆栈上的应用提供身份验证.授权及单点登录功能. 对绝大部分应用来说,身份验证都
在 iPhone 3G 正式开始发后几小时后,由于大量 iPhone 3G 连接到 iTunes 服务器上激活,在最初的几个小时 iTunes 服务器能够间歇性激活 iPhone 3G ,然后就彻底宕机罢工了.宕机造成了大量的激活任务积压,数千位顾客被迫在店门外排队等待&现场激活&.但终于排队人数远远超出了预期.苹果和 AT&T 店被迫建议已经购买的顾客带回家自己通过 iTunes 激活. 几小时后,苹果证实激活服务器宕机,并且正在处理中,建议已经购买了 iPhone 3G 的
据国外媒体报道,在推出新功能Twitter Places后数个小时,Twitter网站因负载过大而宕机一段较长的时间. Twitter周一推出Twitter Places功能,该网站用户将可以在消息中加入位置标签,标明发布者所在的具体位置,而人们可以搜索来自某个地点的所有Twitter消息. Twitter博客一开始称,网站由于&计划的网站维护&而不能登录,但随后表示本次服务中断是由于&时间线缓冲新方法的升级失败&. 随后,Twitter称,网站可能需要到北京时间6
图为必应显示的出错页面 据国外媒体报道,微软搜索引擎必应于美国当地时间周四晚间发生宕机事故,整个宕机时间至少达45分钟.不过必应服务已于美国太平洋时间12月3日19:10(北京时间12月4日12:10)恢复. 微软通过Twitter确认了这一宕机事故,并表示正在调查事故原因.微软在线服务部门高级副总裁塞亚·纳德拉(Satya Nadella)随后在必应官方博客上对事故原因进行了解释. 纳德拉表示,必应此次宕机是由于内部测试中服务配置的改变,这一改变引起了不幸的.事先没有预料到的后果.问题被发现后
北京时间9月22日早间消息,本周五,RIM黑莓服务再次出现大规模宕机,导致欧洲和非洲的许多用户受到影响.RIM CEO索斯滕·海因斯(Thorsen Heins)随后很快做出了道歉. 海因斯表示,此次黑莓服务的宕机持续了最多3个小时,有6%的黑莓用户受到影响.这意味着,有370万用户无法使用黑莓Messenger服务.这一服务宕机没有影响普通的语音通话和短信,仅仅只对黑莓Messenger.电子邮件和互联网接入产生影响. 海因斯没有公布宕机的具体原因,而RIM很可能仍在继续调查.RIM一名发言人
据国外媒体报道,社交聚合网站FriendFeed周四宕机后,只有很少的用户通过Twitter信息报告了这一状况.业内人士认为,该网站有可能就此关闭. FriendFeed周四发生宕机,访问该网站时会出现&500内部服务器错误&(500 Internal Server Error)的提示信息.此后半小时内,只有50条有关这一事件的Twitter信息.业内人士表示,对于FriendFeed这样规模的网站而言,宕机后只出现50条Twitter信息说明用户已经不再关注该网站. Facebook
据国外媒体报道,谷歌一名员工今天在Google Groups上发布消息称,Google App Engine遭遇&数据仓库操作延迟增加.错误率上升等故障.& 上述员工称,Google App Engine从美国太平洋时间上午6:30左右开始出现故障,公司正在调查故障原因.数分钟后他又发布消息称,Google App Engine将进入&非计划维护模式&. 这次故障持续了约6小时.对于象Google App Engine这样的服务,宕机6小时是&一段很长的时
据国外媒体报道,从美国东部时间1月20日6:40(北京时间1月20日19:40)开始,Twitter网站无法访问.Twitter主页显示,用户发布的消息过多,已超出Twitter的处理能力. Twitter的应用程序接口(API)同样出现问题,导致数千第三方应用和服务无法正常工作.本月到目前为止,Twitter的网站运行情况良好,正常工作时间达到99.89%. 美国东部时间1月20日7:25(北京时间1月20日20:25),Twitter在网站状态博客中表示,由于消息量过大,Twitter网站目
介绍 系统宕机和数据丢失的发生是一个再熟悉不过的事情.在最近公布的EMC全球数据保护指数里,64%的公司表示,在过去的12个月他们经历过重大的破坏.该研究结果表明,断电和硬件故障最有可能将你的系统宕机并破坏你的和数据.我按照相反的顺序在下面列出了导致系统宕机和数据丢失的10大元凶,以及如何阻止他们进行破坏的一些技巧. 更多信息 10.员工蓄意破坏 排在第10位的是蓄意破坏.你能想象在未来的某一天坐在隔壁的某个人会将你的系统宕机或破坏你的数据吗?这一切发生的时候,肯定需要进行基于角色的安全性.最重
新浪科技讯 9月12日消息,据台湾媒体报道,微软承认昨晚MSN宕机超过一小时,使全球900万用户大受影响,目前宕机原因仍在调查当中. 台湾微软网络服务事业群行销经理钟婉珍表示,由于美国总部执行服务器维修,台北时间昨晚10时半左右,MSN曾短暂宕机1小时,全球3%约900万用户受影响. 她表示,晚上6时开始即接获宕机查询电话,并将相关情况向美国总部反应:因当时为美国半夜时间,宕机详细原因及影响情况,需待上班后才可查明.据悉宕机事件很可能同样出自服务器维修. 昨晚19时左右,MSN服务在北京局部地区
世界已经化成了数据洪流.但只有当那些神秘的数据中心停止工作时,我们才能发觉和这个世界的联系其实是在这些0和1之上. 文|CBN记者 周昶帆 位于美国加州中部的萨克拉门托(Sacramento)有三个身份:1850年代的淘金人口集散地.如今的加州州府和Twitter的数据中心. 7月26日上午8点20分,这个数据中心停止了工作.当你输入Twitter网址时,你会看到页面显示&Twitter目前因某些原因宕机,预计稍后恢复&的提示.这种状况持续了两个多小时,直到10点25分,Twitter
据国外媒体报道,Twitter周三宣布,将于今年晚些时候启用位于盐湖城的一个全新的数据中心.Twitter希望此举能够解决网站偶发性的宕机问题. 到目前为止,Twitter服务采用NTT美国公司的主机.Twitter表示,拥有专门的数据中心将使Twitter的服务更具灵活性,能更快地根据基础设备的变化做出调整. Twitter以往常常出现宕机.过去几个月中,Twitter的宕机越来越频繁.Twitter已经公开承认这一问题.这意味着Twitter正在快速发展,然而以往的经验表明无法达到一定规模将
北京时间10月5日下午消息,据国外媒体报道,美国定位社交网站Foursquare周一经历了长时间宕机,引发用户不满. 周一早些时候,Foursquare的一名员工在该公司的官方Twitter账号中表示:&服务器过载,但是我们正在修复!我们会尽快恢复.&这条信息后面附带了一个#caseofthemondays的话题标签.6小时后,又出现了这一标签的一个变体,表明Foursquare工程师团队并没有取得太大进展. 此后,Foursquare官方Twitter账号又宣布,该公司的整个工程师团
据国外媒体今日报道,Twitter已在官方博客上警告称,未来两周时间里可能发生更多宕机故障. Twitter指出,过去两周中,该网站一直存在宕机故障,是自去年10月份以来最糟糕的状况,&我们上周五在Engineering博客上已详细说过,这种状况将会维持几个星期.我们面临着创记录的流量,目前正设法提供更高的稳定性.& Twitter称,宕机故障是随世界杯开幕而开始出现的.Twitter发言人称,虽然该网站已经为流量提高做好了准备,但在技术方面仍旧管理不易,&世界杯开幕前以及赛
据美国科技博客Mashable报道,YouTube周二发生宕机事故,访问YouTube的用户将会看到服务无法获取或内部服务器错误等消息.不过,YouTube目前已恢复正常. 许多用户已在Twitter上发布有关此次YouTube宕机的消息,有评论称YouTube此次可能是遭到黑客攻击.目前Youtube官方尚任何说明.
据MarketWatch网站周五报道,一名格鲁吉亚博客作者称,俄罗斯针对其Twitter.Facebook和LiveJournal等社交网站帐号发起攻击,导致这些网站周四发生宕机事故. 一年前,俄罗斯和格鲁吉亚就南奥赛梯主权问题发生军事冲突.尽管这一冲突已逐渐平息,但本周多家社交网站发生宕机,或服务受影响的事件表明,有关方面对这起冲突仍非常在意. 这名博客作者网名为&Cyxymu&.他对媒体表示,在俄格军事冲突爆发一周年之际,这起网络攻击是为了干扰他在网上发表针对俄罗斯的批评.该博客作
据国外媒体今日报道,美国网络零售解决方案供应商ChannelAdvisor表示,eBay网站11月22日宕机使卖家蒙受相当于当天销售额80%的损失. 因eBay出现故障,11月22日在eBay上搜索苹果iPod等产品的购物者会看到一个空白网页或错误信息.ChannelAdvisor CEO斯科特·温格(Scot Wingo)表示,由于圣诞销售季期间待售商品会大幅增加,eBay可能会遭遇更多故障. eBay发言人约翰·普鲁霍斯基(John Pluhowski)表示,员工对系统的修改导致搜索功能宕机
杯具啊!!!从burst.net买的VPS老是宕机 频繁宕机 看来要考虑每个国内的或者相关的vps才行
前几日,碰见一个奇怪的现象,连续的文件上传操作,会导致JVM内存溢出,而且是java.lang.OutOfMemoryError: PermGen space,内存的永久保存区域溢出.最终,导致整个Apusic应用服务器宕掉. 对于Permanent Generation space,JVM在运行期是不会进行垃圾清理的,这块内存溢出,一般主要是因为加载的类太多了,超出了JVM的默认值,或者设定的值.一般的解决方案是加大permanent generation space的大小. 但是,在这里将M
compute-2的作用就是compute-1的备机,注意是备机,因为compute-2如果也运行vm实例的话,实例会保存在/var/lib/nova/instance中,这样当compute-1宕机的时候,需要把共享存储挂载过来的时候会发现无处可挂载,这种情况可以通过不使用iscsi模拟共享存储,而使用NFS来实现,但是NFS在运行多个vm实例时IO性能上差很多. 按照计算节点的设置方法把compute-2设置一遍,做到第19步即可. 1 查看compute-2上的服务是否正常 nova-ma
双控制节点通过heartbeat+pacemaker监控相关服务,所以须在两台控制节点上先安装heartbeat软件,安装过程可参照: http://my.codeweblog.com/guol/blog/90128 pacemaker主要是对控制节点上的资源进行切换,实际需求如下:只要主控制节点上任何一个与openstack相关的服务停止,都需要把vip及相关服务切换到备控制节点. 备控制节点的安装和主控制节点一样,在配置数据库时需要配置成slave,和主控制节点上的master实时同步,可以
判断tomcat是否宕机,如果宕机,则进行重启.java实现. Detector.java: import java.net.URL; import java.net.URLC import java.util.D /** * * @author james * */ public class Detector { private static void keepTomcatAlive() throws NullPointerException { S
项目使用文件来保存修改,为了方便直接把文件放在src目录下:部署后发现过了一阵tomcat就会宕机: 日志为: Oct 18, :11 PM org.apache.catalina.core.StandardContext reload INFO: Reloading this Context has started Oct 18, :11 PM org.apache.catalina.loader.WebappClassLoader clearThreadL
HBase集群在运行的时候会出现RegionServer宕机,原因: 网络断开,心跳发送失败,尝试连接其他的zookeeper服务器.(zookeeper会尝试连接其他所有的服务器), 网络恢复了,连接成功,但 session已经过期了,所以 zookeeper 客户端关闭了:当然HMaster也会受到Zookeeper的过期失效信息,产生中断:
?记一次dell R720服务器ESXI5.5系统宕机的奇葩经历? 总结点: 1, 没看宕机的原因. 2, 无故重置bois. 3, 不看日志. 4, Dell r720服务器 内存需要按照顺序插入,如:A1,A2,A3,A4. 5, 使用idrac远程管理页面. 6, 要有自己的判断问题思路,不要什么都依着400. 7, 对问题不重视,要不然就不会直接重启设备了. 失误点一:没看宕机的原因 17号下午5点多的时候,正用着服务器上的虚拟机工作时,mstsc窗口突然断开了.Ping也ping不通,
昨天晚上对 yi18.net (医药吧网站 ) 做 了代码的更新,更新运行正常.本以 晚上做服务器的更新时最好的,但我错了,并不是晚上更新服务器不好.对于那些 大量用户的网站,白天更新对用户使用很受影响.但对于我这个个人网站现在日访 问量还不到100的网站其实影响不大. 我在快晚上12点时,对网站做了更新,一切很好!就开开心心的睡觉去了,当然 还做了一个美梦.早上噩梦就来了,网站不知什么时候宕掉了.于是就开始查找 问题,结果发现宕机时间是网站更新后的一个小时,为什么是一个小时?由于我的 网站做了
服务器死机,另一种叫法又称服务器宕机.是从英语&down&音译而来的.同上篇文章&服务器频繁重启问题&一样,服务器死机也是一种十分常见的服务器故障问题.服务器死机是一种在所难免的问题,因此,在租用服务器后,我们要勇于直面服务器死机的问题,我们不能避免服务器死机的问题,那我们可以尽量减少服务器死机的次数,将服务器死机带来的影响降至最低. 服务器死机一般分为硬死机和软死机,顾名思义硬死机是硬件设备问题而导致的死机故障,软死机则是系统软件引发的宕机情况.区分硬死机和软死机两者之间
Dubbo 网站 : http://alibaba.github.io/dubbo-doc-static/Home-zh.htm Dubbo 是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和 Spring框架无缝集成. 主要核心部件: Remoting: 网络通信框架,实现了 sync-over-async 和 request-response 消息机制. RPC: 一个远程过程调用的抽象,支持负载均衡.容灾和集群功能 Registr
HBase 网站 : http://hbase.apache.org/ HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统:Google运行MapReduce来处理Bigtable中的海量数据,HB
Tokyo Tyrant 网站 : http://1978th.net/tokyotyrant/ Tokyo Tyrant 是 Tokyo Cabinet 数据库网络接口.它拥有Memcached兼容协议,也可以通过HTTP协议进行数据交换. Tokyo Tyrant 加上 Tokyo Cabinet,构成了一款支持高并发的分布式持久存储系统,对任何原有Memcached客户端来讲,可以将Tokyo Tyrant看成是一个Memcached,但是,它的数据是可以持久存储的.这一点,跟新浪的Mem
iPage 网站 : https://github.com/zhongl/iPage iPage是一个基于文件的轻量级Key-value存储java lib, 具备特性有: 高性能, 请见benchmark: 支持可靠同(异)步读写调用: 支持索引自动扩容 支持批量写同步到磁盘 支持系统宕机后数据恢复 支持固定写次数和时间间隔的混合fsync策略 支持垃圾回收 支持顺序读取 更多特性, 请见Issues 授权协议: Apache 开发语言: Java 操作系统: 跨平台
wddns 网站 : http://www.wdlinux.cn/wddns/ wddns 是一套基于bind+mysql构建开发,web在线管理的智能DNS系统,安装方便,快速,让你可在最短时间内架构一套DNS/智能DNS系统.目前支持电信/网通/教肓网/移动/铁通/广电/按省份解析(31个省份)/搜索引擎蜘蛛等多线路,具有强大的监控功能,服务器健康检测,即宕机检测和切换,DNS服务器健康监控,宕机切换,防攻击检测,可选自动屏蔽攻击者IP,易扩展DNS服务器,数据自动同步等 结合wdcdn,即
tiger 网站 : https://github.com/xinmingyao/zab_engine erlang开发的开源高可靠性nosql数据库tiger介绍 可靠性: 写:对于n=2f+1 机器集群,在f台机器宕机的情况下可写 读:只要是没有宕机的机器都是可读的 一致性: 强一致性 扩展性: 读的能力可以线性扩展 功能: 目前实现了key/value的get set 和delete功能: 基于memcached协议和leveldb的持久数据库 基于redis协议和redis存储引擎的内存
Atlas 网站 : https://github.com/Qihoo360/Atlas Atlas是由 Qihoo 360, Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目.它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基础上,修改了大量bug,添加了很多功能特性.目前该项目在360公司内部得到了广泛应用,很多MySQL业务已经接入了Atlas平台,每天承载的读写请求数达几十亿条. 主要功能: * 读写分离 * 从库负载均衡 * IP过滤 * SQL
使用分布式文件系统可以轻松定位和管理网络中的共享资源.使用统一的命名路径完成对所需资源院的访问.提供可靠的负载平衡.与FRS(文件复制服务)联合在多台服务器之间提供冗余.与windows权限集成以保证安全 DFS介绍 使用分布式文件系统可以轻松定位和管理网络中的共享资源.使用统一的命名路径完成对所需资源院的访问.提供可靠的负载平衡.与FRS(文件复制服务)联合在多台服务器之间提供冗余.与windows权限集成以保证安全. 配置分布式文件服务器的过程很简单,可以使用&DFS管理&组件来配
正如单机操作系统的内核,在阿里云OS中,飞天大规模分布式计算平台起到了承上启下的关键作用.飞天运行在通过网络互联的通用服务器集群上,隐藏了海量硬件所带来的复杂度和不可靠,向云OS的其他组件提供可信赖的的计算能力和存储能力. 具体来讲,飞天本身是一个由多个组件所构成的复杂的分布式系统,其中的核心组件是以下两个子系统. 计算资源调度系统(又称伏羲):管理和调度集群计算资源:在多个云服务间动态分配计算资源,以满足用户的计算需求:自动检测服务器故障并迁移故障服务器上的服务. 分布式文件系统(又称盘古):
北京时间10月31日早间消息,美国当地时间周二,飓风&桑迪&导致的断电和洪水影响了美国东北部地区的电信网络,导致手机.电视.固定电话和互联网服务故障频发. Verizon通信首当其冲 这一地区的所有电信运营商都遭遇了问题,而Verizon通信的有线网络遭到的破坏最严重.Verizon通信在飓风途径的多个州提供电信服务. 根据美国联邦通信委员会主席朱利亚斯·格纳考斯基(Julius Genachowski)的说法,在飓风过后,这一地区的25%移动通信基站脱网,而一些911呼叫中心也无法正
Myisamchk是MyISAM表维护的一个非常实用的工具.可以使用myisamchk实用程序来获得有关数据库表的信息或检查.修复.优化他们.myisamchk适用MyISAM表(对应.MYI和.MYD文件的表). 1.myisamchk的调用方法 myisamchk [options] tbl_name ... 其中options指定你想让myisamchk干什么. 它允许你通过使用模式&*.MYI&指定在一个目录所有的表. shell& myisamchk *.MYI 推荐的
Linux缺省情况下使用的文件系统为Ext2,ext2文件系统的确高效稳定.但是,随着Linux系统在关键业务中的应用,Linux文件系统的弱点也渐渐显露出来了:其中系统缺省使用的ext2文件系统是非日志文件系统.这在关键行业的应用是一个致命的弱 点.本文向各位介绍Linux下使用ext3日志文件系统应用. Ext3文件系统是直接从Ext2文件系统发展而来,目前ext3文件系统已经非常稳定可靠.它完全兼容ext2文件系统.用户可以平滑地过渡到一个日志功能健全的文件系统中来.这实际上了也是ext3
相信大家经常在一些网站上看到有快捷分享到各大流行网站的按钮,目前流行的有JiaThis.百度分享.Bshare等,目前用百度分享的居多 发现很多网站在放置百度分享代码的时候,简单的将分享代码放置到固定的网页位置就完事了,这是非常致命的方式.因为,我经常打开一个网页的时候,发现在网页加载到分享代码的时候,有时候花上几秒的时候来请求百度的服务器,最后展示分享按钮. 其实,像这样对网页来说不是非常重要的功能,我们大可以用JS来延迟加载,从而提高网页主要内容的快速加载显示. 这里分享下我的放置方式. 一
Twitter从最初的走红,到后来稍微冷了一阵,再到最近几个月又突然占领了所有IT热论的阵地,我一直在冷眼旁观这场戏,twitter是一场媒体公关相当成功的戏,正如滤霸的政府公关一样成功.其实,几个月前就想发布这篇文字了,但是一直觉得语气太不和谐了,怕伤了推粉们的感情,于是不得不放在草稿箱里发酵了好多次,才敢发布出来. 我是twitter的用户,最初的目的就是以IT间谍的方式去体验这个所谓的&革命性产品&,结果发现twitter完全称不上&革命性&,更不可能是什么&
简介 MySQL集群是一种在无共享架构(SNA,Share Nothing Architecture)系统里应用内存数据库集群的技术.这种无共享的架构可以使得系统使用低廉的硬件获取高的可扩展性. MySQL集群是一种分布式设计,目标是要达到没有任何单点故障点.因此,任何组成部分都应该拥有自己的内存和磁盘.任何共享存储方案如网络共享,网络文件系统和SAN设备是不推荐或不支持的.通过这种冗余设计,MySQL声称数据的可用度可以达到99.999%. 实际上,MySQL集群是把一个叫做NDB的内存集群存
主持人:冯大辉 孙朝晖:如果你计划在技术体系中引入开源软件,评估的过程是怎样的?关注点有哪些? 李?:作为互联网企业,我们讲求的是快速开发.使用开源软件能有效地缩短开发时间,而且流行的开源软件由于源码开放,比我们自己编写的代码更稳定和可靠,所以我们在说客网站的开发中经常使用开源软件.在评估是否使用一款开源软件时我更关注下面几点. 许可证(license)授权使用范围是否可商用.我们开发团队中的任何人建议使用一个新的开源软件时,都必须在邮件中写明它的授权范围.好在我们使用的都是圈内已经很成熟的开源
这篇文章主要介绍了Redis和Memcached的区别详解,本文从各方面总结了两个数据库的不同之处,需要的朋友可以参考下 Redis的作者Salvatore Sanfilippo曾经对这两种基于内存的数据存储系统进行过比较: 1.Redis支持服务器端的数据操作:Redis相比Memcached来说,拥有更多的数据结构和并支持更丰富的数据操作,通常在Memcached里,你需要将数据拿到客户端来进行类似的修改再set回去.这大大增加了网络IO的次数和数据体积.在Redis中,这些复杂的操作通常和
Copyright (C) , All Rights Reserved.
版权所有 闽ICP备号
processed in 0.046 (s). 9 q(s)携程宕机12 小时里都发生了什么? - 环球旅讯(TravelDaily)
30,000+ 旅游业精英每周必读的行业要闻精粹,发送至您的电子邮箱
订阅成功!建议提供如下信息,以便我们日后更精准推送您更感兴趣的资讯。
OTA/旅游搜索引擎
公寓/非标准住宿业(民宿等)
旅行社/机票代理人
景区/目的地
B2B分销平台/批发商
社区/攻略/点评网站
行程规划/定制游
综合性旅游文化企业
旅游科技(如 PMS、B2B分销技术、呼叫中心、云服务等)
数字营销(如 SEO、社交媒体营销、用户体验设计等)
商务服务(如保险、投融资、管理/咨询等)
技术对我们生活的渗透已经像空气一样,当它运转不畅的时候,我们才会发现它会多么短暂但却严重的影响我们的生活?
&经携程技术排查,确认此次事件是由于员工错误操作导致?由于携程涉及的业务?应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间?携程官方网站及 App 已于 28 日 23:29 全面恢复正常?&
5月29日 1:30 分,携程公布了这一消息?这距离携程 28 日上午 11:09 分,因酒店数据库故障而导致官方网站和 App 均出现宕机过去了整整 12 个小时?
而在正式宣布这一事故原因前,外界对于携程的此次大规模宕机已经提出了各种猜测:一种猜测是数据库数据和备份数据被物理删除,然后我们看到了各种有关&物理删除&的科普贴;携程一名内部员工在个人微博上发布的&可能是内部员工报复&的玩笑被迅速在社交媒体上发酵;来自黑客的攻击也在猜测中?
但对于不知道自己的订单是否已经成功?或是已经安排的出行会否受到影响,甚至是刚好需要退改的携程用户来说,上述所有可能的原因所指向的结果,都是一致的&&在整整半天的时间内,他们无法从网站上获得任何信息,只能不停拨打客服电话,或是转而去质问携程的官方微博?微信账号?
在中国在线旅行行业中,创立于 1999 年的携程旅行网是占据了绝对优势的那一家?根据艾瑞咨询发布的最新数据,2015 年第一季度中国 OTA (Online Travel Agency,在线旅行社)市场规模为 875 亿人民币,携程占据了超过一半的市场份额?
2014 年,携程的净营收达到了 73 亿元,在年末投入 10 亿元陪打价格战之后,包括住宿预定?交通预定?旅游产品和企业服务的四大主营业务收入同比都出现了明显提升,总交易量更是同比上升了 80%?其中酒店预订业务的增长最为突出?
不过目前携程并不公布具体的酒店间夜(住几晚*几间房=间夜量)数量,此前虎嗅网有相关文章估算,携程在 2014 年全年售出了 6682 万间夜酒店?如果我们在此基础上做个推算,12 小时的所牵涉的酒店预订量约在 10 万间?
旗下拥有互联网安全测试平台&漏洞盒子&的上海斗象科技 CTO 张天琪向《好奇心日报》介绍说,携程的灾备机制此次未能顺利启动运行,主要是由于要重建整个业务线,并重新对外发布,这样的情况应该是第一次碰到?也有业内人士表示,像这样的情况一旦出现,就算所有代码及数据库的备份都被完整保留,想要快速恢复业务,实际上比重新搭建一个携程网站更困难?
但普通用户并不清楚,他们日常访问和用来预定?做退改签的携程主站,与这些&应用子系统及服务&有什么关系,这也导致了许多人在网站宕机后,重新转向了传统的电话客服模式?
2012 年,携程在上海?南通两地自营的呼叫中心员工就已经超过了 10000 名,到 2014 年,这一数字进一步增长至约 16900 名?如果你昨天致电过携程客服的话,你会感到他们的崩溃状态,&我们的系统正在修复中,您可以先去艺龙预订?&
对于宕机期间仍在不断访问网站?或是通过电话向客服咨询的用户,携程开始选择了将他们引导至近期入股的艺龙网&&就在一周前,携程以 4 亿美元的战略投资成为艺龙的最大股东?但艺龙也不能解决大多数用户的问题,在 28 日下午 17 时,艺龙网站也出现了短时宕机,CEO 崔广福当时对外表示,艺龙网站受到了大规模的流量攻击?
根据全球网站排名统计平台 Alexa 的数据,在过去 30 天时间内,艺龙目前在全国所有网站中,流量排名为第 588 位,其中来自携程的流量占到了网站总流量的 7%,仅次于百度和 Google& 这两大搜索引擎?
携程公关的不作为,也被认为是各种谣言流传,引起用户恐慌的原因之一?在宕机事故发生 2 小时后,携程方面通过新浪微博发布了第一条情况说明,并予以置顶?但说明本身没有&紧急修复中&的感觉?轻佻的语调也遭到了指责?之后携程安抚客户的方式是&经过紧急排查?携程数据没有丢失,预订数据也保存完整?&但这打消不了用户的疑虑,除了无法正常提交订单?登陆个人账户外,很多用户发现账户内的消费记录?优惠券?积分等数据都被清零?在最终的事故原因声明之前,携程公关途径几乎再无其它信息流出?虽然在事故当天公关部也一直忙到了半夜,但在社交媒体上,它却成了一家在危机事件发生后 6 小时内,都没有任何有效公关反应的公司?
一位携程核心业务部门的工作人员表示,自己所在的部门当天第一时间收到了来自技术部门的通知,称此次宕机会影响到相关的预订?通知等业务,他们立即通知了合作伙伴及供应商,不过当天并未加班?
另一位携程市场部门工作人员表示,因为自己使用的服务器与此次发生事故的服务器并非当天同步,她的全天工作并未受到任何影响?&吃午饭前知道网站出事了,到吃晚饭时还没有恢复而已?周围的同事聊起来的时候都说,运维部门的同事这个月的奖金大概都泡汤了?&
携程的损失也不小?针对这次宕机事故,我们粗略地(并不足够科学)算了一笔账:携程公布的 2014 第二季度财报显示,当季净营收为 18 亿元(同比增长 38%),其中最重要的酒店预订收入为 7.53 亿元(同比增长 47%);而携程 2015 年第一季度在这两项上,分别收获了 46% 和 45% 的同比增长率?
根据上述数据,在携程宕机的 12 小时内,按照平均值(3季度?91天)来算,可能造成的营收损失约为 1133 万元,住宿业务的可能性损失约为 600 万元?
从在纳斯达克上市的携程股价来看,由于此次宕机基本覆盖于美股的非交易及盘前交易时段,虽然期间出现了短时的股价暴跌,但在开市前已基本消除影响,美国东部时间 5 月 28 日开盘时,携程的股价比前一交易日低了 2.7 美元,并维持了全日小幅低位震荡,不过还是造成了全天市值蒸发约 1 亿美元的代价,也波及到了艺龙的股价。
虽然携程最终给出的原由是内部员工误操作?在知乎上那条名为&2015 年 5 月 28 日的携程网宕机事件,可以给同行提供什么经验和教训?&的帖子中,有关网络安全的讨论不在少数?
一位前艺龙信息安全负责人称&携程历来对信息安全并不算重视&,作为中国最大的在线旅行公司,携程在 2014 年 3 月也被漏洞报告平台&乌云网&爆出信用卡泄露事件:由于开发人员检查系统时留下的临时日志未被删除,大量用户的银行卡信息存在泄露风险?
携程的这次信用卡信息泄露事件,实际只是当年全球互联网所面临的网络安全问题的冰山一角:Verizon最新发布的 &2015 数据泄露调查报告&显示,2014 年事件调查中,影响的组织覆盖 95 个国家,其中有 61 个报告了问题,涉及 79790 个安全事件,超过 2000 条确认的数据泄露;500 强企业中超半数曾遭受过黑客攻击,SONY(索尼公司)?APPLE(苹果公司)?JPMORGAN CHASE(摩根大通银行)等机构都曾上榜?
就在前一天傍晚,被市政施工挖断机房光纤的支付宝刚刚成为指责对象:从当天下午 17 点至晚上 19 点 20 分,部分用户发现无法使用支付宝业务,数据显示也出现问题?
服务恢复正常后,支付宝方面表示,由于在系统上采用了&异地双活&的架构,使得这次的事故能够在较短时间内化解?简单来说,这就相当于一架双引擎飞机在出现故障时,只用一个引擎飞了一阵?支付宝 CTO 程立表示,这样的结果仍不能让内部感到满意,在相关技术升级完成后,&理想的目标是要做到让用户无感知?&
今年的网络安全事件其实已经有好几起了?
5 月 11 日,网易宣布其骨干网络遭到攻击,导致其移动应用?游戏无法访问?刷新;
5 月 10 日,陌陌通过新浪微博宣布,由于网络故障,用户暂时无法使用其移动应用;
2 月 6 日,由于访问量骤增,铁路订票网站&12306&发生崩溃,从当日上午 10 点起显示&页面无法打开&,瘫痪持续 1 小时,期间乘客无法订票;
1 月 21 日,全国三分之二的主流网站出现了大面积瘫痪,大量域名访问请求被指向没有响应的一个美国 IP 地址,导致网站无法打开;
1 月 19 日,微信服务器出现短暂瘫痪,期间用户无法收发信息?无法刷新朋友圈?无法登录微信公众平台?
技术对我们生活的渗透已经像空气一样,当它运转不畅的时候,我们才会发现它会多么短暂但却严重的影响我们的生活?
事故虽然已经过去了,但用户的心理阴影可能暂时不会那么快褪去?
& 以商业目的使用环球旅讯拥有版权的内容,请遵循环球旅讯
获得授权。非商业目的使用,请遵循 。
打赏打赏打赏!!!
& 环球旅讯版权所有|
|增值电信业务经营许可证:粤 B2-|}

我要回帖

更多关于 淘宝双十一并发量峰值 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信