双线路机房灾备,企业上云如何有效避免事故造成损失?
2019年3月3日阿里云华北2地域可用区C部分ECS服务器故障的消息相比大家都知道了,这次故障着实给不少用户带来不小的麻烦,那么问题来了,云服务器不是不会出问题么?可用性不是能达到99.9%么,云盘不是能达到99.9999999%的9个9个可靠性么?下面我们来了解一下关于云计算方面的知识。
从阿里云发布的公告看,里面有3个关键字,地域、可用区和ECS,首先我们来看看这是什么东西?
地域就是地区,英文表示就是Region,指的是物理的数据中心,通常我们在阿里云或者亚马逊等云计算平台上购买实例的时候都要选择地域,可以简单的理解为我们的服务器存放位置,地域的选择要接近目标客户的所在位置,比如你的目标客户都在美洲,那你的地域就选到美国去,这样用户访问你的资源延迟就更低,从阿里云的官网上可以看到,阿里云在国内和海外都有不同的地域,国内比如有华东1、华东2、华北1、华北2、华北3等7个地域,海外比如香港、亚太、美国、欧洲、中东等都有部署。
下面我们看看啥事可用区,应为表示就是Zone,可用区就是在同一地域内电力和网络相互独立的物理区域,同一地域的可用区内的内网是互通的,可用区之间能做到故障隔离,如果你的业务要求有较高的容灾能力或者网络延迟要求较高,那你就要考虑是否把实例放到同一可用区了。
这次的故障出现在华北2区域,这个区域是2013年推出的,该区域数据中心位置在北京,区域下有7个可用区,故障就出现在可用区C了。
再来看ECS,什么是ECS?ECS英文全称是Elastic Compute Service,是一种弹性的可伸缩的计算服务,可以简单理解为一台服务器。每个云计算平台的叫法都不一样,阿里云叫ECS,亚马逊AWS叫EC2,腾讯云叫CVM,不管叫什么,其实就是一台云服务器。
好了,了解了上述基本信息后我们看看如何在云平台上架构安全的业务,不管你什么平台、不管这个平台如何宣称他的安全性,但是你要知道安全性和稳定性是相对的不是绝对的,没有绝对的安全、没有绝对的稳定。国内国外这些大的平台还是比较可信的。要根据你的业务选用不同的部署方式。
通常在我们的业务部署过程中都会有个侧重点,比如这个业务对速度要求很高、有的是对数据的完整性要求很高、有的是对稳定性要求很高,那么这就要根据你的侧重点来构建自己的架构了。
对于速度要求很高的业务,在部署云的时候就要充分考虑地域,你要评估你的客户大致都分布在什么位置,也行有些人会有疑问,我的客户遍布全国甚至全球那怎么办,不用着急,各大云平台都有自己的方案,处理选择地域外像其他的比如多线接入、CDN等等都可以拿来使用,这里我们先不考虑那些因素的。如果你的客户主要分布在北方,那么你就要选择华北区域,通常我们的业务从安全性和稳定性考虑都是要分开的,比如用户系统、订单系统、数据库等等都是要分布在不同的ECS实例上去的,这样可以避免由于某个模块出现故障导致的整个系统瘫痪。
在实际生产系统中,重要的系统一定要部署在两台以上,避免出现单点故障,部署在两台以上那就有把这2台部署在统一地域下的不同可用区了,因为不同的可用区之间的电力、网络是独立的,而内网又是互通的,所以部署在同一地域下的不同可用区是最最经济实用的。这次的故障就发生在发生在可用区C,如果你的业务部署在两个不同的可用区,那么这次故障是不会给您带来太多麻烦的。所以,核心业务要部署在不同的可用区内,千万不要有单点故障存在。
问题又来了,我把核心业务部署在同一地域的不同可用区内,万一这个地域出现灾难性事件了,我的业务不是照样要中断么,是的,一定的!怎么解决呢,很简单,不是有很多地域么,你可以把业务部署在不同的地域啊,比如中国部署个,美国部署个,不就解决了么?是那么回事,可是不同的地域距离这么远,数据延迟是不是很大呢?嗯,是的,延迟肯定是有的,这就要根据你的业务来定了,看你的侧重点在哪?根据你的侧重点来选择不同的地域、可用区和ECS实例。
总之在云计算平台上选型时一定要注意下面的问题:
1. 没有绝对的安全和可靠,这些都是相对的,但这些又比你自己托管在IDC机房的安全性和可靠性高很多。
2. 云平台下部署业务,并不是买一台云服务器部署上去就完事了,要根据自己的业务情况选择不同的部署方案。
3. 数据备份是重中之重,数据备份要有冷备、热备、本地备份、异地备份,更重要的是数据备份要具有可用性,而且一定要有可用性,不然出了问题把你的腿拍烂了都没用。
以上是本人的一些浅显看法,如有不妥之处欢迎拍砖。
云电脑有什么用途?
云电脑换个说法就是利用电脑使用网络云产品。其用途广泛,相对于自己配置电脑好处多多!包括玩游戏。用户侧只需要个性化的选择显示装置(比如液晶屏幕还是投影仪还是VR眼镜),输入设备(比如说键盘,游戏手柄或者语音输入设备等)。而服务器,存储器以及运行维护都不用自己操心了,因为上云了。
现在有电脑云产品需求的用户一般是奔着高性能、省时省力,免维护,安全、容灾能力、稳定、省钱、轻运维等等特点去的。也是IT发展的趋势。
根据以上特点,有适宜在各类用户推广的产品:云主机、净网卫士、云灾备、薪酬通、云空间、云桌面,游戏服务器托管等等。“云主机”是通过虚拟化技术整合基础资源,为用户提供简单高效、弹性伸缩的计算服务,帮助用户快速、灵活的构建企业门户、APP后台等多种应用服务,可部署常用计算框架(Hadoop、spark等),满足如日志分析、机器学习、科学计算等业务需求。云主机适用客户需要将本地机房上云的客户、对构建(游戏)企业门户、APP应用等IT服务有服务器主机需求的客户、可以是网游,手游企业、政府、中小微企业、或个人。云主机适用需要运营自己的网站、app的企业、需要租赁服务器的客户、需要摆脱传统机房束缚的客户均可推广。云产品优点:1.配置丰富、储备充足;2.弹性灵活、简单易用;3.安全稳定、简单易用。云空间是面向企业级用户提供的网盘服务,基于对象存储而实现,为游戏运营企业提供文件的存储、管理、共享、远程访问等服务。解决企业员工文件存储需求,适用于有文件云端存储需求的企业。还有灯塔舆情监控产品可以对新闻、论坛、微博、微信和报刊,进行监管,掌握网络舆情动态,研判舆情走势,极大降低舆情监管的人工成本以及劳动强度,极大的提升舆情的监管效率。
总之,不管是不是游戏用户都可以极大的享受到方便,简洁,快速,便宜。是趋势,趋势,趋势。恭喜你,你正在与时俱进!
服务器网络虚拟化都有些什么优点?
如果您是一个系统的管理员,在该系统中,用户需要与原始服务器彼此分开,那么一种便宜有效的方法是通过称为“服务器虚拟化”的过程创建专用服务器。
服务器虚拟化是采用物理服务器的想法,然后借助虚拟化软件对服务器进行分区或分割,以使其看起来像多个“ 虚拟服务器 ”,每个虚拟服务器都可以运行其操作系统副本。 这样,它可以以多种不同的方式使用,而不是整个服务器专用于一件事。
服务器虚拟化的优势节省IT成本。将一台物理服务器划分为多个虚拟机时,可以在该一台物理服务器上一次部署,操作和管理多个操作系统实例。更少的物理服务器意味着更少的钱花在这些服务器上。减少公司必须在其场所中拥有的物理服务器的数量。无论公司规模大小,节省空间始终是一个好主意。由于更少的物理服务器消耗电能,因此降低了能耗。考虑到绿色IT计划和实施的趋势,这一点尤其重要。创建独立的用户环境。将所有内容分开对于进行软件测试等目的特别有用(这样程序员可以在一个虚拟服务器上运行应用程序而不会影响其他虚拟服务器)。提供负担得起的虚拟主机。当数十台服务器可以安装在同一台计算机上时,服务器的供应量几乎没有任何增加的增加。服务器虚拟化的类型虚拟机模型(或“完全虚拟化”):基于主机/来宾范例,使用一种称为管理程序的特殊软件。管理员可以使用不同的操作系统创建来宾。准虚拟机(PVM):类似于完全虚拟化,也基于主机/来宾范式。也可以运行多个操作系统。操作系统级别:不基于主机/来宾范例。来宾系统必须使用与管理员/主机相同的操作系统,并且分区彼此完全分开(因此一个分区中的问题不会影响其他任何分区)。从硬件的角度来看,虚拟化的好处有一点背景-虚拟化允许在相同的硬件上运行更多的应用程序,从而节省了成本。如果购买更少的服务器,则将减少资本支出和维护成本。
虚拟化的好处是什么?减少所需的物理设备数量;轻松分割网络;允许快速更改/可伸缩性和敏捷部署;物理设备销毁的安全性;故障转移模式–有缺陷的磁盘可以快速切换到备份,并且可以修复发生故障的组件,同时系统可以继续运行;组织虚拟网络相对容易,并可以立即提高网络效率。您可以设计网络,以便将局域网(LAN)细分为虚拟网络和VLAN。这样做会大大改善负载平衡。您还可以 通过分段网络并建立基于角色和基于位置的权限和过程来 提高安全性。在虚拟环境中执行此操作可使您变得敏捷并根据需要调整网络体系结构,以管理不断变化的网络负载和需求。
更大的网络可见性非常宝贵,可以节省大量的资本支出和运营支出,并减少停机时间。要了解有关虚拟化优势的更多信息,请下载此免费白皮书。
目前,OT网络往往比IT网络小很多,但这正在改变中,尤其是在向工业物联网迫在眉睫的转变中。当这种情况发生时,并且有业内专家表示,这种情况将在不久的将来大规模实现,网络连接设备的数量绝对会迅速增加。因此,很可能在两年内,网络监视在该行业中将与在IT中一样重要。
假如有10亿人同时去一个网站浏览?
很有想象力的一个问题,十亿人同时刷新一个网站,至少目前为止还没有网站能够架得住,按照现在阿里巴巴云计算的能力讲,服务器的组合能力已经优化到一种非常合理化的境界,单纯的依靠计算能力提升的空间已经非常有限了,如果单单是为了应对这些人的冲击构建大量的服务器,毫无疑问将会产生极大的浪费,任何企业都不会为了应对这一攻击而购置大量的服务器。
早期的云计算产生其实也是一种偶然的因素,亚马逊早期为了应对服务器巨大的冲击,购置了大量的服务器,结果发现储备的服务器太多了,就想着如何处理这些多余或者利用这些服务器的额外用处,于是想着如果把这些服务器构建起来给一些中小企业提供服务,而且这些服务器之间还可以进行资源的共享,这就是早期云计算产生的简单的需求,但随着功能的延申云计算所起到的作用也越来越大,亚马逊在这方面投入的精力也是越来越大,但成效也越来越明显,成为亚马逊市值飙升的重要参照因素,而且云计算的诞生对于甲骨文的数据库有非常大的冲击,亚马逊已经宣传旗下的数据库切换到云计算的模式,相信不久的将来阿里巴巴也会完成这一使命。
同时访问一个网站,考验的就是网站的负载均衡能力,现在网站已经不是单一的服务器构造了,不同地区的访问会汇总到不同的区域里面,最后通过数据的交互将数据汇总到总的主控服务器上,然后做出具体的反应从理论上讲,如果想要快速的反应就要求在接受到数据一瞬间就要准确到传递到正确的服务器上,关键是第一步如果访问量过大,第一步接收的服务器可能直接崩溃或者数据被排队等待了,可以想象在双11期间阿里巴巴启动的服务器的数量要多于平时,同时阿里巴巴已经把服务器迁移到阿里云上了,对于服务器的管理能力又进一步增强了,同时又增加了很多的备用服务器来支撑,毕竟阿里云的业务能力也在进一步增强,所以增加备用的服务器也是业务上的需要。
增加服务器的负载能力最简单直接有效的办法就是增加服务器的数量,但这种方式对于成本的要求还是非常高,每家都不会去做这种事情,毕竟如果只是单纯的使用几次这种成本的代价太高,之前的购票网站12306经常出现宕机的情况,最后还是阿里巴巴的阿里云一起协助解决了这类冲击的问题,其实订票冲击相比双11的冲击还是差了许多,解决并发问题的能力上在国内范围最厉害的企业当属于阿里巴巴,12306把查询的功能部署在阿里云上极大降低12306主要服务器的压力,同时也是对阿里巴巴负载能力一个极大的检验。
即使阿里巴巴已经在解决负载能力上有着非常丰富的经验,但是10亿用户同时刷新网站的做法,即使放在阿里巴巴面前也是一个极大的难题,不仅仅是技术能力的问题关键还是在于是否有必要购置这些服务器,希望能帮到你。
为什么支付宝系统会崩?
其实支付宝也没有出什么大事,但任何小事到了支付宝这里,肯定就变成了全民的一件大事了。因为他服务着7亿用户和多个国家海外用户,多少人的资金安全,都在依靠着支付宝的稳定啊。所以我也有一个大胆的想法,花呗和借呗是不是可以推迟几天还啊?
支付宝系统在5日下午出现崩溃的情况,官方解释是网络出现短暂抖动。听起来这个词儿好像挺专业,其实就是网络数据延迟的时间长了,造成了数据堵塞,处理网络数据的算法可能出现了一点小异常吧。全国除了微信和12306之外,没有几家公司对于网络抖动会如此重视,主要是因为没有那么大的数据传送量压力,所以一般公司即使数据抖动也不会造成什么影响,更不要说进热搜榜了。
其实这应该引起国家信息公共安全部门的重视,一家企业的网络是否正常,可能会关系到全体居民的利益。在这种情况下,是不是对这家企业的数据处理,数据库存放以及传送要求更大的稳定性和更高的要求?假如这家企业作恶的话,或者内部人员集体作恶的话,那对国家的稳定安全要造成多大的影响啊?
阿里和腾讯的网络技术以及数据库技术确实已经很发达了,那不止丢百度一条街啊。他们早已经使用分布式技术,在多点共同储备数据。但此次的事件和2015年因为光纤被挖断而断网的事件,确实给消费者和用户提个醒,千万不要将资金和支付放在一个平台上,否则企业出个风吹草动,可能自己的生活会大受影响。
回顾下阿里之前吹过的牛,此次网络抖动了,虽然恢复正常了,但是也没有给用户公开解释具体原因,以及未来的防范措施啊。那之前不就变成吹牛了?
在2018年的阿里云栖大会上,蚂蚁金服副CTO胡喜推出支付宝架构“三地五中心”容灾系统——即在三个城市,安置五个机房。一旦其中一两个机房出现问题,支付宝的底层数据库会将流量自动切换到正常的机房,在保证系统稳定运行的情况下,不丢失任何数据。在大会期间,胡喜让两位工程师在模拟状态下切断了2个模拟机房的网线,在模拟系统崩溃的情况下,只用了26秒便让支付宝虚拟账户重新恢复的运营,数据没有任何丢失。总体看:事情虽小,但是警钟要长鸣,用户要将资金分散化,大企业要更加小心翼翼,国家有关部门也要思考公共危机处理事宜。
德先生讲金融和理财由专业变得通俗。跟随德先生得到最简单的答案和最实用的解决之道。觉得好关注我!再多点点赞。