[提要] 在企业邮件运营商的运维架构上,主要有两种架构,一种是所谓单机式,其主流代表为万网、三五互联。从逻辑上来看,单机式在负载均衡、运维能力上要差于集群式;而在集群式由单点故障引发全局瘫痪的可能性又让人忧心忡忡。
在企业邮件单机式SAAS服务商而言,其运维能力是固定的。因为对于一个公司而言,业务需要讲究投入产出比。在收益是一定的前提下,投入不可能无限制放大。同样是10个运维工程师,在集群式系统服务商这里,只要看一两套系统就行了;而单机式的服务商这里则要看几百套系统,这响应速度和解决问题能力的差别是一目了然的。且单机式系统的软硬件相对都比较差,应用及数据的冗余备份措施不可能有集群式系统那么充分,所以出问题的几率更高。邮件系统运维企业邮箱运营商的运维架构上,主要有两种架构,一种是所谓单机式,其主流代表为万网、三五互联。另一种则是集群式,其主流代表为263和网易。
和集群式孰优孰劣,从来都是众说纷纭,莫衷一是。从逻辑上来看,单机式在负载均衡、运维能力上要差于集群式;而在集群式由单点故障引发全局瘫痪的可能性又让人忧心忡忡。
对于一个
而集群式系统的问题是在于牵一发而动全身。不同于一般的外行的理解,事实上WebmailPOPSMTP这些前端服务并不会有单点故障牵动全身的可能,核心的问题是在于队列。因为所有的一旦遇上大量投递或写入队列堆积,就会使大量系统资源用于管理、配置队列,随后进入恶性循环最终陷于崩溃。就像一个餐厅,门口挤满了人,服务员都忙于协调门口的人遵守排队秩序,餐厅里面的人无人服务,吃饭翻台速度剧降,最后就是人越排越多。
263在2010年6月应该曾经就吃过这个苦头,后来根据263的首席工程师所述,263在8月升级了自己的前端服务,换用LVS架构同时做了旁路队列蓄水池,恐怕就是为了解决这个问题。自这个改进之后263系统就一直稳定没有再出现类似情况。旁路队列蓄水池,可以形象理解为将排队的客户引到边上的专用排队等候间,保持餐厅出入畅通和运营正常,这样的话就能迅速消化队列,解决问题了。
而从公关角度来看,显然单机式系统对后台客服、市场危机公关来说压力要小得多。基本上单台服务器的故障影响的用户不过几百上千,客户应付应付,压力无声无息间也就过去。而集群式服务器则没有这么幸运,如263的服务器2010年6月那次问题,虽然其实影响的只有极少量的用户,也没有任何信件的丢失,只是速度缓慢。但由于其是国内排名第一的企业邮件服务商,网上顿时山雨欲来风满楼,说的问题似乎严重无比。不知道该是表扬263运营的诚实还是嘲笑263公关的无能,现在网上这个事情的链接依然到处都是,运营傻乎乎的自认“系统出现问题”的图还给人摘下来用作销售工具到处传阅。相反,网易邮箱2010年7月3日被黑客入侵以及2011年3月18日网易免费POP服务停止响应,事实上性质更为严重,可现在网上链接几乎已经看不到了,都给删光光了。不得不感叹,这两家公司公关能力的差别可谓天渊之别。
事实上,这个世界上没有100%稳定的系统。google最近承认15万用户的邮件丢失,虽然随后系统数据被恢复,但google还是启用了磁带机的线下备份措施,可见系统稳定和数据完整性问题从来都是不能回避的。但从云计算的发展趋势来看,集群式无疑代表着未来的发展方向,因为道路上的一些曲折,而放弃正确的方向,无疑是因噎废食。火车最初发明的时候,速度还没有马快,因而被嘲笑。但是今天,我给你一匹赤兔,你敢和我们的和谐号动车组赛跑吗?
|