有一次处理一个医院故障事件,发现集成平台存在着单点故障,虽然重启服务后,解决了问题,但是给我们带来了一个思考?
集成平台选型时须考虑,支持热备高可用性部署,主备机之间配置、消息库可实时同步,当主机发生故障时,备机可在不需人工干预的情况下秒级自动启动,消息在备机中继续运行,当主机修复后,消息会转回主机中继续处理。
请专家讲讲,在冗余和集群服务中,如何考虑产品?
目前大多数集成平台都支持双机冗余,或者是多机集群服务。以我们医院为例,我们采取了双机冗余的机制。当然,我们也曾经遇到过上述的问题,也对平台故障转移的机制进行了思考。其实在医院这种生产业务特点下,最大的需求是面临快速的业务恢复,那么对于产品的选型,更应当倾向于备机的迅速接管业务的能力以及平台上消息队列的转移。
收起集成平台选型时可以同时考虑冗余和集群服务。
冗余机制通常是对集成平台本身来说的,例如数据的冗余备份,集成平台承载设备的自身部件的冗余配置。
集群服务机制通常是指多个节点同时提供服务,即使有一个节点发生故障,也不会影响业务的连续性。
实现集群服务通常的做法分为三个层次选择产品。
1、数据库层,例如采用ORACLE数据库RAC 群集,单个节点故障,并不会对其他节点产生影响。
2、虚拟化层,例如VMware 虚拟机群集迁移,单个VM故障,业务也不会中断。
3、例如云平台或云原生平台实现群集化部署,通常部署在云平台或云原生平台上的业务,都可以利用云平台的相关群集策略和机制实现,可以避免单节点故障和停机。