1. 概述与目标定义
1.1 明确演练目标:定义恢复时间目标(RTO)、恢复点目标(RPO)与关键业务系统优先级。
1.2 界定范围:指定哪些虚拟机、应用与数据需要参与演练(例如:数据库、应用服务器、文件服务)。
1.3 法规与合规:在欧洲机房考虑GDPR与当地数据主权要求,记录数据传输与存储权限。
2. 演练前的准备工作(清单)
2.1 资产清单:导出vCenter中的虚拟机清单、ESXi主机、数据存储与网络配置。
2.2 访问与权限:确保拥有vCenter管理员、SRM管理员与存储阵列管理员账号,测试登陆。
2.3 时间窗口与沟通:与业务方约定演练时间、干预联系人及回退联络人。
3. 网络与机房互联配置
3.1 L2/L3网络映射:记录生产(欧洲主机房)与备机房的VLAN、子网、网关并准备映射表。
3.2 防火墙与VPN:开启必要端口(vCenter 443、SRM 9089、vSphere Replication 31031等),配置站点间安全VPN或专线。
3.3 DNS与IP自定义:准备灾备时的DNS更新方案或IP自定义脚本(使用VMware Guest Customization或IPAM工具)。
4. 存储与复制方案选择
4.1 评估复制方式:选择阵列复制(同步/异步)、vSphere Replication(主机级)或第三方备份(如Veeam)。
4.2 创建存储配对:在备机房创建与主站相同或足够容量的数据存储并验证可见性。
4.3 测试复制:对少量非关键VM进行初次复制验证,确认数据一致性与带宽状况。
5. VMware Site Recovery Manager (SRM) 与 vSphere Replication 配置
5.1 安装SRM:在备机房和主机房分别部署SRM并与vCenter配对(SRM控制台 -> 配对站点 -> 添加)。
5.2 配置复制设备:在SRM中创建保护组(Protection Group),选择阵列或vSphere Replication作为复制源。
5.3 创建恢复计划(Recovery Plan):定义启动顺序、VM依赖关系、网络映射和脚本执行点(Pre-Power-On/Post-Power-On)。
6. 快照与备份策略(实际步骤)
6.1 快照策略:不要仅依赖快照作为长期备份,快照用于短期回滚。设置快照保留时间并限制大小。
6.2 备份工具配置:在Veeam或其他备份软件中创建备份作业,设置并行任务数、传输模式与加密。
6.3 验证恢复点:周期性从备份恢复文件或VM到隔离网络,确认恢复可用性。
7. 演练前检查与自动化脚本准备
7.1 清单核对:逐项核对VM名单、应用依赖、数据库一致性点。
7.2 编写脚本:准备IP自定义、DNS更新、应用启动顺序与数据完整性检查脚本(PowerCLI、Ansible或bash)。
7.3 权限与审计:为演练操作生成临时账号并打开审计日志记录。
8. 演练执行(逐步操作)
8.1 进入测试模式:在SRM选择Recovery Plan -> Test Recovery,SRM会在隔离网络执行。
8.2 验证数据与服务:逐台开机,运行应用健康检查脚本,检查数据库连通性与事务一致性。
8.3 记录时间点:记录每个步骤的开始与完成时间以对比RTO/RPO目标。
9. 故障切换(Failover)与回切(Failback)步骤
9.1 计划性切换:在SRM执行Planned Migration以确保数据同步并最小化数据丢失。
9.2 非计划切换:执行Recovery操作,按Recovery Plan启动VM并映射网络与IP。
9.3 回切步骤:修复主站后执行Reprotect并运行Planned Migration或Recovery Plan回切,验证主站服务恢复。
10. 恢复验证、日志与报告
10.1 功能验证:列出必须通过的测试点(登录、交易、批处理、延迟指标)。
10.2 日志收集:导出vCenter、SRM、存储与应用日志,归档作演练证据。
10.3 演练报告:生成演练结果,包括时间线、成功率、问题清单与改进建议。
11. 常见问题与持续改进
11.1 频率:建议每年至少一次全量演练,每季度进行部分演练或桌面演练。
11.2 复盘:演练后召开复盘会议,按优先级修复发现的问题并更新Recovery Plan。
11.3 文档维护:将所有配置、脚本和网络映射文档化并放在受控版本库。
问1:如果演练中发现网络映射错误,应如何快速修复?
答1:
第一时间回退到测试前快照或停止演练,使用事先准备的网络映射表在vSphere Networking中核对并修改Port Group/VLAN;若是防火墙规则问题,迅速按照审批流程临时放通相关端口;记录变更并重新运行小范围测试后再继续演练。
问2:在欧洲机房做灾备时,如何处理跨境数据与GDPR合规风险?
答2:
在设计时先分类数据,敏感数据尽量留在同一司法管辖区或使用加密与最小化复制;确保签署数据处理协议(DPA),并在演练方案中记录数据移动路径与保留期限,保留审计日志以备合规检查。
问3:如何在不影响生产性能的情况下进行复制与演练?
答3:
选择异步复制或在低峰时段进行全量同步,配置QoS与复制限速;演练时使用隔离网络或vSphere的测试模式(Test Recovery)避免对生产网络与存储造成冲击,并在演练前评估带宽与I/O影响。
来源:灾备演练框架在vmware虚拟机欧洲机房设置中的应用指南