跳转至

备份恢复

备份恢复分为备份和恢复两方面,实际应用时需要先备份系统在某一时点的数据,然后安全存储地备份数据。后续如果出现数据损坏、丢失、误删等事故,就可以基于之前的数据备份快速还原系统,缩短故障时间,减少损失

  • 在真实的生产环境中,服务可能分布式地部署在不同的云、不同区域或可用区,如果某一个基础设施自身出现故障,企业需要在其他可用环境中快速恢复应用。在这种情况下,跨云/跨集群的备份恢复显得非常重要。
  • 在大规模系统中往往有很多角色和用户,权限管理体系复杂,操作者众多,难免有人误操作导致系统故障。在这种情况下,也需要能够通过之前备份的数据快速回滚系统,否则如果依赖人为排查故障、修复故障、恢复系统就会耗费大量时间,系统不可用时间越长,企业的损失越大。
  • 此外,还有网络攻击、自然灾害、设备故障等各种因素也可能导致数据事故

因此,备份恢复非常重要,可以视之为维护系统稳定和数据安全的最后一道保险。

备份通常分为全量备份、增量备份、差异备份三种。算丰 AI 算力平台目前支持全量备份和增量备份。

算丰 AI 算力平台提供的备份恢复可以分为 应用备份ETCD 备份 两种,支持手动备份,或基于 CronJob 定时自动备份。

  • 应用备份

    应用备份指,备份集群中的某个工作负载的数据,然后将该工作负载的数据恢复到本集群或者其他集群。支持备份整个命名空间下的所有资源,也支持通过标签选择器过滤,仅备份带有特定标签的资源。

    应用备份支持跨集群备份有状态应用,具体步骤可参考MySQL 应用及数据的跨集群备份恢复

  • ETCD 备份

    etcd 是 Kubernetes 的数据存储组件,Kubernetes 将自身的组件数据和其中的应用数据都存储在 etcd 中。因此,备份 etcd 就相当于备份整个集群的数据,可以在故障时快速将集群恢复到之前某一时点的状态。

    需要注意的是,目前仅支持将 etcd 备份数据恢复到同一集群(原集群)。