跳转至

开始观测

AI 算力中心 平台实现了对多云多集群的纳管,并支持创建集群。在此基础上,可观测性 Insight 作为多集群统一观测方案,通过部署 insight-agent 插件实现对多集群观测数据的采集,并支持通过 AI 算力中心 可观测性产品实现对指标、日志、链路数据的查询。

insight-agent 是可观测性实现对多集群数据采集的工具,安装后无需任何修改,即可实现对指标、日志以及链路数据的自动化采集。

通过 容器管理 创建的集群默认会安装 insight-agent,故在此仅针对接入的集群如何开启观测能力提供指导。

可观测性 Insight 作为多集群的统一观测平台,其部分组件的资源消耗与创建集群的数据、接入集群的数量息息相关,在安装 insight-agent 时,需要根据集群规模对相应组件的资源进行调整。

  1. 根据创建集群的规模或接入集群的规模,调整 insight-agent 中采集组件 Prometheus 的 CPU 和内存,请参考: Prometheus 资源规划

  2. 由于多集群的指标数据会统一存储,则需要 AI 算力中心 平台管理员根据创建集群的规模、接入集群的规模对应调整 vmstorage 的磁盘,请参考:vmstorage 磁盘容量规划

  3. 如何调整 vmstorage 的磁盘,请参考:vmstorge 磁盘扩容

由于 AI 算力中心 支持对多云多集群的纳管,insight-agent 目前也完成了部分验证,由于监控组件冲突问题导致在 Openshift 4.x 集群中安装 insight-agent 会出现问题,若您遇到同样问题,请参考以下文档: