6 个 K8s 日志系统建设中的典型问题，你遇到过几个？（618是什么意思）-FinClip官网

6 个 K8s 日志系统建设中的典型问题，你遇到过几个？（618是什么意思）

网友投稿 940 2022-08-30

6 个 K8s 日志系统建设中的典型问题，你遇到过几个？（618是什么意思）

在 Logging 这块做了几年，最近 1 年来越来越多的同学来咨询如何为 Kubernetes 构建一个日志系统，或者是来求助在这过程中遇到一系列问题如何解决，授人以鱼不如授人以渔，于是想把我们这些年积累的经验以文章的形式发出来，让看到这篇文章的同学能少走弯路。这个系列文章定位为长篇连载，内容偏向落地实操以及经验分享，且内容会随着技术的迭代而不定期更新。

前言

第一次听到 Kubernetes 的名字是在 2016 年，那个时候 Kubernetes 还处于和 Docker Swarm、Mesos 方案的“三国鼎立时代”，Kubernetes 由于一系列优势（可扩展、声明式接口、云友好）在这一竞争中崭露头角，最终获得统治地位。

Kubernetes 作为 CNCF 最核心的项目（没有之一），是 Cloud Native（云原生）落地的底座，目前阿里已经全面基于 Kubernetes 在开展全站的云原生改造，在 1-2 年内，阿里巴巴 100% 的业务都将跑在公有云上。

CloudNative 在 CNCF 的定义的核心是：在公有云、私有云、混合云等环境中，通过 Containers、Service Meshes、 MicroServices、Immutable Infrastructure、Declarative APIs 构建和运行可弹性扩展的且具有高容错性、易于管理、可观察、松耦合的应用系统。可观察性是应用系统必不可少的一个部分，云原生的设计理念中就有一条：面向诊断性设计（Diagnosability），包括集群级别的日志、Metric 和 Trace。

为何我们需要日志系统

通常一个线上问题的定位流程是：通过 Metric 发现问题，根据 Trace 定位到问题模块，根据模块具体的日志定位问题原因。在日志中包括了错误、关键变量、代码运行路径等信息，这些是问题排查的核心，因此日志永远是线上问题排查的必经路径。

在阿里的十多年中，日志系统伴随着计算形态的发展在不断演进，大致分为 3 个主要阶段：

在单机时代，几乎所有的应用都是单机部署，当服务压力增大时，只能切换更高规格的 IBM 小型机。

日志作为应用系统的一部分，主要用作程序 Debug，通常结合 grep 等 Linux 常见的文本命令进行分析；

随着单机系统成为制约阿里业务发展的瓶颈，为了真正的 Scale out，飞天项目启动：2013 年飞天 5K 项目正式上线。在这个阶段各个业务开始了分布式改造，服务之间的调用也从本地变为分布式，为了更好的管理、调试、分析分布式应用，我们开发了 Trace（分布式链路追踪）系统、各式各样的监控系统，这些系统的统一特点是将所有的日志（包括 Metric 等）进行集中化的存储；

为了支持更快的开发、迭代效率，近年来我们开始了容器化改造，并开始了拥抱 Kubernetes 生态、业务全量上云、

Serverless 等工作。在这阶段，日志无论从规模、种类都呈现爆炸式的增长，对日志进行数字化、智能化分析的需求也越来越高，因此统一的日志平台应运而生。

可观察性的终极解读

在 CNCF 中，可观察性的主要作用是问题的诊断，上升到公司整体层面，可观察性（Observability）不仅仅包括 DevOps 领域，还包括业务、运营、BI、审计、安全等领域，可观察性的最终的目标是实现公司各个方面的数字化、智能化。

在阿里，几乎所有的业务角色都会涉及到各式各样的日志数据，为了支撑各类应用场景，我们开发了非常多的工具和功能：日志实时分析、链路追踪、监控、数据加工、流计算、离线计算、BI 系统、审计系统等等。日志系统主要专注于数据的实时采集、清洗、智能分析与监控以及对接各类各样的流计算、离线系统。

Kubernetes 日志系统建设难点

单纯日志系统的解决方案非常多，相对也比较成熟，这里就不再去赘述，我们此次只针对 Kubernetes 上的日志系统建设而论。Kubernetes 上的日志方案相比我们之前基于物理机、虚拟机场景的日志方案有很大不同，例如：

日志的形式变得更加复杂，不仅有物理机/虚拟机上的日志，还有容器的标准输出、容器内的文件、容器事件、Kubernetes 事件等信息需要采集；

环境的动态性变强

，在 Kubernetes 中，机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态，这种情况下日志的存在是瞬时的（例如如果 Pod 销毁后该 Pod 日志就不可见了），所以日志数据必须实时采集到服务端。同时还需要保证日志的采集能够适应这种动态性极强的场景；

日志的种类变多

，上图是一个典型的 Kubernetes 架构，一个请求从客户端需要经过 CDN、Ingress、Service Mesh、Pod 等多个组件，涉及多种基础设施，其中的日志种类增加了很多，例如 K8s 各种系统组件日志、审计日志、ServiceMesh 日志、Ingress 等；

业务架构变化

，现在越来越多的公司开始在 Kubernetes 上落地微服务架构，在微服务体系中，服务的开发更加复杂，服务之间的依赖以及服务底层产品的依赖越来越多，这时的问题排查将更加复杂，如果关联各个维度的日志将是一个困难的问题；

日志方案集成困难

，通常我们都会在 Kubernetes 上搭建一套 CICD 系统，这套 CICD 系统需要尽可能的自动化的完成业务的集成和部署，其中日志的采集、存储、清洗等也需要集成到这套系统中，并和 K8s 的声明式部署方式尽可能一致。而现有的日志系统通常都是较独立的系统，集成到 CICD 中代价极大；

日志规模问题

，通常在系统初期的时候我们会选择自建开源的日志系统，这种方式在测试验证阶段或公司发展初期是没有什么问题的，但当业务逐渐增长，日志量增长到一定规模时，自建的开源系统很多时候都会遇到各种各样的问题，例如租户隔离、查询延迟、数据可靠性、系统可用性等。日志系统虽不是 IT 中最核心的路径，但一旦关键时刻出现这些问题都将是非常可怕的影响，例如大促的时候出现紧急问题，排查时多个工程师并发查询把日志系统打爆，导致故障恢复时间变长，大促收到影响。

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

940 2022-08-30

6 个 K8s 日志系统建设中的典型问题，你遇到过几个？（618是什么意思）

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计