springboot从入门到实战开源的全链路追踪系统介绍及实践！

摘要：全链路追踪系统已经是大型互联网应用程序的必备中间件，被广泛应用于监控系统或调用链追踪系统。现在有很多的开源全链路追踪系统供大家使用。本节主要从开源的全链路追踪系统架构等方面介绍比较知名的调用链追踪工具。

全链路追踪系统已经是大型互联网应用程序的必备中间件，被广泛应用于监控系统或调用链追踪系统。现在有很多的开源全链路追踪系统供大家使用。本节主要从开源的全链路追踪系统架构等方面介绍比较知名的调用链追踪工具。

Dapper是谷歌公司内部的调用链追踪系统，该系统没有开源。谷歌公司在2010年发表了论文Dapper, a Large-Scale DistributedSystems Tracing Infrastructure，其中定义了追踪数据的格式、追踪方式及调用链追踪系统的架构等理论模型。大部分开源调用链追踪系统都是参照Dapper这篇论文提出的模型进行实现的。

如图7.3所示为Dapper收集数据的过程。Dapper对谷歌公司内部的通用框架都提供了装配工具，服务部署了这些装配工具后就会对调用链进行追踪，装配工具将追踪信息保存到机器的磁盘上，每台服务器上部署的Dapper daemon会将追踪信息收集到Dapper Collector上。

Dapper Collector根据各个服务上报的追踪信息中包含的traceId、spanId和parentSpanId组装成完整的调用链，同时注明每个环节的耗时，然后进行存储并提供查询功能。

Zipkin是Twitter公司按照Dapper论文中定义的追踪数据格式、追踪方式和架构进行了开发实现。Zipkin主要包括Collector、Storage和UI界面等组件，同时提供数据查询功能，如图7.4所示。

Zipkin的整个架构与Dapper非常类似，它装配了追踪工具的服务，首先将追踪信息上报给Transport，然后Collector对追踪信息进行处理、存储，最后前端UI通过调用API查询存储中的信息并进行展示。其中，Transport支持HTTP、Kafka等，Storage存储支持MySQL、ElasticSearch和Cassandra等。Zipkin的追踪是独立于开发语言的，只要满足Zipkin的追踪数据格式即可，它支持的框架包括Grpc、Spring Web、Spring Boot及Spring Cloud等。

Pinpoint是韩国的搜索公司Naver基于Google Dapper开发的一款开源分布式调用链追踪系统。Pinpoint对代码零侵入，运用了JavaAgent字节码增强技术，只需要添加启动参数即可使用。

如图7.5所示，Pinpoint框架的基本组成部分与Zipkin相似。

Pinpoint Collector作为收集组件，收集各种性能数据；PinpointAgent和服务一起运行，作为探针采集数据；Pinpoint Web UI是展示页面；HBase Storage作为存储组件，将采集到的数据存到HBase中。

Pinpoint使用字节码增强技术对服务进行埋点，追踪信息通过Thrift等方式上传到Pinpoint Collector, Pinpoint负责计算统计指标，并将实时结果和原始追踪信息都存入HBase，前端Web UI从HBase中读数据进行展示查询。

Pinpoint支持追踪的服务包括Spring Boot、Thrift和Dubbo等。

它采用字节码增强技术侵入服务，业务无须修改代码，具有实时统计展示、JVM实时监控及调用链追踪服务的特点。

Skywalking是国内开源的一款调用链追踪系统。2019年4月17日，SkyWalking成为Apache的顶级项目，当前支持的开发语言包括Java、.NET和Node.js等，数据存储支持MySQL和Elasticsearch等。

Skywalking跟Pinpoint一样，采用字节码注入的方式实现代码的无侵入，支持云原生，目前增长势头强劲，其架构如图7.6所示。

Skywalking在逻辑上包含4部分，分别是Probes、Platformbackend、Storage和UI。Probes主要用于收集和格式化数据；

Platform backend支持数据聚合、分析和处理；Storage用于数据存储，支持MySQL、H2和ElasticSearch等；Web UI用于数据的可视化。

开源的全链路追踪系统从架构上看包括以下几个方面。

1. 采集方式

采集方式就是通常所说的埋点。埋点是调用链追踪系统与业务服务交互的部分，该部分需要做到低消耗与低侵入。Pinpoint与Skywalking开源组件采用了字节码增强技术，可以做到低侵入。追踪数据的上传有两种方式，即HTTP和TCP。此外，也可以通过日志采集方式进行追踪。Skywalking的采集对吞吐量的影响比较小。

2. 数据计算

根据上传的追踪数据可以统计多维度指标，以了解服务的各种状态，如实时的QPS、调用延时、延时分布、服务状态监控及服务依赖关系拓扑图等。

3. 数据存储

原始数据量比较大，一般存储在HDFS、HBase、Elasticsearch和Cassandra等分布式数据库中。统计报表类数据的数据量比较小，需要具有快速地按时间检索的能力，一般存储在MySQL或时序数据库中。

4. 数据展示

调用链追踪系统的数据最终通过UI界面展示，其中包含许多查询指标和调用链树形展示。Pinpoint界面的展示效果更加丰富，Zipkin的拓扑局限于服务与服务之间。

7.1节与7.2节介绍了开源的全链路追踪系统的基本概念与技术框架。本节将讲解具体的使用示例，在以后的业务开发中，可以集成这些框架。