基准测试概述

大多数基准测试结果都是短暂的。当终端滚动回溯达到极限时，它们会消失。一些基准测试工具允许你缓存结果，但大多数只能在本地进行。 Bencher 允许你跟踪本地和 CI 运行的基准测试，并与历史结果进行比较。

跟踪基准测试的最简单方法是使用 bencher run CLI 子命令。它包装了现有的基准测试工具输出并生成一份报告。随后，这份报告被发送到 Bencher API 服务器，在那里使用基准测试工具适配器解析基准测试工具输出。基准测试工具适配器检测所有存在的基准测试及其相应的度量。这些基准测试和度量与报告一起被保存。如果设置了阈值，新的度量将与报告中每个基准测试的历史度量进行比较。如果检测到回归，将生成一条警报。

从此，我们将你的“基准测试”称为“性能回归测试”以避免任何混淆。

基准（Benchmark）

基准（Benchmark）是一个具名的性能回归测试。如果该性能回归测试对 Bencher 来说是新的，则会自动创建一个基准（Benchmark）。否则，性能回归测试的名称将被用作该基准的唯一标识符。

更改性能回归测试的名称时请谨慎。您需要在 Bencher 中手动重命名基准，使其与新的名称相匹配。否则，被重命名的性能回归测试将被视为新的基准。同样的注意事项也适用于将某些性能回归测试进行_移动_。根据基准测试工具（benchmark harness）的不同，性能回归测试的路径可能是其名称的一部分。

上述警告的唯一例外是忽略某个基准。有关完整说明，请参见抑制警报。

如果您正在使用 Bencher 度量格式 (BMF)，名称、slug 或 UUID 可用于标识基准。

度量指标

度量指标是一个单点时间的性能回归测试结果。对于单个度量指标，最多可以收集三个值：value、lower_value 和 upper_value。所有度量指标都必须包含 value，而 lower_value 和 upper_value 是可选的，可以独立选择。哪些值会被收集是由基准测试工具适配器决定的。

Measure（度量）

Measure 是指标（Metric）的计量单位。

默认情况下，所有项目（Projects）都会以 Latency 和 Throughput 两个 Measure（度量）开始，单位分别为 nanoseconds (ns) 和 operations / second (ops/s)。

Measure（度量）由基准测试框架适配器决定。

如果您使用 Bencher Metric Format (BMF)，则可以使用名称、slug 或 UUID 来标识 Measure（度量）。

报告

报告是针对特定分支和测试平台的一组基准和其指标。报告通常使用bencher run CLI 子命令生成。查看如何跟踪性能回归测试以获得完整概述。

分支

分支是运行报告时使用的 git 引用（即分支名称或标签）。使用bencher run CLI 子命令时，如果未指定分支，则使用当前的 git 分支名称（如果可用）。否则，main 将作为默认分支。请参阅分支选择以获取完整概述。

Head

分支的 Head 是该分支的最新实例。如果有起始点，它将引用最新的起始点。每当分支有一个新的起始点时，它就会有一个新的 Head。请参阅分支选择以获得全面概述。

起始点

一个分支可以有一个起始点。起始点是特定版本（以及 git 哈希值，如果可用的话）的另一个分支。历史指标和阈值（可选）将从起始点复制过来。请参阅分支选择以获取完整概述。

Testbed

Testbed 是运行报告时使用的测试环境的名称。使用 bencher run CLI 子命令时，根据主机操作系统默认为 Linux、macOS 或 Windows 作为 Testbed。如果 bencher CLI 已经为不同的操作系统编译，则使用 localhost。

Testbed 可以选择性地分配一个 Spec。 Spec 描述了 Testbed 运行所在的硬件。创建报告时，Testbed 当时的当前 Spec 会被记录到报告中。这使您可以追踪基准测试结果与底层硬件之间的关系，即使 Testbed 的 Spec 随时间发生变化。

Spec

Spec 是描述 Testbed 可用资源的硬件规格。它包括 CPU 架构、CPU 数量、内存大小、磁盘大小以及环境是否具有网络访问权限。 Spec 是服务器范围的，因此同一个 Spec 可以在多个 Testbed 之间共享。

当运行创建 Bare Metal Job 时，Spec 同时决定硬件资源和默认的 Testbed 名称：

`--testbed` 已提供	`--image` 已提供	Testbed 名称来源
否	否	上下文操作系统
是	否	用户的显式值
否	是	已解析的 Spec 名称（Spec 分配给 Testbed）
是	是	用户的显式值（Spec 分配给 Testbed）

阈值

阈值用于捕捉性能回退。阈值被分配给一个独特的组合：分支、测试平台和测量。请参阅阈值以获取完整概览。

测试

测试由阈值用于检测性能回归。测试及其参数的组合称为模型。请参阅阈值以获取完整概述。

Model（模型）

模型是测试及其用于阈值的参数的组合。一个模型必须有下边界、上边界或同时具备两者。

下边界
- 当较小的值表示性能退化时使用下边界，例如在Throughput（吞吐量）度量中。
上边界
- 当较大的值表示性能退化时使用上边界，例如在Latency（延迟）度量中。

每个边界用于计算一个边界限制。然后每个新的指标都将与每个边界限制进行比较。当新的指标低于下边界限制或高于上边界限制时，生成一个警报。请参见阈值以获取完整概述。

边界限制

边界限制是从下边界或上边界计算得出的值。它用于与新的度量进行比较。当新的度量低于下边界限制或高于上边界限制时，会生成警报。请参阅阈值以获取完整概览。

警报

当新的指标因低于下限或高于上限而未通过测试时，会生成一个警报。请参阅阈值以获取完整概述。

🐰 恭喜！您已经全面了解了如何跟踪~~基准测试~~性能回归测试！ 🎉

继续：`bencher run` CLI 子命令 ➡

🤖 该文档由 OpenAI GPT-4/5 自动生成。它可能不准确并且可能包含错误。如果您发现任何错误，请在 GitHub 上提出问题.

Published: Sat, August 12, 2023 at 4:07:00 PM UTC | Last Updated: Fri, January 30, 2026 at 7:50:00 AM UTC