Как тестировать производительность Python кода с pytest-benchmark
Everett Pompeii
Что такое бенчмаркинг?
Бенчмаркинг — это практика тестирования производительности вашего кода, чтобы увидеть, насколько быстро (задержка) или сколько (пропускная способность) работы он может выполнить. Этот часто упускаемый из виду этап в разработке программного обеспечения является ключевым для создания и поддержания быстрого и производительного кода. Бенчмаркинг предоставляет необходимые метрики, чтобы разработчики могли понять, насколько хорошо их код работает под различными рабочими нагрузками и условиями. По тем же причинам, по которым вы пишете модульные и интеграционные тесты, чтобы предотвратить регрессию функций, вам следует писать тесты производительности, чтобы предотвратить регрессию производительности. Ошибки производительности — это ошибки!
Напишите FizzBuzz на Python
Чтобы написать тесты производительности, нам нужен исходный код для оценки. Для начала мы напишем очень простую программу, FizzBuzz.
Правила для FizzBuzz таковы:
Напишите программу, которая выводит целые числа от
1
до100
(включительно):
- Для кратных трём, выводите
Fizz
- Для кратных пяти, выводите
Buzz
- Для кратных и трём и пяти, выводите
FizzBuzz
- Во всех других случаях, выводите число
Есть множество способов написать FizzBuzz. Так что мы выберем мой любимый:
- Перебирайте числа от
1
до100
, используя диапазон в101
. - Для каждого числа вычисляйте остаток от деления для
3
и5
. - Если остаток равен
0
, значит число является кратным указанного множителя.- Если остаток равен
0
для15
, то выводитеFizzBuzz
. - Если остаток равен
0
для3
, то выводитеFizz
. - Если остаток равен
0
для5
, то выводитеBuzz
.
- Если остаток равен
- В противном случае просто выводите число.
Следуйте пошаговому руководству
Чтобы следовать этому пошаговому руководству, вам потребуется установить Python и установить pipenv
.
🐰 Исходный код для этого поста доступен на GitHub.
Создайте файл Python с именем game.py
и установите его содержимое на вышеуказанную реализацию FizzBuzz.
Затем выполните команду python game.py
.
Вывод должен выглядеть следующим образом:
🐰 Бум! Вы разбираетесь с кодировочным интервью!
Прежде чем идти дальше, важно обсудить различия между микро-бенчмаркингом и макро-бенчмаркингом.
Микробенчмаркинг vs Макробенчмаркинг
Существует две основные категории бенчмарков программного обеспечения: микробенчмарки и макробенчмарки.
Микробенчмарки работают на уровне, аналогичном модульным тестам.
Например, бенчмарк для функции, определяющей Fizz
, Buzz
или FizzBuzz
для одного числа, будет микробенчмарком.
Макробенчмарки работают на уровне, аналогичном интеграционным тестам.
Например, бенчмарк для функции, которая запускает полную игру FizzBuzz, от 1
до 100
, будет макробенчмарком.
Вообще, лучше всего тестировать на наименьшем возможном уровне абстракции. В случае бенчмарков это делает их более простыми в поддержке, и помогает уменьшить количество помех в измерениях. Однако, так же как некоторые end-to-end тесты могут быть очень полезными для проверки правильной работы всей системы, макробенчмарки могут быть очень полезными для проверки производительности критически важных мест в вашем программном обеспечении.
Бенчмаркинг в Python
Два популярных варианта для бенчмаркинга в Python это: pytest-benchmark и airspeed velocity (asv)
pytest-benchmark
— это мощный инструмент для бенчмаркинга,
интегрированный с популярным фреймворком для тестирования pytest
.
Он позволяет разработчикам измерять и сравнивать производительность их кода, выполняя бенчмарки наряду с модульными тестами.
Пользователи могут легко сравнивать результаты своих бенчмарков локально
и экспортировать свои результаты в различных форматах, таких как JSON.
airspeed velocity (asv)
— это еще один продвинутый инструмент для бенчмаркинга в экосистеме Python.
Одним из ключевых преимуществ asv
является его способность генерировать детализированные и интерактивные HTML-отчеты,
что упрощает визуализацию трендов производительности и выявление регрессий.
Кроме того, asv
поддерживает относительный непрерывный бенчмаркинг из коробки.
Обе поддерживаются Bencher. Так почему же выбрать pytest-benchmark
? pytest-benchmark
бесшовно интегрируется с pytest
, который является фактическим стандартом для юнит-тестирования в экосистеме Python. Я бы предложил использовать pytest-benchmark
для тестирования задержки вашего кода, особенно если вы уже используете pytest
. То есть, pytest-benchmark
отлично подходит для измерения времени на стеночных часах.
Рефакторинг FizzBuzz
Чтобы протестировать наше приложение FizzBuzz, нам нужно отделить нашу логику от основной программы. Контрольные оболочки не могут протестировать основную программу. Для этого нам нужно внести некоторые изменения.
Давайте реорганизуем нашу логику FizzBuzz в несколько функций:
play_game
: принимает целое числоn
, вызываетfizz_buzz
с этим числом, и еслиshould_print
равноTrue
, выводит результат.fizz_buzz
: принимает целое числоn
и выполняет логикуFizz
,Buzz
,FizzBuzz
или просто число, возвращая результат в виде строки.
Затем обновите основное выполнение программы, чтобы оно выглядело так:
Основное выполнение нашей программы перебирает числа от 1
до 100
включительно и вызывает play_game
для каждого числа, при этом should_print
установлено в True
.
Бенчмарк FizzBuzz
Чтобы провести бенчмарк нашего кода, нам нужно создать тестовую функцию, которая будет запускать наш бенчмарк.
Внизу файла game.py
добавьте следующий код:
- Создайте функцию с именем
test_game
, которая принимает фикстуруbenchmark
изpytest-benchmark
. - Создайте функцию
run_game
, которая выполняет итерацию от1
до100
включительно.- Для каждого числа вызывайте
play_game
, с параметромshould_print
, установленным вFalse
.
- Для каждого числа вызывайте
- Передайте функцию
run_game
в ранерbenchmark
.
Теперь нам нужно настроить проект для запуска наших бенчмарков.
Создайте новую виртуальную среду с помощью pipenv
:
Установите pytest-benchmark
в этой новой среде pipenv
:
Теперь мы готовы провести бенчмарк нашего кода, запустите pytest game.py
:
🐰 Капуста, зажигай ритм! У нас есть первые метрики бенчмарка!
Наконец, мы можем отдохнуть, уставшие головы разработчиков… Шутка, наши пользователи хотят новую функцию!
Написать FizzBuzzFibonacci на Python
Наши ключевые показатели эффективности (KPI) снизились, поэтому наш продуктовый менеджер (PM) хочет, чтобы мы добавили новую функцию. После множества мозговых штурмов и интервью с пользователям было решено, что классического FizzBuzz недостаточно. Современные дети хотят новую игру, FizzBuzzFibonacci.
Правила для FizzBuzzFibonacci следующие:
Напишите программу, которая выводит целые числа от
1
до100
(включительно):
- Для кратных трем, вывод
Fizz
- Для кратных пяти, вывод
Buzz
- Для кратных и трем, и пяти, вывод
FizzBuzz
- Для чисел, которые являются частью последовательности Фибоначчи, вывод только
Fibonacci
- Для всех остальных, вывод самого числа
Последовательность Фибоначчи - это последовательность чисел, в которой каждое следующее число является суммой двух предыдущих.
Например, начиная с 0
и 1
, следующим числом в последовательности Фибоначчи будет 1
.
За ним следуют: 2
, 3
, 5
, 8
и так далее.
Числа, которые являются частью последовательности Фибоначчи, известны как числа Фибоначчи. Так что нам придется написать функцию, которая определяет числа Фибоначчи.
Есть много способов записать последовательность Фибоначчи и, аналогично, много способов определить число Фибоначчи. Поэтому мы пойдем моим любимым способом:
- Создайте функцию
is_fibonacci_number
, которая принимает целое число и возвращает булево значение. - Итерируйте все числа от
0
до заданного числаn
включительно. - Инициализируйте последовательность Фибоначчи, начиная с
0
и1
в качествеprevious
иcurrent
числа, соответственно. - Продолжайте итерировать, пока
current
число меньше текущей итерацииi
. - Добавьте
previous
иcurrent
число, чтобы получить числоnext_value
. - Обновите
previous
число наcurrent
число. - Обновите
current
число наnext_value
число. - Как только
current
станет больше или равен данному числуn
, мы выйдем из цикла. - Проверьте, равен ли
current
числуn
, и если да, вернитеTrue
. - В противном случае верните
False
.
Теперь нам нужно обновить нашу функцию fizz_buzz
:
- Переименуйте функцию
fizz_buzz
вfizz_buzz_fibonacci
, чтобы сделать ее более описательной. - Вызовите нашу вспомогательную функцию
is_fibonacci_number
. - Если результат из
is_fibonacci_number
равенTrue
, то вернитеFibonacci
. - Если результат из
is_fibonacci_number
равенFalse
, тогда выполните ту же логикуFizz
,Buzz
,FizzBuzz
или возврата числа, возвращая результат.
Поскольку мы переименовали fizz_buzz
в fizz_buzz_fibonacci
, нам также нужно обновить нашу функцию play_game
:
И основной код выполнения, и функция test_game
могут остаться точно такими же.
Бенчмаркинг FizzBuzzFibonacci
Теперь мы можем снова запустить наш бенчмарк:
Прокручивая назад историю терминала,
мы можем визуально сравнить производительность наших игр FizzBuzz и FizzBuzzFibonacci: 10.8307 us
против 735.5682 us
.
Ваши числа будут немного отличаться от моих.
Однако разница между двумя играми, вероятно, будет около 50x.
По-моему, это здорово! Особенно для добавления такой звучной функции, как Фибоначчи, в нашу игру.
Дети это оценят!
Расширение FizzBuzzFibonacci на Python
Наша игра стала хитом! Дети действительно любят играть в FizzBuzzFibonacci.
Настолько, что руководство решило, что им нужен сиквел.
Но это современный мир, нам нужен Ежегодный Повторяющийся Доход (ARR), а не разовые покупки!
Новая концепция нашей игры заключается в том, что она будет открытой, больше никаких ограничений от 1
до 100
(даже если это включительно).
Нет, мы нацелены на новые горизонты!
Правила для Open World FizzBuzzFibonacci следующие:
Напишите программу, которая принимает на ввод любое положительное целое число и выводит:
- Для кратных трем, выводит
Fizz
- Для кратных пяти, выводит
Buzz
- Для кратных и трем, и пяти, выводит
FizzBuzz
- Для чисел, которые являются частью последовательности Фибоначчи, выводит только
Fibonacci
- Для всех остальных чисел, выводит само число
Чтобы наша игра работала для любого числа, нам нужно принимать аргумент командной строки. Обновите основное выполнение, чтобы оно выглядело так:
- Импортируйте пакет
sys
. - Соберите все аргументы (
args
), переданные нашей игре из командной строки. - Получите первый аргумент, переданный нашей игре, и проверьте, является ли он цифрой.
- Если да, преобразуйте первый аргумент в целое число,
i
. - Сыграйте в нашу игру с ново преобразованным целым числом
i
.
- Если да, преобразуйте первый аргумент в целое число,
- Если преобразование не удалось или аргумент не передан, по умолчанию запросите допустимый ввод.
Теперь мы можем играть в нашу игру с любым числом!
Запустите python game.py
, а затем введите целое число, чтобы сыграть в нашу игру:
И если мы пропустим или предоставим недопустимое число:
Вау, это было тщательное тестирование! CI прошел. Наши боссы в восторге. Давайте выпустим это! 🚀
Конец
🐰 … конец вашей карьеры, может быть?
Шутка ли, всё в огне! 🔥
Сначала казалось, что все идет нормально. Но в 02:07 утра в субботу мой пейджер прозвучал:
📟 Ваша игра в огне! 🔥
Выпрыгнув из кровати, я пытался понять, что происходит. Я попытался пройтись по логам, но это было сложно, потому что все постоянно вылетало. Наконец, я нашёл проблему. Дети! Им настолько понравилась наша игра, что они играли в нее аж до миллиона! В свете гениального озарения, я добавил два новых бенчмарка:
- Микротест производительности
test_game_100
для игры с числом сто (100
) - Микротест производительности
test_game_1_000_000
для игры с числом один миллион (1_000_000
)
Когда я его запустил, получилось следующее:
Ждите… ждите…
Что! 15.8470 us
x 1,000
должно быть 15,847.0 us
, а не 571,684.6334 us
🤯
Хотя моя функция для последовательности Фибоначчи работает корректно, где-то там, должно быть, есть ошибка производительности.
Исправляем FizzBuzzFibonacci на Python
Давайте еще раз взглянем на функцию is_fibonacci_number
:
Теперь, когда я задумался о производительности, я понимаю, что у меня есть лишний, ненужный цикл.
Мы можем полностью избавиться от цикла for i in range(n + 1):
и
просто сравнить значение current
с заданным числом (n
) 🤦
- Обновите нашу функцию
is_fibonacci_number
. - Инициализируйте последовательность Фибоначчи, начиная с
0
и1
какprevious
иcurrent
числа соответственно. - Итерация продолжается, пока число
current
меньше, чем заданное числоn
. - Сложите
previous
иcurrent
числа, чтобы получить числоnext_value
. - Обновите число
previous
до значенияcurrent
. - Обновите число
current
до значенияnext_value
. - Как только
current
станет больше или равно заданному числуn
, мы выйдем из цикла. - Проверьте, равно ли число
current
заданному числуn
, и верните этот результат.
Давайте теперь снова запустим эти тесты и посмотрим, как у нас дела:
О, вау! Наш тест производительности test_game
вернулся почти к тому, что было у оригинального FizzBuzz. Жаль, не могу точно вспомнить, каким был этот результат. Но это было три недели назад. История в терминале не идет так далеко. И pytest-benchmark
сохраняет свои результаты только тогда, когда мы об этом просим. Но я думаю, что близко!
Тест производительности test_game_100
упал почти в 50 раз до 322.0815 ns
. И тест производительности test_game_1_000_000
уменьшился более чем в 500,000 раз! С 571,684,633.4 ns
до 753.1445 ns
!
🐰 Ну, по крайней мере, мы поймали эту ошибку производительности до того, как она попала в продакшн… о, точно. Неважно…
Отслеживание регрессий производительности в CI
Руководители были недовольны потоком отрицательных отзывов, которые наша игра получила из-за моей ошибки в производительности. Они сказали мне, чтобы это больше не происходило, и когда я спросил как, они просто сказали мне больше этого не делать. Как мне это контролировать‽
К счастью, я нашел этот замечательный инструмент с открытым исходным кодом под названием Bencher. У него есть очень щедрый бесплатный уровень, поэтому я могу использовать Bencher Cloud для своих личных проектов. А на работе, где все должно быть в нашем приватном облаке, я начал использовать Самостоятельный хостинг Bencher.
У Bencher есть встроенные адаптеры, поэтому их легко интегрировать в CI. После прочтения руководства по быстрому старту, я могу запускать свои бенчмарки и отслеживать их с помощью Bencher.
Используя это замечательное устройство для путешествий во времени, которое мне дал милый кролик, Я смог вернуться в прошлое и повторить то, что бы произошло, если бы мы использовали Bencher с самого начала. Вы можете увидеть, где мы впервые внесли ошибочную реализацию FizzBuzzFibonacci. Я немедленно получил ошибки в CI в виде комментария к моему запросу на вытягивание. В тот же день я исправил ошибку производительности, устранив не нужный, лишний цикл. Никаких пожаров. Только довольные пользователи.
Bencher: Непрерывное тестирование производительности
Bencher - это набор инструментов для непрерывного тестирования производительности. Когда-нибудь регрессия производительности влияла на ваших пользователей? Bencher мог бы предотвратить это. Bencher позволяет вам обнаруживать и предотвращать регрессии производительности до того, как они попадут в продакшн.
- Запустить: Запустите свои тесты производительности локально или в CI, используя ваши любимые инструменты для этого. CLI
bencher
просто оборачивает ваш существующий аппарат тестирования и сохраняет его результаты. - Отслеживать: Отслеживайте результаты ваших тестов производительности со временем. Мониторите, запрашивайте и строите графики результатов с помощью веб-консоли Bencher на основе ветки исходного кода, испытательного стенда и меры.
- Поймать: Отлавливайте регрессии производительности в CI. Bencher использует инструменты аналитики, работающие по последнему слову техники, чтобы обнаружить регрессии производительности, прежде чем они попадут в продакшн.
По тем же причинам, по которым модульные тесты запускаются в CI, чтобы предотвратить регрессии функций, тесты производительности должны быть запущены в CI с Bencher, чтобы предотвратить регрессии производительности. Ошибки производительности – это тоже ошибки!
Начните отлавливать регрессии производительности в CI — попробуйте Bencher Cloud бесплатно.