DevOps-инженер с 7+ годами опыта в построении и эксплуатации production-инфраструктуры. Специализируюсь на Kubernetes, CI/CD, Infrastructure as Code и внедрении SRE-практик. Имею опыт проектирования отказоустойчивых архитектур, миграции сервисов в контейнерную среду, построения систем мониторинга и централизованного сбора логов. Внедрял метрики DORA для оценки эффективности процессов. Опыт работы с облачными провайдерами (Yandex Cloud, Selectel). Активно использую LLM-инструменты (ChatGPT, Claude, Cursor) для повышения продуктивности.
HRBoxМарт 2023 — настоящее время · Москва (удалённо)
Проектирование и поддержка отказоустойчивой Kubernetes-инфраструктуры для multi-tenant SaaS-платформы (Managed Kubernetes, Selectel)
Разработка универсальных Helm-чартов с динамической параметризацией через values для нескольких локаций, следование принципу DRY
Запуск новых локаций и дата-центров: подготовка инфраструктуры с нуля
Продвижение и внедрение микросервисного подхода в архитектуре приложения
Контейнеризация сервисов и оптимизация Docker-образов (build from scratch, multistage builds)
Построение CI/CD-процесса: сборка и доставка кода в dev/stage/prod (GitLab CI, werf, Yandex Container Registry)
Управление двумя распределёнными PostgreSQL-кластерами (Citus): troubleshooting, анализ и оптимизация производительности
Реализация стратегии резервного копирования PostgreSQL с PITR: миграция с pg_probackup на WAL-G со стримингом в S3, что сократило время и объём backup/restore. Проработка схемы 3-2-1
Автоматизация управления инфраструктурой с помощью Ansible: написание ролей, тестирование через Molecule
Реагирование на инциденты, проведение post-mortem анализа
Построение системы мониторинга и алертинга с нуля (Prometheus, Grafana, Alertmanager), разработка custom Prometheus exporter для SMS-шлюза (Python)
Централизованный сбор логов: внедрение Promtail, затем миграция на стек FluentBit → FluentD → Loki
Внедрение OpenTelemetry-стандарта: настройка сбора трейсов (Tempo), написание документации для команды разработки
Внедрение защиты от DDoS-атак (CrowdSec)
Разработка внутренних утилит и скриптов (Python, Go, Bash): детекция аномалий, автоматизация troubleshooting, миграция тенантов, интеграция с YouTrack
Инициирование и координация запуска нового продукта (чаты): роль project owner, развёртывание LiveKit для видеозвонков, разработка прототипа десктопного клиента (Electron)
Внедрение динамических dev-окружений в Kubernetes — ускорение цикла тестирования на 70%, тестировщики работают через браузер без локального развёртывания
Оптимизация стоимости инфраструктуры: перевод stateless-сервисов на прерываемые ноды с выделением критичных компонентов (PostgreSQL, Redis, шина, планировщик задач) на выделенный пул — сокращение расходов на 20%
Внедрение Redash для dev-окружений: оперативный доступ разработчиков к данным тестовых БД без прямого подключения к кластеру
Внедрение ChatOps-подхода в Slack: интеграция с Alertmanager, Grafana, Sentry, YouTrack, GitLab CI, эскалации, статусы cron-задач, прототипирование семантического поиска по истории сообщений
Найм и менторинг DevOps-инженера: подготовка полноценной замены для обеспечения преемственности процессов
Активное использование LLM-инструментов для повышения продуктивности (ChatGPT, Claude, Cursor)
DevOps-инженер
Яндекс ПрактикумМарт 2023 — Август 2024 (1 год 6 месяцев) · Москва (удалённо)
Подготовка и сопровождение учебной инфраструктуры в Yandex Cloud: VM, Kubernetes-кластеры, Nexus (Terraform, Ansible)
Построение CI/CD-пайплайнов (GitLab CI, ArgoCD)
Разработка веб-приложения для самообслуживания студентов (Python, Flask): аутентификация через LDAP, автоматическая генерация kubeconfig, динамическое создание namespace с RBAC при первом логине — снизило нагрузку на дежурных инженеров на 25%
Автоматизация обслуживания Nexus: скрипт для очистки устаревших репозиториев через API, решение проблемы с некорректной работой встроенного cleanup-механизма
Разработка инструментов автоматизации для снятия рутинной нагрузки с команды
Наставник курса DevOps
Яндекс ПрактикумИюнь 2022 — Март 2023 (10 месяцев) · Москва (удалённо)
Код-ревью домашних заданий студентов, проверка IaC-конфигураций и CI/CD-пайплайнов
Проведение вебинаров по темам курса (Docker, Kubernetes, CI/CD, мониторинг)
Менторинг и консультирование студентов по вопросам DevOps-практик
Старший DevOps-инженер
Cloud TeamФевраль 2022 — Март 2023 (1 год 2 месяца) · Ковров
Аутсорс-компания, основной заказчик — ВсеИнструменты.ру
Внедрение метрик DORA для оценки эффективности работы инженерного отдела
Участие в SRE-команде: реагирование на инциденты, проведение post-mortem
Работа с облачными провайдерами (Yandex Cloud, Selectel): проектирование и управление облачной инфраструктурой
Обеспечение HA для PostgreSQL: Patroni + Consul в качестве KV-хранилища
Участие в миграции системы логирования на Vector + ClickHouse + Redash
Разработка веб-панели для дежурных SRE-инженеров (Python, Flask): переключение трафика между дата-центрами в один клик — снижение человеческого фактора и ускорение реакции на инциденты
Настройка и оптимизация веб-серверов (Nginx, Apache)
Развёртывание Elasticsearch, разработка утилиты для мониторинга сетевых маршрутов (traceroute → FluentBit → Elasticsearch)
Настройка репликации MySQL
Системный администратор Linux
ООО «Этерон»Март 2019 — Июнь 2020 (1 год 4 месяца) · Смоленск
Построение централизованной системы сбора логов (Elasticsearch, FluentD/FluentBit, Kibana)
Миграция инфраструктуры на Docker
Построение процесса CI/CD с нуля
Внедрение инструментов автоматизации и качества кода (SonarQube, Mattermost)
Развёртывание системы мониторинга (Prometheus + Alertmanager + Grafana)
Автоматизация инфраструктурных задач (Ansible, Bash, Python)
Системный администратор
НьюконтактФевраль 2017 — Декабрь 2018 (1 год 11 месяцев) · Смоленск
Администрирование инфраструктуры на 320+ рабочих мест
Управление Active Directory, сетевой инфраструктурой
Администрирование серверов (Windows/Linux)
Специалист технической поддержки
МаннетИюль 2015 — Октябрь 2016 (1 год 4 месяца) · Смоленск
Интернет-провайдер
First-line поддержка: приём и обработка обращений, диагностика и устранение неполадок, реакция на инциденты
Вырос до функций второй линии: взаимодействие с сетевыми инженерами, работа с Zabbix
Тестирование нового оборудования, ведение и наполнение базы знаний
🎓 Образование
Бакалавр — Прикладная информатика в экономике
РАНХиГС (Смоленский филиал), 2018
🎮 Дополнительно
Вне работы продолжаю заниматься тем же, чем и на ней — веду домашнюю homelab, экспериментирую с self-hosting и умным домом, в ближайших планах собрать собственный Kubernetes-кластер и поднять Thanos. Коллекционирую ретро-консоли и занимаюсь их модификацией. Закрываю кризис среднего возраста тем, что учусь кататься на скейтборде. В целом люблю разбираться в сложных задачах и постоянно учиться новому — и на работе, и за её пределами.