Site Reliability Engineer (SRE)

Алматы (Головной офис)
Полный день
|
От 2 до 4 лет
|
От 3 до 6 лет

В 2022 году произошла глубокая интеграция Market.kz с Kaspi.kz. Теперь это Объявления на Kaspi.kz — general classified, который стал частью экосистемы Kaspi.kz, которой пользуются 12,5 миллионов казахстанцев в месяц.

Благодаря сервису Объявления на Kaspi.kz частные лица и предприниматели могут безопасно и бесплатно продавать, покупать или обменивать товары, предлагать и получать услуги.

Мы ищем Site Reliability Engineer в команду Kaspi Работа/Объявления, от вас потребуется отвечать за надежность, производительность и масштабируемость инфраструктуры. Вы будете работать на стыке разработки и эксплуатации, автоматизируя процессы, внедряя

Основные обязанности
• Поддержка и развитие production-инфраструктуры на базе Kubernetes
• Настройка и оптимизация CI/CD пайплайнов в GitLab
• Мониторинг систем с использованием Prometheus, VictoriaMetrics, Grafana
• Централизованный сбор и анализ логов через Vector/Elasticsearch/Kibana
• Автоматизация рутинных задач с помощью Ansible и bash-скриптов
• Участие в расследовании инцидентов и проведении post-mortem анализа
• Настройка и поддержка системы алертинга
• Документирование инфраструктуры и процессов

Требования
Операционные системы и инструменты:
• Уверенное владение основными дистрибутивами Linux, навыки администрирования системы, управления процессами, файловой системой и правами доступа
• Умение писать shell-скрипты для автоматизации рутинных задач, понимание синтаксиса и базовых конструкций bash
• Понимание принципов работы DNS, диагностировать проблемы с разрешением имен
Контейнеризация и оркестрация:
• Умение работать с Docker-контейнерами, создавать Dockerfile, собирать образы и управлять контейнерами в продакшн-окружении
• Понимание архитектуры Kubernetes, опыт деплоя и управления приложениями в кластере, знание основных объектов (pods, deployments, services)
• Уверенное владение kubectl для управления Kubernetes-кластером, диагностики проблем и работы с ресурсами
• Базовые навыки работы с Helm для управления Kubernetes-приложениями, понимание структуры charts и умение устанавливать релизы


CI/CD и автоматизация:
• Владение основными командами git (clone, commit, push, pull, merge, branch), понимание workflow и умение работать в команде через систему контроля версий
• Опыт настройки и поддержки CI/CD пайплайнов в GitLab, понимание принципов непрерывной интеграции и доставки
• Базовые навыки написания Ansible playbooks для автоматизации конфигурирования и управления инфраструктурой


Мониторинг и логирование:
• Понимание принципов сбора и хранения метрик в Prometheus, опыт написания PromQL-запросов для анализа данных мониторинга
• Умение создавать дашборды для визуализации метрик, настраивать data sources и интерпретировать графики для мониторинга систем в Grafana
• Базовые навыки работы с ELK-стеком для централизованного сбора и анализа логов, умение писать простые запросы в Kibana
• Опыт настройки alerting rules и уведомлений на основе метрик и логов, понимание принципов эскалации инцидентов


Дополнительные технологии:
• Опыт настройки Nginx в качестве веб-сервера и reverse proxy, понимание конфигурации виртуальных хостов и load balancing
• Базовые навыки написания SQL-запросов для чтения и анализа данных, понимание принципов работы реляционных баз данных
Программирование:
• Понимание на уровне чтения кода одного из языков программирования из списка PHP/Go/Python


Будет плюсом
• Опыт работы с HashiCorp Vault для управления секретами, понимание принципов безопасного хранения credentials и токенов
• Знакомство с GitOps-подходом и умение настраивать автоматический деплой приложений через ArgoCD
• Базовое понимание возможностей применения ИИ-инструментов для автоматизации задач SRE и повышения эффективности работы
• Навыки создания инфраструктурных диаграмм и схем с помощью инструментов diagram-as-code (например, Mermaid, PlantUML, D2 Diagrams)
• Понимание концепций SLI/SLO/SLA и error budget

Что мы предлагаем
• Работу с современным технологическим стеком
• Возможность влиять на архитектурные решения
• Профессиональное развитие и обучение
• Комфортные условия работы