Site Reliability Engineer (SRE)

Алматы (Бас офис)
Толық күн
|
2 жылдан 4 жылға дейін
|
3 жылдан 6 жылға дейін

2022 жылы Market.kz-тің Kaspi.kz-пен үлкен интеграциясы орын алды. Қазір ол Kaspi.kz-тегі Хабарландыру болып өзгерді — айына 12,5 миллион қазақстандық пайдаланатын Kaspi.kz экожүйесінің бір бөлігіне айналған general classified.

Kaspi.kz-тегі Хабарландыру сервисінің арқасында жеке тұлғалар мен кәсіпкерлерде тауарларды қауіпсіз және тегін сату, сатып алу немесе айырбастау, қызметтерді ұсыну және алу мүмкіндігі пайда болды.

Біз Kaspi Жұмыс/Хабарландыру командасына Site Reliability Engineer іздейміз, сізден инфрақұрылымның сенімділігі, өнімділігі және ауқымдылығы үшін жауап беру талап етіледі. Сіз әзірлеу мен пайдалану арасындағы процестерді автоматтандыра отырып жұмыс істейтін боласыз.
Негізгі міндеттер:

• Kubernetes негізінде production-инфрақұрылымды қолдау және дамыту

• GitLab-та CI/CD пайплайндарды баптау және оңтайландыру

• Prometheus, VictoriaMetrics, Grafana пайдалана отырып жүйелерге мониторинг жүргізу
• Vector/Elasticsearch/Kibana арқылы логтарды орталықтан жинау және талдау

• Ansible және bash-скрипт көмегімен дағдылы міндеттерді автоматтандыру

• Оқыс оқиғаларды тергеуге және post-mortem талдау жүргізуге қатысу

• Алертинг жүйесін баптау және қолдау

• Инфрақұрылым мен процестерді құжаттандыру

Қойылатын талаптар

Операциялық жүйелер мен құралдар

 

  • Негізгі Linux дистрибутивтерін сенімді пайдалану, жүйені әкімшілендіру, процестерді, файлдық жүйе мен қол жеткізу құқықтарын басқару адғдылары
  • Күнделікті тапсырмаларды автоматтандыру үшін shell-скриптілерді жаза білу, bash синтаксисі мен негізгі құрылымын түсіну
  • DNS жұмыс принциптерін түсіну, атауларды шешу мәселелерін диагностикалау
  • Контейнерлеу және оркестрлеу:
  • Docker-контейнерлермен жұмыс істей білу, Dockerfile жасау, кескіндерді жинау және продакшн-ортада контейнерлерді басқару мүмкіндігі
  • Kubernetes архитектурасын түсіну, кластердегі деплой және қосымшаларды басқару тәжірибесі, негізгі объектілерді (pods, deployments, services) білу
  • Kubernetes-кластерді басқару, проблемаларды диагностикалау және ресурстармен жұмыс істеу үшін kubectl жүйесін сенімді меңгеру
  • Kubernetes-қосымшаларды басқаруға арналған Helm-мен жұмыс істеу дағдылары, charts құрылымын білу және релиздерді белгілей алу


CI/CD және автоматтандыру:

  • Негізгі git (clone, commit, push, pull, merge, branch) командаларын меңгеру, workflow түсіну және нұсқаларды бақылау жүйесі арқылы командада жұмыс істей білу
  • C GitLab-та CI/CD пайплайндарды баптау және қолдау тәжірибесі, үздіксіз интеграция және жеткізу  принциптерін білу
  • Инфрақұрылымды конфигурациялау мен басқаруды автоматтандыру үшін Ansible playbooks жазу бойынша негізгі дағдылар.


Мониторинг және логтау:

• Prometheus-та метрикаларды жинау және сақтау  принциптерін түсіну, мониторинг деректерін талдау үшін PromQL-сұратуларды жазу тәжірибесі

• Метрикаларды визуализациялау үшін дашбордтар жасай білу, data sources баптау және Grafana-да жүйелерге мониторинг жүргізу үшін графиктерді түсіндіру

• Логтарды орталықтан жинау және талдау үшін ELK-стекпен жұмыс істеу дағдылары, Kibana-да қарапайым сұратуларды жаза білу • alerting rules және метриктер мен логтар негізінде хабарламаларды баптау тәжірибесі, оқыс оқиғалардың кезеңдерінің принциптерін түсіну
 

Қосымша технологиялар: 

• Nginx-ті веб-сервер және reverse proxy ретінде баптау тәжірибесі, виртуалды хост пен load balancing конфигурациясын түсіну
• Деректерді оқу және талдау үшін SQL-сұратуларды жазудың базалық дағдылары, реляциялық деректер базасының жұмыс принциптерін түсіну;

• PHP/Go/Python тізімінен бағдарламалау тілдерінің бірінің кодын оқу деңгейінде түсіну.

 

 

Мыналар құпталады:
Құпияларды басқару үшін HashiCorp Vault-пен жұмыс істеу тәжірибесі, credentials және  токендерді қауіпсіз сақтау принциптерін түсіну

GitOps-тәсілмен таныс болу және ArgoCD арқылы қосымшаларды автоматты түрде орналастыруды баптай алу і

SRE тапсырмаларын автоматтандыру және жұмыс тиімділігін арттыру үшін AI  құралдарын қолдану мүмкіндіктері туралы негізгі түсінігі болу

Diagram-as-code (мысалы, Mermaid, PlantUML, D2 Diagrams) құралдарымен инфрақұрылымдық диаграммалар мен схемаларды құру дағдылары

SLI/SLO/SLA және error budget

ұғымдарын түсіну


Біз не ұсынамыз

• Заманауи технологиялық стекпен жұмыс істеу

• Архитектуралық шешімдерге ықпал ету мүмкіндігі

• Кәсіби даму және оқу

• Қолайлы жұмыс жағдайлары