Logo
НазадНазад

Инженер по поддержке больших данных

ГибридМосква

Обязанности

Поддержка инфраструктуры ML/LLM: сопровождение виртуальных машин и контейнерных сред (Kubernetes), мониторинг распределения ресурсов (CPU/RAM/GPU), диагностика bottleneck'ов в инференсе моделей;
Observability и алертинг: поддержка стека Prometheus / VictoriaMetrics + Grafana, написание запросов на PromQL и SQL для диагностики состояния сервисов, настройка SLO/SLI, создание дашбордов для отслеживания latency, throughput и ошибок LLM;
Эксплуатация микросервисов: сопровождение распределенной архитектуры, трассировка запросов между сервисами, анализ логов при инцидентах;
Инцидент-менеджмент: оперативное реагирование на алерты, проведение RCA, разработка ранбуков для типовых сценариев отказов (проседание GPU, заполнение VRAM, деградация API моделей);
Взаимодействие с моделями: отладка API-запросов к LLM (OpenAI-compatible endpoints, локальные inference-серверы), диагностика ошибок токенизации, rate limiting, timeout'ов;
Автоматизация рутины: написание Python-скриптов для автоматизации диагностики, сбора метрик, перезапуска зависших задач, парсинга логов;
Эскалация: взаимодействие с командами разработки и инфраструктуры при сложных инцидентах, передача задач в сроки;
Что мы ожидаем от кандидата:
Инфраструктура: понимание принципов работы виртуальных машин и контейнеризации; умение анализировать распределение ресурсов
Мониторинг: уверенное владение Prometheus и Grafana, написание запросов на PromQL; понимание метрик инференса (latency p95/p99, GPU utilization, queue size);
Данные: знание Loki для анализа логов и метрик; базовое понимание векторных БД;
Разработка: Python (автоматизация, скрипты для диагностики);
LLM и API: понимание работы LLM-сервисов (инференс, токены, контекстное окно)
Будет плюсом:
Опыт работы с LLM-инференс движками (vLLM, SGLang);
Знание LangChain/LangFlow для понимания цепочек вызовов моделей;
Знание английского языка (чтение технической документации).
Что важно:
Мы ищем инженера, который понимает, что значит «модель упала по OOM» или «просел p95 latency», и может быстро локализовать проблему — в коде, инфраструктуре или самой модели.

Профессиональные навыки

Инфраструктура: понимание принципов работы виртуальных машин и контейнеризации; умение анализировать распределение ресурсов
Мониторинг: уверенное владение Prometheus и Grafana, написание запросов на PromQL; понимание метрик инференса (latency p95/p99, GPU utilization, queue size);
Данные: знание Loki для анализа логов и метрик; базовое понимание векторных БД;
Разработка: Python (автоматизация, скрипты для диагностики);
LLM и API: понимание работы LLM-сервисов (инференс, токены, контекстное окно)
Будет плюсом:
Опыт работы с LLM-инференс движками (vLLM, SGLang);
Знание LangChain/LangFlow для понимания цепочек вызовов моделей;
Знание английского языка (чтение технической документации).
Что важно:
Мы ищем инженера, который понимает, что значит «модель упала по OOM» или «просел p95 latency», и может быстро локализовать проблему — в коде, инфраструктуре или самой модели.

Личные качества

  • аналитические способности, системное мышление, умение работать с большими объемами информации;
  • умение работать в режиме многозадачности, принимать самостоятельные решения;
  • нацеленность на результат;
  • хорошие навыки коммуникации (письменные и устные)

Требования

Образование
Высшее
Опыт работы
От года
Иностранные языки
Английский, B1
Программные навыки
Среда разработки, трекеры задач, база знаний

Условия работы

График работы
Пятидневный

Поможем в обучении и развитии

Научим круто рассказывать

о том, что ты делаешь

  • Внутренняя школа спикеров и авторов
  • Возможность участвовать в крупнейших
    конференциях страны и прокачать
    личный бренд

Вместе прокачаем харды и софты

  • Корпоративный университет, онлайн-библиотека,
    программы развития управленческих навыков
  • Дистанционные курсы на образовательных
    платформах
  • Тренинги, митапы и вебинары

Предоставим не просто социальный пакет, а пакет с пакетами

Наградим плюшками передовой
компании

  • Удалённый или в гибридный формат работы
  • Премии по результатам работы

Позаботимся о здоровье

  • Широкий пакет ДМС со стоматологией
  • Онлайн-психотерапия от «Ясно»

Поделимся скидками сотрудника

«Пятёрочка», «Перекрёсток», «Много лосося», «Перекресток Впрок», а также программа привилегий Prime-zone

Покажем, насколько яркой может быть корпоративная жизнь

Организуем встречи
с топ-менеджментом: слышим
и открыто делимся планами
и результатами

Поощряем активность
сотрудников

За участие в жизни компании награждаем ачивками и баллами, на которые можно купить классный мерч

Развиваем корпоративные
сообщества

Технические, лайфстайл, спортивные или все сразу? Выбирать тебе!

ЕнотикЕнотик

Творим добро

Организовываем благотворительные ярмарки, выезжаем в приюты и устраиваем субботники

Помогаем реализовываться

Корпоративное предпринимательство X5 Idea Challenge

ЕнотикЕнотик

Устраиваем масштабные праздники

Корпоративы, день рождения компании, новый год, день IT-специалиста, день спасибо.

Отклик на вакансию

PDF, до 5 МБ

Поделиться вакансией