Настройте A/B‑оценку ответов и алерты качества. Используйте LangSmith evals, prompt‑versioning и Pydantic‑валидацию. Защитите прод open‑source guardrails и Prometheus‑мониторингом.
Настраиваем контроль качества LLM-системы: eval-тесты промптов в LangSmith, guardrails для валидации ответов, мониторинг с алертами и автопроверки в CI/CD
Что?
Команда настраивает полный цикл контроля качества LLM-системы: eval-тесты промптов в LangSmith, guardrails для валидации и фильтрации ответов, мониторинг с алертами и встраивание проверок в CI/CD.
Формат и длительность
до 25 человек; 8 часов
Для кого?
ML-инженеры, backend-разработчики и DevOps уровня middle+
Содержание
Модуль 1. Оценка качества и версионирование промптов
Подключение LangSmith и организация проекта трассировки
Создание eval-датасетов для автоматической оценки
Сравнение версий промптов по метрикам качества
Модуль 2. Guardrails вывода
Валидация структуры ответа (соответствие JSON-схеме)
Проверка содержания: фильтрация нежелательных и галлюцинированных ответов
Fallback-сценарии при срабатывании guardrails
Модуль 3. Observability и алертинг
Сбор ключевых метрик: latency, расход токенов, доля отказов
Настройка порогов и алертов при деградации качества
Разбор типичных инцидентов и их диагностика по trace-логам
Модуль 4. CI/CD-интеграция
Автоматический прогон тестов при изменении промптов или кода
Встраивание проверок в CI/CD-пайплайн
Технологический стек
Python, LangSmith, LangChain, Pydantic, CI/CD
Предварительные требования
Python, опыт работы с LLM и LangChain, базовое понимание CI/CD-пайплайнов, знакомство с JSON-схемам
Эксперты
Дмитрий Жечков
Эксперт по AI и облачным решениям, архитектор облачных решений в Yandex Cloud, сосредоточен на разработке ПО с использованием Generative AI и агентных архитектур.
Носов Андрей
Профильный специалист с более чем 20-летним опытом в ИТ, специализирующийся на архитектуре решений в области ИИ, LLM, RAG, NLP, системной интеграции и руководстве мультидисциплинарными командами. Практический опыт разработки 27 AI/ML решений. Эксперт в построении AI-инфраструктур и развитии продуктовых команд.
Александр Миленкин
ML Team Lead | Dodo Brands Senior Data Scientist | Red Mad Robot Senior Data Scientist | X5 Retail Group
Стоимость
от 330 000 рублей
за команду до 25 человек
Ознакомьтесь с другими мастер-классами
Закрываем конкретный вызов: внедрить RAG‑конвейер на LangChain, мониторинг, освоить LoRA/RLHF‑тонкую настройку или добавить guardrails
мастер-класс
LangChain Enterprise: От локальной модели до агентных систем
Разворачивание локальной LLM, собирает RAG, агент на LangChain и Gradio с мониторингом.
Настраиваем контроль качества LLM-системы: eval-тесты промптов в LangSmith, guardrails для валидации ответов, мониторинг с алертами и автопроверки в CI/CD