Дообучаем отечественную LLM методом LoRA, проводим RLHF-выравнивание, сравниваем качество и упаковываем модель для деплоя
Дообучите RuGPT3Turbo, YaGPTMini или Mistral‑ru с FastLoRA на своём датасете, добавьте RLHF‑PPO в trlX и отладьте модель по метрикам RuSEval / latency / toxicity, а затем задеплойте её в SberCloud ML Space Serving или on‑prem Triton без vendor‑lock‑in.
Что?
Команда дообучает отечественную LLM методом LoRA, проводит RLHF-выравнивание, сравнивает качество до/после и упаковывает модель для деплоя
Формат и длительность
до 25 человек; 8 часов
Для кого?
ML-инженеры и data scientist'ы уровня middle+, которые хотят адаптировать опенсорсные LLM под корпоративные задачи
Содержание
Модуль 1. Подготовка данных и среды
Выбор базовой модели и формат обучающего датасета
Разметка и валидация данных для fine-tuning
Настройка окружения и контроль GPU-ресурсов
Модуль 2. Параметрически эффективный fine-tuning
Метод LoRA: принцип работы и ограничения
Настройка ключевых гиперпараметров
Запуск training loop и отслеживание loss
Модуль 3. RLHF-выравнивание Модуль 4. Оценка и деплой модели
Сравнение качества до и после fine-tuning на тестовых сценариях
Упаковка модели и экспорт весов
Технологический стек
Python, PyTorch, Transformers (HuggingFace), PEFT (LoRA), TRL (RLHF), отечественная LLM (базовая модель на выбор)
Предварительные требования
Python (уверенный уровень), основы PyTorch, понимание архитектуры трансформеров, опыт работы с HuggingFace, доступ к GPU
Эксперты
Дмитрий Жечков
Эксперт по AI и облачным решениям, архитектор облачных решений в Yandex Cloud, сосредоточен на разработке ПО с использованием Generative AI и агентных архитектур.
Носов Андрей
Профильный специалист с более чем 20-летним опытом в ИТ, специализирующийся на архитектуре решений в области ИИ, LLM, RAG, NLP, системной интеграции и руководстве мультидисциплинарными командами. Практический опыт разработки 27 AI/ML решений. Эксперт в построении AI-инфраструктур и развитии продуктовых команд.
Александр Миленкин
ML Team Lead | Dodo Brands Senior Data Scientist | Red Mad Robot Senior Data Scientist | X5 Retail Group
Стоимость
от 350 000 рублей
за команду до 25 человек
Ознакомьтесь с другими мастер-классами
Закрываем конкретный вызов: внедрить RAG‑конвейер на LangChain, мониторинг, освоить LoRA/RLHF‑тонкую настройку или добавить guardrails
мастер-класс
LangChain Enterprise: От локальной модели до агентных систем
Разворачивание локальной LLM, собирает RAG, агент на LangChain и Gradio с мониторингом.
Настраиваем контроль качества LLM-системы: eval-тесты промптов в LangSmith, guardrails для валидации ответов, мониторинг с алертами и автопроверки в CI/CD