Fine‑Tuning & RLHF 
российских LLM

Secure Agentic AI
под 152-ФЗ
Дообучаем отечественную LLM методом LoRA, проводим RLHF-выравнивание, сравниваем качество и упаковываем модель для деплоя
Дообучите RuGPT3Turbo, YaGPTMini 
или Mistral‑ru с FastLoRA на своём
датасете, добавьте RLHF‑PPO в trlX 
и отладьте модель по метрикам RuSEval / latency / toxicity,
а затем задеплойте её в SberCloud ML Space Serving 
или on‑prem Triton без vendor‑lock‑in.
  • Что?
    Команда дообучает отечественную LLM методом LoRA, проводит RLHF-выравнивание, сравнивает качество до/после и упаковывает модель для деплоя
  • Формат и длительность
    до 25 человек; 8 часов
  • Для кого?
    ML-инженеры и data scientist'ы уровня middle+, которые хотят адаптировать опенсорсные LLM под корпоративные задачи
Содержание
Модуль 1. Подготовка данных и среды 
  • Выбор базовой модели и формат обучающего датасета 
  • Разметка и валидация данных для fine-tuning 
  • Настройка окружения и контроль GPU-ресурсов
Модуль 2. Параметрически эффективный fine-tuning 
  • Метод LoRA: принцип работы и ограничения 
  • Настройка ключевых гиперпараметров 
  • Запуск training loop и отслеживание loss
Модуль 3. RLHF-выравнивание 
Модуль 4. Оценка и деплой модели 
  • Сравнение качества до и после fine-tuning на тестовых сценариях 
  • Упаковка модели и экспорт весов 
Технологический стек
Python, PyTorch, Transformers (HuggingFace), PEFT (LoRA), TRL (RLHF), отечественная LLM (базовая модель на выбор)
Предварительные требования
Python (уверенный уровень), основы PyTorch, понимание архитектуры трансформеров, опыт работы с HuggingFace, доступ к GPU
Эксперты
  • Дмитрий Жечков
    Эксперт по AI и облачным решениям, архитектор облачных решений в Yandex Cloud, сосредоточен на разработке ПО с использованием Generative AI и агентных архитектур.
  • Носов Андрей
    Профильный специалист с более чем 20-летним опытом в ИТ, специализирующийся на архитектуре решений в области ИИ, LLM, RAG, NLP, системной интеграции и руководстве мультидисциплинарными командами. Практический опыт разработки 27 AI/ML решений. Эксперт в построении AI-инфраструктур и развитии продуктовых команд.
  • Александр Миленкин
    ML Team Lead | Dodo Brands
    Senior Data Scientist | Red Mad Robot
    Senior Data Scientist | X5 Retail Group
Стоимость
от 350 000 рублей
за команду до 25 человек
Ознакомьтесь с другими
мастер-классами
Закрываем конкретный вызов: внедрить RAG‑конвейер на LangChain, мониторинг, освоить LoRA/RLHF‑тонкую настройку или добавить guardrails
Ваша команда умеет собирать AI уже завтра: технологично, практично, экономно

Напишите нам, и мы подберем решение