Мультимодальный LangChain: текст + изображение + аудио
Соберите прототип ассистента, который читает счёт‑фактуру на фото
и формирует заявку, распознаёт текст, изображение и аудио в одном
пайплайне, используя Gemini Vision,  LLaVA‑v1.6, Audio LLM и LangChain router chains.
  • Что?
    Спроектируете ReAct‑агента, подключите Vision, Audio и search API, опишете state‑machine в LangGraph и получите авто‑отчёт по документу.
  • Формат и длительность
    до 25 человек; 8 часов
  • Для кого?
    CV / Audio AI‑инженеры и R&D‑команды, которым нужен быстрый старт с мультимодальными LLM.
Содержание
Введение в мультимодальные LLM — обзор Gemini Vision, LLaVA‑v1.6 и Audio LLM.
Подготовка данных — загрузка фото счёт‑фактуры, транскрипция аудио, pre‑processing текста.
Router Chains — маршрутизация запросов между Vision, Text и Audio моделями, fallback‑логика.
ReAct‑агент + LangGraph — диаграмма состояний, вызов внешних API, формирование JSON‑заявки.
Интерфейс — запуск Streamlit/FastAPI‑сервиса для загрузки документов и аудио.
Логирование и метрики — запись промежуточных шагов, latency, точность извлечения.
Продакшн‑рекомендации — GPU/CPU trade‑off, масштабирование, хранение эмбеддингов.
Технологический стек
Gemini Vision, LLaVA‑v1.6, Audio LLM, LangChain router chains, Vision LLM, Audio LLM
Предварительные требования
Python 3.10+, GPU/CPU ресурсы, Docker.
Эксперты
  • Дмитрий Жечков
    Эксперт по AI и облачным решениям, архитектор облачных решений в Yandex Cloud, сосредоточен на разработке ПО с использованием Generative AI и агентных архитектур.
  • Носов Андрей
    Профильный специалист с более чем 20-летним опытом в ИТ, специализирующийся на архитектуре решений в области ИИ, LLM, RAG, NLP, системной интеграции и руководстве мультидисциплинарными командами. Практический опыт разработки 27 AI/ML решений. Эксперт в построении AI-инфраструктур и развитии продуктовых команд.
  • Александр Миленкин
    ML Team Lead | Dodo Brands
    Senior Data Scientist | Red Mad Robot
    Senior Data Scientist | X5 Retail Group
Стоимость
Фиксированная цена
за командный пакет
25 000 ₽/участник
для физических лиц
Ознакомьтесь с другими
мастер-классами
Закрываем конкретный вызов: внедрить RAG‑конвейер на LangChain, настроить MLOps‑CI/CD и мониторинг, освоить LoRA/RLHF‑тонкую настройку или добавить guardrails и безопасность
Ваша команда умеет собирать AI уже завтра: технологично, практично, экономно

Напишите нам, и мы подберем решение