Мультимодальный LangChain: текст + изображение + аудио
Соберите прототип ассистента, который читает счёт‑фактуру на фото и формирует заявку, распознаёт текст, изображение и аудио в одном пайплайне, используя Gemini Vision, LLaVA‑v1.6, Audio LLM и LangChain router chains.
Что?
Спроектируете ReAct‑агента, подключите Vision, Audio и search API, опишете state‑machine в LangGraph и получите авто‑отчёт по документу.
Формат и длительность
до 25 человек; 8 часов
Для кого?
CV / Audio AI‑инженеры и R&D‑команды, которым нужен быстрый старт с мультимодальными LLM.
Содержание
Введение в мультимодальные LLM — обзор Gemini Vision, LLaVA‑v1.6 и Audio LLM. Подготовка данных — загрузка фото счёт‑фактуры, транскрипция аудио, pre‑processing текста. Router Chains — маршрутизация запросов между Vision, Text и Audio моделями, fallback‑логика. ReAct‑агент + LangGraph — диаграмма состояний, вызов внешних API, формирование JSON‑заявки. Интерфейс — запуск Streamlit/FastAPI‑сервиса для загрузки документов и аудио. Логирование и метрики — запись промежуточных шагов, latency, точность извлечения. Продакшн‑рекомендации — GPU/CPU trade‑off, масштабирование, хранение эмбеддингов.
Эксперт по AI и облачным решениям, архитектор облачных решений в Yandex Cloud, сосредоточен на разработке ПО с использованием Generative AI и агентных архитектур.
Носов Андрей
Профильный специалист с более чем 20-летним опытом в ИТ, специализирующийся на архитектуре решений в области ИИ, LLM, RAG, NLP, системной интеграции и руководстве мультидисциплинарными командами. Практический опыт разработки 27 AI/ML решений. Эксперт в построении AI-инфраструктур и развитии продуктовых команд.
Александр Миленкин
ML Team Lead | Dodo Brands Senior Data Scientist | Red Mad Robot Senior Data Scientist | X5 Retail Group
Стоимость
Фиксированная цена
за командный пакет
25 000 ₽/участник
для физических лиц
Ознакомьтесь с другими мастер-классами
Закрываем конкретный вызов: внедрить RAG‑конвейер на LangChain, настроить MLOps‑CI/CD и мониторинг, освоить LoRA/RLHF‑тонкую настройку или добавить guardrails и безопасность
мастер-класс
LangChain Start. От первого запроса до работающего чат-бота
Соберите FAQ-бота для службы поддержки, деплой через Streamlit