· · 2 минут чтения

Foundry Local 1.1: Транскрипция в реальном времени, Embeddings и Responses API

Foundry Local 1.1 добавляет живую транскрипцию с микрофона, text embeddings и поддержку Responses API — всё работает локально без зависимости от облака, без сетевой задержки, без платы за токен.

Foundry Local AI AI Azure On-Device AI
Эта статья также доступна на:English, Català, Español, Deutsch, Français, Português, Italiano, 日本語, 中文, 한국어, हिन्दी, Polski, Türkçe, العربية, Bahasa Indonesia, Nederlands

Foundry Local 1.0 доказал концепцию: запускать модели ИИ локально на Windows, macOS (Apple Silicon) и Linux x64 с дружественным для разработчиков SDK. Версия 1.1 добавляет три возможности, покрывающие множество реальных производственных сценариев.

Живая транскрипция аудио

Наиболее значимая новая функция: потоковое преобразование речи в текст в реальном времени непосредственно с микрофона. Субтитры, голосовые интерфейсы, транскрипция встреч, инструменты доступности — всё работает локально без каких-либо облачных зависимостей.

API является сессионным и передаёт результаты по мере их поступления с маркерами is_final для разграничения промежуточного и финализированного текста. Доступно для всех языковых привязок: JavaScript, C#, Python и Rust.

Загрузите потоковую речевую модель из каталога, создайте сессию с настройками аудио (частота дискретизации, каналы, язык), запустите её, отправляйте необработанные PCM-аудиочанки и потребляйте асинхронный поток результатов. В статье есть полные примеры на Python и C#.

Text Embeddings

Семантический поиск, RAG-пайплайны, кластеризация, сопоставление по схожести — всё это требует embeddings. Foundry Local 1.1 добавляет поддержку embedding-моделей, чтобы генерировать векторы локально из того же SDK без отправки данных на облачный эндпоинт.

Для приложений, где важна резидентность данных или где обрабатывается чувствительный контент, локальная генерация embeddings является значимой возможностью.

Responses API

Foundry Local теперь поддерживает Responses API — структурированный интерфейс для агентных взаимодействий. Это добавляет:

  • Вызов инструментов — позволяет локально работающим моделям вызывать инструменты, которые вы определяете
  • Мультимодальный ввод vision-language — передавайте изображение + текст моделям с поддержкой зрения
  • Совместимость со стандартной формой API, поэтому существующие агенты, нацеленные на Responses API OpenAI, работают с локальными моделями

Улучшения размера пакета

Два изменения уменьшают размер пакета JavaScript:

  • Слой FFI koffi был заменён на пользовательский Node-API C аддон
  • Провайдер выполнения WebGPU поставляется как отдельный плагин, так что приложениям без GPU-ускорения не нужно платить за его размер

SDK для C# теперь нацелен на более низкие версии фреймворка для более широкой совместимости с .NET.

Почему это важно

Три возможности вместе — транскрипция, embeddings, вызов инструментов — покрывают основные строительные блоки многих приложений ИИ. Запуск их локально означает:

  • Интернет не требуется
  • Нет платы за токены
  • Данные не покидают машину
  • Стабильная задержка независимо от сетевых условий

Foundry Local — правильный выбор для edge-сценариев, чувствительных к конфиденциальности рабочих нагрузок, офлайн-приложений или всего, где нужно избежать облачной зависимости во время разработки.

Оригинальный пост: Foundry Local 1.1: Live Transcription, Embeddings, and Responses API

Поделиться:
Просмотреть исходный код этой статьи на GitHub ↗
← dotnet new WinUI: Создавайте Windows-приложения без Visual Studio
Создать Агентов — Это Лёгкая Часть. Безопасно Их Запустить — Вот Что Сложно →