Foundry Local 1.0 demostró el concepto: ejecutar modelos de IA localmente en Windows, macOS (Apple Silicon) y Linux x64 con un SDK amigable para desarrolladores. La versión 1.1 añade tres capacidades que cubren muchos casos de uso reales en producción.
Transcripción de Audio en Vivo
La nueva característica más significativa: streaming de voz a texto en tiempo real directamente desde el micrófono. Subtítulos, interfaces de voz, transcripción de reuniones, herramientas de accesibilidad — todo ejecutándose localmente sin ninguna dependencia de la nube.
La API es basada en sesiones y transmite resultados a medida que llegan, con marcadores is_final para distinguir texto intermedio del finalizado. Disponible en todos los bindings de lenguajes: JavaScript, C#, Python y Rust.
Carga un modelo de voz en streaming del catálogo, crea una sesión con ajustes de audio (frecuencia de muestreo, canales, idioma), iníciala, envía fragmentos de audio PCM sin procesar y consume el stream asíncrono de resultados. El artículo tiene ejemplos completos en Python y C#.
Embeddings de Texto
Búsqueda semántica, pipelines RAG, clustering, comparación de similitudes — todo esto requiere embeddings. Foundry Local 1.1 añade soporte para modelos de embeddings para que puedas generar vectores localmente desde el mismo SDK, sin enviar datos a un endpoint en la nube.
Para aplicaciones donde la residencia de datos importa o donde procesas contenido sensible, la generación local de embeddings es una capacidad significativa.
API de Respuestas
Foundry Local ahora soporta la API de Respuestas — la interfaz estructurada diseñada para interacciones agénticas. Esto añade:
- Llamada a herramientas — permite que los modelos que se ejecutan localmente invoquen herramientas que defines tú
- Entrada multimodal visión-lenguaje — pasa imagen + texto a modelos capaces de visión
- Compatible con la forma estándar de la API, por lo que los agentes existentes que apuntan a la API de Respuestas de OpenAI funcionan contra modelos locales
Mejoras en el Tamaño del Paquete
Dos cambios reducen el tamaño del paquete de JavaScript:
- La capa FFI
koffiha sido reemplazada por un addon C de Node-API personalizado - El proveedor de ejecución WebGPU se distribuye como un plugin separado, para que las aplicaciones que no necesitan aceleración por GPU no paguen el coste de tamaño
El SDK de C# ahora apunta a versiones de framework inferiores para mayor compatibilidad con .NET.
Por Qué Esto Importa
Las tres capacidades juntas — transcripción, embeddings, llamada a herramientas — cubren los bloques de construcción fundamentales de muchas aplicaciones de IA. Ejecutarlos localmente significa:
- Sin internet requerido
- Sin costes por token
- Sin datos que salgan de la máquina
- Latencia consistente independientemente de las condiciones de red
Foundry Local es la elección correcta para escenarios en el borde, cargas de trabajo sensibles a la privacidad, aplicaciones sin conexión, o cualquier cosa donde quieras evitar la dependencia de la nube durante el desarrollo.
Post original: Foundry Local 1.1: Live Transcription, Embeddings, and Responses API
