Foundry Local 1.1: रीयल-टाइम ट्रांसक्रिप्शन, Embeddings और Responses API

Emiliano Montesdeoca — Thu, 28 May 2026 00:00:00 +0000

Foundry Local 1.0 ने कॉन्सेप्ट साबित किया: एक डेवलपर-फ्रेंडली SDK के साथ Windows, macOS (Apple Silicon) और Linux x64 पर AI मॉडल लोकल में चलाना। वर्शन 1.1 तीन क्षमताएं जोड़ता है जो कई वास्तविक प्रोडक्शन यूज़ केस को कवर करती हैं।

लाइव ऑडियो ट्रांसक्रिप्शन

सबसे महत्वपूर्ण नई फीचर: माइक्रोफोन से सीधे रीयल-टाइम स्पीच-टू-टेक्स्ट स्ट्रीमिंग। कैप्शन, वॉइस UI, मीटिंग ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल — सब कुछ बिना किसी क्लाउड डिपेंडेंसी के लोकल में चलता है।

API सेशन-बेस्ड है और रिज़ल्ट आते ही स्ट्रीम करती है, is_final मार्कर के साथ अंतिम और अस्थायी टेक्स्ट में अंतर करने के लिए। JavaScript, C#, Python और Rust सहित सभी लैंग्वेज बाइंडिंग में उपलब्ध है।

कैटलॉग से एक स्ट्रीमिंग स्पीच मॉडल लोड करें, ऑडियो सेटिंग्स (सैंपल रेट, चैनल, भाषा) के साथ सेशन बनाएं, इसे शुरू करें, रॉ PCM ऑडियो चंक्स पुश करें, और रिज़ल्ट का async स्ट्रीम उपभोग करें। पोस्ट में Python और C# के पूरे उदाहरण हैं।

टेक्स्ट Embeddings

सिमेंटिक सर्च, RAG पाइपलाइन, क्लस्टरिंग, सिमिलरिटी मैचिंग — इन सभी को embeddings की जरूरत है। Foundry Local 1.1 embedding मॉडल सपोर्ट जोड़ता है ताकि आप उसी SDK से लोकल में वेक्टर जेनरेट कर सकें, बिना क्लाउड एंडपॉइंट को डेटा भेजे।

उन एप्लिकेशन के लिए जहां डेटा रेसिडेंसी मायने रखती है या जहां आप संवेदनशील कंटेंट प्रोसेस करते हैं, लोकल embedding जेनरेशन एक महत्वपूर्ण क्षमता है।

Responses API

Foundry Local अब Responses API — एजेंटिक इंटरैक्शन के लिए डिज़ाइन किया गया स्ट्रक्चर्ड इंटरफेस — को सपोर्ट करता है। इससे जुड़ता है:

Tool calling — लोकल में चल रहे मॉडल को आपके परिभाषित टूल्स इनवोक करने दें
मल्टीमोडल विज़न-लैंग्वेज इनपुट — विज़न-सक्षम मॉडल को इमेज + टेक्स्ट पास करें
स्टैंडर्ड API शेप के साथ कंपैटिबल, इसलिए OpenAI के Responses API को टार्गेट करने वाले मौजूदा agents लोकल मॉडल के साथ काम करते हैं

पैकेज साइज़ में सुधार

दो बदलाव JavaScript पैकेज साइज़ को कम करते हैं:

koffi FFI लेयर को कस्टम Node-API C addon से बदला गया है
WebGPU execution provider एक अलग प्लगइन के रूप में शिप होता है, इसलिए GPU acceleration की जरूरत नहीं रखने वाले एप्लिकेशन साइज़ कोस्ट नहीं चुकाते

C# SDK अब अधिक .NET कंपैटिबिलिटी के लिए लोअर फ्रेमवर्क वर्शन को टार्गेट करता है।

यह क्यों मायने रखता है

तीनों क्षमताएं — ट्रांसक्रिप्शन, embeddings, tool calling — मिलकर कई AI एप्लिकेशन के कोर बिल्डिंग ब्लॉक को कवर करती हैं। उन्हें लोकल में चलाने का मतलब है:

कोई इंटरनेट जरूरी नहीं
कोई प्रति-टोकन लागत नहीं
कोई डेटा मशीन नहीं छोड़ता
नेटवर्क स्थितियों की परवाह किए बिना लगातार लेटेंसी

Foundry Local एज परिदृश्यों, प्राइवेसी-संवेदनशील वर्कलोड, ऑफलाइन एप्लिकेशन, या डेवलपमेंट के दौरान क्लाउड डिपेंडेंसी से बचने के लिए सही विकल्प है।