Foundry Local 1.0 ने कॉन्सेप्ट साबित किया: एक डेवलपर-फ्रेंडली SDK के साथ Windows, macOS (Apple Silicon) और Linux x64 पर AI मॉडल लोकल में चलाना। वर्शन 1.1 तीन क्षमताएं जोड़ता है जो कई वास्तविक प्रोडक्शन यूज़ केस को कवर करती हैं।
लाइव ऑडियो ट्रांसक्रिप्शन
सबसे महत्वपूर्ण नई फीचर: माइक्रोफोन से सीधे रीयल-टाइम स्पीच-टू-टेक्स्ट स्ट्रीमिंग। कैप्शन, वॉइस UI, मीटिंग ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल — सब कुछ बिना किसी क्लाउड डिपेंडेंसी के लोकल में चलता है।
API सेशन-बेस्ड है और रिज़ल्ट आते ही स्ट्रीम करती है, is_final मार्कर के साथ अंतिम और अस्थायी टेक्स्ट में अंतर करने के लिए। JavaScript, C#, Python और Rust सहित सभी लैंग्वेज बाइंडिंग में उपलब्ध है।
कैटलॉग से एक स्ट्रीमिंग स्पीच मॉडल लोड करें, ऑडियो सेटिंग्स (सैंपल रेट, चैनल, भाषा) के साथ सेशन बनाएं, इसे शुरू करें, रॉ PCM ऑडियो चंक्स पुश करें, और रिज़ल्ट का async स्ट्रीम उपभोग करें। पोस्ट में Python और C# के पूरे उदाहरण हैं।
टेक्स्ट Embeddings
सिमेंटिक सर्च, RAG पाइपलाइन, क्लस्टरिंग, सिमिलरिटी मैचिंग — इन सभी को embeddings की जरूरत है। Foundry Local 1.1 embedding मॉडल सपोर्ट जोड़ता है ताकि आप उसी SDK से लोकल में वेक्टर जेनरेट कर सकें, बिना क्लाउड एंडपॉइंट को डेटा भेजे।
उन एप्लिकेशन के लिए जहां डेटा रेसिडेंसी मायने रखती है या जहां आप संवेदनशील कंटेंट प्रोसेस करते हैं, लोकल embedding जेनरेशन एक महत्वपूर्ण क्षमता है।
Responses API
Foundry Local अब Responses API — एजेंटिक इंटरैक्शन के लिए डिज़ाइन किया गया स्ट्रक्चर्ड इंटरफेस — को सपोर्ट करता है। इससे जुड़ता है:
- Tool calling — लोकल में चल रहे मॉडल को आपके परिभाषित टूल्स इनवोक करने दें
- मल्टीमोडल विज़न-लैंग्वेज इनपुट — विज़न-सक्षम मॉडल को इमेज + टेक्स्ट पास करें
- स्टैंडर्ड API शेप के साथ कंपैटिबल, इसलिए OpenAI के Responses API को टार्गेट करने वाले मौजूदा agents लोकल मॉडल के साथ काम करते हैं
पैकेज साइज़ में सुधार
दो बदलाव JavaScript पैकेज साइज़ को कम करते हैं:
koffiFFI लेयर को कस्टम Node-API C addon से बदला गया है- WebGPU execution provider एक अलग प्लगइन के रूप में शिप होता है, इसलिए GPU acceleration की जरूरत नहीं रखने वाले एप्लिकेशन साइज़ कोस्ट नहीं चुकाते
C# SDK अब अधिक .NET कंपैटिबिलिटी के लिए लोअर फ्रेमवर्क वर्शन को टार्गेट करता है।
यह क्यों मायने रखता है
तीनों क्षमताएं — ट्रांसक्रिप्शन, embeddings, tool calling — मिलकर कई AI एप्लिकेशन के कोर बिल्डिंग ब्लॉक को कवर करती हैं। उन्हें लोकल में चलाने का मतलब है:
- कोई इंटरनेट जरूरी नहीं
- कोई प्रति-टोकन लागत नहीं
- कोई डेटा मशीन नहीं छोड़ता
- नेटवर्क स्थितियों की परवाह किए बिना लगातार लेटेंसी
Foundry Local एज परिदृश्यों, प्राइवेसी-संवेदनशील वर्कलोड, ऑफलाइन एप्लिकेशन, या डेवलपमेंट के दौरान क्लाउड डिपेंडेंसी से बचने के लिए सही विकल्प है।
ओरिजिनल पोस्ट: Foundry Local 1.1: Live Transcription, Embeddings, and Responses API
