28 मई 2026 · Emiliano Montesdeoca · 3 मिनट पढ़ें

Foundry Local 1.1: रीयल-टाइम ट्रांसक्रिप्शन, Embeddings और Responses API

Foundry Local 1.1 लाइव माइक्रोफोन ट्रांसक्रिप्शन, टेक्स्ट embeddings और Responses API सपोर्ट जोड़ता है — सब कुछ बिना क्लाउड डिपेंडेंसी, नेटवर्क लेटेंसी, प्रति-टोकन लागत के लोकल में चलता है।

यह पोस्ट इसमें भी उपलब्ध है:English, Català, Español, Deutsch, Français, Português, Italiano, 日本語, 中文, 한국어, Русский, Polski, Türkçe, العربية, Bahasa Indonesia, Nederlands

Foundry Local 1.0 ने कॉन्सेप्ट साबित किया: एक डेवलपर-फ्रेंडली SDK के साथ Windows, macOS (Apple Silicon) और Linux x64 पर AI मॉडल लोकल में चलाना। वर्शन 1.1 तीन क्षमताएं जोड़ता है जो कई वास्तविक प्रोडक्शन यूज़ केस को कवर करती हैं।

लाइव ऑडियो ट्रांसक्रिप्शन

सबसे महत्वपूर्ण नई फीचर: माइक्रोफोन से सीधे रीयल-टाइम स्पीच-टू-टेक्स्ट स्ट्रीमिंग। कैप्शन, वॉइस UI, मीटिंग ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल — सब कुछ बिना किसी क्लाउड डिपेंडेंसी के लोकल में चलता है।

API सेशन-बेस्ड है और रिज़ल्ट आते ही स्ट्रीम करती है, is_final मार्कर के साथ अंतिम और अस्थायी टेक्स्ट में अंतर करने के लिए। JavaScript, C#, Python और Rust सहित सभी लैंग्वेज बाइंडिंग में उपलब्ध है।

कैटलॉग से एक स्ट्रीमिंग स्पीच मॉडल लोड करें, ऑडियो सेटिंग्स (सैंपल रेट, चैनल, भाषा) के साथ सेशन बनाएं, इसे शुरू करें, रॉ PCM ऑडियो चंक्स पुश करें, और रिज़ल्ट का async स्ट्रीम उपभोग करें। पोस्ट में Python और C# के पूरे उदाहरण हैं।

टेक्स्ट Embeddings

सिमेंटिक सर्च, RAG पाइपलाइन, क्लस्टरिंग, सिमिलरिटी मैचिंग — इन सभी को embeddings की जरूरत है। Foundry Local 1.1 embedding मॉडल सपोर्ट जोड़ता है ताकि आप उसी SDK से लोकल में वेक्टर जेनरेट कर सकें, बिना क्लाउड एंडपॉइंट को डेटा भेजे।

उन एप्लिकेशन के लिए जहां डेटा रेसिडेंसी मायने रखती है या जहां आप संवेदनशील कंटेंट प्रोसेस करते हैं, लोकल embedding जेनरेशन एक महत्वपूर्ण क्षमता है।

Responses API

Foundry Local अब Responses API — एजेंटिक इंटरैक्शन के लिए डिज़ाइन किया गया स्ट्रक्चर्ड इंटरफेस — को सपोर्ट करता है। इससे जुड़ता है:

Tool calling — लोकल में चल रहे मॉडल को आपके परिभाषित टूल्स इनवोक करने दें
मल्टीमोडल विज़न-लैंग्वेज इनपुट — विज़न-सक्षम मॉडल को इमेज + टेक्स्ट पास करें
स्टैंडर्ड API शेप के साथ कंपैटिबल, इसलिए OpenAI के Responses API को टार्गेट करने वाले मौजूदा agents लोकल मॉडल के साथ काम करते हैं

पैकेज साइज़ में सुधार

दो बदलाव JavaScript पैकेज साइज़ को कम करते हैं:

koffi FFI लेयर को कस्टम Node-API C addon से बदला गया है
WebGPU execution provider एक अलग प्लगइन के रूप में शिप होता है, इसलिए GPU acceleration की जरूरत नहीं रखने वाले एप्लिकेशन साइज़ कोस्ट नहीं चुकाते

C# SDK अब अधिक .NET कंपैटिबिलिटी के लिए लोअर फ्रेमवर्क वर्शन को टार्गेट करता है।

यह क्यों मायने रखता है

तीनों क्षमताएं — ट्रांसक्रिप्शन, embeddings, tool calling — मिलकर कई AI एप्लिकेशन के कोर बिल्डिंग ब्लॉक को कवर करती हैं। उन्हें लोकल में चलाने का मतलब है:

कोई इंटरनेट जरूरी नहीं
कोई प्रति-टोकन लागत नहीं
कोई डेटा मशीन नहीं छोड़ता
नेटवर्क स्थितियों की परवाह किए बिना लगातार लेटेंसी

Foundry Local एज परिदृश्यों, प्राइवेसी-संवेदनशील वर्कलोड, ऑफलाइन एप्लिकेशन, या डेवलपमेंट के दौरान क्लाउड डिपेंडेंसी से बचने के लिए सही विकल्प है।

ओरिजिनल पोस्ट: Foundry Local 1.1: Live Transcription, Embeddings, and Responses API

GitHub पर इस पोस्ट का सोर्स कोड देखें ↗

Emiliano Montesdeoca

↗

Microsoft MVP और Team Lead Cloud Solutions

Emiliano एक उरुग्वे-स्पेनिश सॉफ़्टवेयर डेवलपर हैं, Developer Technologies में Microsoft MVP और Tenerife, Canary Islands में स्थित समुदाय समर्थक हैं। वे Microsoft तकनीकों का उपयोग करके स्केलेबल क्लाउड समाधान तैयार करने में विशेषज्ञ हैं और वर्तमान में Intelequia Technologies में Cloud Solutions Team के Team Lead के रूप में कार्यरत हैं। एक बार-बार अंतर्राष्ट्रीय सम्मेलन वक्ता और ज्ञान साझा करने के प्रति जुनूनी, वे वास्तविक दुनिया की समस्या-समाधान को डेवलपर्स के लिए व्यावहारिक अंतर्दृष्टि में बदलते हैं।

← Foundry Local अब edge AI development को व्यावहारिक महसूस कराने लगा है

एजेंट बनाना आसान हिस्सा है — उन्हें सुरक्षित रूप से चलाना मुश्किल हिस्सा है →