· · 3 मिनट पढ़ें

Foundry Local 1.1: रीयल-टाइम ट्रांसक्रिप्शन, Embeddings और Responses API

Foundry Local 1.1 लाइव माइक्रोफोन ट्रांसक्रिप्शन, टेक्स्ट embeddings और Responses API सपोर्ट जोड़ता है — सब कुछ बिना क्लाउड डिपेंडेंसी, नेटवर्क लेटेंसी, प्रति-टोकन लागत के लोकल में चलता है।

Foundry Local AI AI Azure On-Device AI
यह पोस्ट इसमें भी उपलब्ध है:English, Català, Español, Deutsch, Français, Português, Italiano, 日本語, 中文, 한국어, Русский, Polski, Türkçe, العربية, Bahasa Indonesia, Nederlands

Foundry Local 1.0 ने कॉन्सेप्ट साबित किया: एक डेवलपर-फ्रेंडली SDK के साथ Windows, macOS (Apple Silicon) और Linux x64 पर AI मॉडल लोकल में चलाना। वर्शन 1.1 तीन क्षमताएं जोड़ता है जो कई वास्तविक प्रोडक्शन यूज़ केस को कवर करती हैं।

लाइव ऑडियो ट्रांसक्रिप्शन

सबसे महत्वपूर्ण नई फीचर: माइक्रोफोन से सीधे रीयल-टाइम स्पीच-टू-टेक्स्ट स्ट्रीमिंग। कैप्शन, वॉइस UI, मीटिंग ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल — सब कुछ बिना किसी क्लाउड डिपेंडेंसी के लोकल में चलता है।

API सेशन-बेस्ड है और रिज़ल्ट आते ही स्ट्रीम करती है, is_final मार्कर के साथ अंतिम और अस्थायी टेक्स्ट में अंतर करने के लिए। JavaScript, C#, Python और Rust सहित सभी लैंग्वेज बाइंडिंग में उपलब्ध है।

कैटलॉग से एक स्ट्रीमिंग स्पीच मॉडल लोड करें, ऑडियो सेटिंग्स (सैंपल रेट, चैनल, भाषा) के साथ सेशन बनाएं, इसे शुरू करें, रॉ PCM ऑडियो चंक्स पुश करें, और रिज़ल्ट का async स्ट्रीम उपभोग करें। पोस्ट में Python और C# के पूरे उदाहरण हैं।

टेक्स्ट Embeddings

सिमेंटिक सर्च, RAG पाइपलाइन, क्लस्टरिंग, सिमिलरिटी मैचिंग — इन सभी को embeddings की जरूरत है। Foundry Local 1.1 embedding मॉडल सपोर्ट जोड़ता है ताकि आप उसी SDK से लोकल में वेक्टर जेनरेट कर सकें, बिना क्लाउड एंडपॉइंट को डेटा भेजे।

उन एप्लिकेशन के लिए जहां डेटा रेसिडेंसी मायने रखती है या जहां आप संवेदनशील कंटेंट प्रोसेस करते हैं, लोकल embedding जेनरेशन एक महत्वपूर्ण क्षमता है।

Responses API

Foundry Local अब Responses API — एजेंटिक इंटरैक्शन के लिए डिज़ाइन किया गया स्ट्रक्चर्ड इंटरफेस — को सपोर्ट करता है। इससे जुड़ता है:

  • Tool calling — लोकल में चल रहे मॉडल को आपके परिभाषित टूल्स इनवोक करने दें
  • मल्टीमोडल विज़न-लैंग्वेज इनपुट — विज़न-सक्षम मॉडल को इमेज + टेक्स्ट पास करें
  • स्टैंडर्ड API शेप के साथ कंपैटिबल, इसलिए OpenAI के Responses API को टार्गेट करने वाले मौजूदा agents लोकल मॉडल के साथ काम करते हैं

पैकेज साइज़ में सुधार

दो बदलाव JavaScript पैकेज साइज़ को कम करते हैं:

  • koffi FFI लेयर को कस्टम Node-API C addon से बदला गया है
  • WebGPU execution provider एक अलग प्लगइन के रूप में शिप होता है, इसलिए GPU acceleration की जरूरत नहीं रखने वाले एप्लिकेशन साइज़ कोस्ट नहीं चुकाते

C# SDK अब अधिक .NET कंपैटिबिलिटी के लिए लोअर फ्रेमवर्क वर्शन को टार्गेट करता है।

यह क्यों मायने रखता है

तीनों क्षमताएं — ट्रांसक्रिप्शन, embeddings, tool calling — मिलकर कई AI एप्लिकेशन के कोर बिल्डिंग ब्लॉक को कवर करती हैं। उन्हें लोकल में चलाने का मतलब है:

  • कोई इंटरनेट जरूरी नहीं
  • कोई प्रति-टोकन लागत नहीं
  • कोई डेटा मशीन नहीं छोड़ता
  • नेटवर्क स्थितियों की परवाह किए बिना लगातार लेटेंसी

Foundry Local एज परिदृश्यों, प्राइवेसी-संवेदनशील वर्कलोड, ऑफलाइन एप्लिकेशन, या डेवलपमेंट के दौरान क्लाउड डिपेंडेंसी से बचने के लिए सही विकल्प है।

ओरिजिनल पोस्ट: Foundry Local 1.1: Live Transcription, Embeddings, and Responses API

साझा करें:
GitHub पर इस पोस्ट का सोर्स कोड देखें ↗
← dotnet new WinUI: Visual Studio के बिना Windows ऐप बनाएं
एजेंट बनाना आसान हिस्सा है — उन्हें सुरक्षित रूप से चलाना मुश्किल हिस्सा है →