Foundry Local 1.1: リアルタイム文字起こし、Embeddings、Responses API

Foundry Local 1.0 はコンセプトを証明しました：開発者フレンドリーな SDK で Windows、macOS（Apple Silicon）、Linux x64 上で AI モデルをローカルで実行できること。バージョン 1.1 は多くの実際の本番ユースケースをカバーする 3 つの機能を追加しています。

ライブ音声文字起こし

最も重要な新機能：マイクから直接リアルタイムで音声をテキストにストリーミング変換。字幕、音声 UI、会議の文字起こし、アクセシビリティツール — すべてクラウド依存なしでローカル実行されます。

API はセッションベースで、結果が到着するとすぐに送信し、中間テキストと確定テキストを区別するための is_final マーカーを使用します。JavaScript、C#、Python、Rust のすべての言語バインディングで利用可能です。

カタログからストリーミング音声モデルを読み込み、音声設定（サンプルレート、チャンネル、言語）でセッションを作成し、起動し、生の PCM オーディオチャンクをプッシュして、結果の非同期ストリームを消費します。投稿には Python と C# の完全な例があります。

テキスト Embeddings

セマンティック検索、RAG パイプライン、クラスタリング、類似性マッチング — これらすべてに embeddings が必要です。Foundry Local 1.1 は embedding モデルのサポートを追加し、クラウドエンドポイントにデータを送信せず、同じ SDK からローカルでベクターを生成できます。

データの居住性が重要なアプリケーションや機密コンテンツを処理する場合、ローカルでの embedding 生成は重要な機能です。

Responses API

Foundry Local は Responses API — エージェント的インタラクションのために設計された構造化インターフェース — をサポートするようになりました。これにより追加されるのは：

ツール呼び出し — ローカルで実行中のモデルが定義したツールを呼び出すことを可能にします
マルチモーダルビジョン-言語入力 — ビジョン対応モデルに画像 + テキストを渡します
標準 API 形式と互換性があるため、OpenAI の Responses API を対象とした既存のエージェントがローカルモデルに対して動作します

パッケージサイズの改善

2 つの変更により JavaScript パッケージサイズが削減されます：

koffi FFI レイヤーがカスタム Node-API C アドオンに置き換えられました
WebGPU 実行プロバイダーは別のプラグインとして配布されるため、GPU アクセラレーションを必要としないアプリケーションはサイズコストを支払う必要がありません

C# SDK は .NET の幅広い互換性のためにより低いフレームワークバージョンをターゲットとするようになりました。

なぜこれが重要か

3 つの機能 — 文字起こし、embeddings、ツール呼び出し — は多くの AI アプリケーションのコアビルディングブロックをカバーしています。これらをローカルで実行することは以下を意味します：

インターネット不要
トークンコストなし
データがマシンを離れない
ネットワーク状態に関わらず一定の遅延

Foundry Local は、エッジシナリオ、プライバシーに敏感なワークロード、オフラインアプリケーション、または開発中にクラウド依存を避けたいあらゆるものに適しています。

元の投稿：Foundry Local 1.1: Live Transcription, Embeddings, and Responses API