RFT в Foundry стал дешевле и умнее — Вот что изменилось

Emiliano Montesdeoca — Sat, 18 Apr 2026 00:00:00 +0000

Этот пост был переведён автоматически. Оригинал можно прочитать здесь.

Если вы разрабатываете .NET-приложения, которые зависят от дообученных моделей, обновления Foundry этого месяца заслуживают внимания. Reinforcement Fine-Tuning стал более доступным и значительно дешевле.

Полные подробности — в официальном анонсе, а здесь — практическая выжимка.

Глобальное обучение для o4-mini

o4-mini — это основная модель для задач, требующих рассуждений, и агентных нагрузок. Главная новость: теперь вы можете запускать задачи файнтюнинга из 13+ регионов Azure с более низкими тарифами за токен по сравнению со Standard-обучением. Та же инфраструктура, то же качество, более широкий охват.

Если ваша команда распределена по разным географиям, это важно. Вы больше не привязаны к нескольким регионам для обучения.

Вот REST API вызов для запуска глобальной задачи обучения:

curl -X POST "https://<your-resource>.openai.azure.com/openai/fine_tuning/jobs?api-version=2025-04-01-preview" \
 -H "Content-Type: application/json" \
 -H "api-key: $AZURE_OPENAI_API_KEY" \
 -d '{
 "model": "o4-mini",
 "training_file": "<your-training-file-id>",
 "method": {
 "type": "reinforcement",
 "reinforcement": {
 "grader": {
 "type": "string_check",
 "name": "answer-check",
 "input": "{{sample.output_text}}",
 "reference": "{{item.reference_answer}}",
 "operation": "eq"
 }
 }
 },
 "hyperparameters": {
 "n_epochs": 2,
 "compute_multiplier": 1.0
 },
 "trainingType": "globalstandard"
 }'

Флаг trainingType: globalstandard — это ключевое отличие.

Новые модельные грейдеры: семейство GPT-4.1

Грейдеры определяют сигнал вознаграждения, под который оптимизируется ваша модель. До сих пор модельные грейдеры были ограничены небольшим набором моделей. Теперь у вас есть три новых варианта: GPT-4.1, GPT-4.1-mini и GPT-4.1-nano.

Когда стоит использовать модельные грейдеры вместо детерминированных? Когда вывод вашей задачи открытый, когда вам нужна частичная оценка по нескольким измерениям, или когда вы строите агентные рабочие процессы, где корректность вызовов инструментов зависит от семантического контекста.

Суть в том, что стратегия уровней практична:

GPT-4.1-nano для начальных итераций. Низкая стоимость, быстрые циклы обратной связи.
GPT-4.1-mini когда ваша рубрика оценки стабильна и нужна более высокая точность.
GPT-4.1 для продакшен-оценки или сложных рубрик, где важно каждое решение по оценке.

Вы даже можете комбинировать типы грейдеров в одной задаче RFT. Используйте string-match для измерения «правильный ответ» и модельный грейдер для оценки качества рассуждений. Честно говоря, именно эта гибкость делает его полезным для реальных нагрузок.

Подводный камень формата данных RFT

На этом многие спотыкаются. Формат данных RFT отличается от SFT. Последнее сообщение в каждой строке должно иметь роль User или Developer — не Assistant. Ожидаемый ответ помещается в ключ верхнего уровня, например reference_answer, на который грейдер ссылается напрямую.

Если вы занимались supervised fine-tuning и хотите перейти на RFT, вам нужно перестроить обучающие данные. Не пропускайте этот шаг, иначе ваши задачи будут молча завершаться с ошибкой.

Почему это важно для .NET-разработчиков

Если вы вызываете дообученные модели из .NET-приложений через Azure OpenAI SDK, более дешёвое обучение означает, что вы можете итерировать более агрессивно. Варианты модельных грейдеров означают, что вы можете файнтюнить для нюансированных задач — не только для сценариев точного совпадения. А руководство по лучшим практикам на GitHub сэкономит вам реальное время отладки.

Начните с малого. От десяти до ста примеров. Простой грейдер. Проверьте цикл. Затем масштабируйте.

Machine-Learning | The .NET Blog

RFT в Foundry стал дешевле и умнее — Вот что изменилось

Глобальное обучение для o4-mini

Новые модельные грейдеры: семейство GPT-4.1

Подводный камень формата данных RFT

Почему это важно для .NET-разработчиков