Self-hosted слой, который роутит запросы к моделям по классу задачи, учится на верифицируемых исходах и аудирует каждое решение — чтобы инженеры выпускали быстрее, а CFO не боялся неконтролируемых расходов на ИИ.
✶ ✶ ✶Одна модель ошибается одинаково и молча. Форум разных моделей спорит — и из спора рождается решение, которое можно проверить, улучшить со временем и предъявить регулятору. AGORA превращает это в инфраструктуру.
| Боль | Как закрывает AGORA |
|---|---|
| Одна LLM — слепые зоны, тихие галлюцинации | Форум разно-модельных персон → структурированное несогласие → синтез |
| Модель пинится вручную, расходы растут | «Умный роутер»: модель выбирается на лету по классу задачи |
| «Кто решил и почему?» — нечем ответить | Аудируемый эпистемический след каждого решения (Decision Audit Report) |
| Модель тихо деградирует | Champion/canary-детектор дрифта + алерты ДО инцидента |
| Учиться не на чем — исход неясен | Обучение ТОЛЬКО на верифицируемых исходах (тест прошёл / PR смержен) |
OpenAI-совместимый эндпоинт. Агент (Cline, Claude Code, Hermes) подключается как к обычному провайдеру — а модель меняется на лету.
На реальных исходах ваших задач, не на популяционных средних. Приватный feedback-датасет, откалиброванный под вас.
Каждое решение — append-only след: кто участвовал, что возразил диссентер, чем кончилось. Артефакт для SOC2 / EU AI Act.
Ядро — не «голосование моделей», а роль-осведомлённый дебат. Каждая персона = СТАНС на РАЗНОМ семействе моделей (некоррелированные ошибки — в этом ценность).
Диссентер (skeptic) держит зарезервированное место и оценивается на
«ретроспективной правоте», а не на победах — иначе bandit за 30–50 итераций убил бы диверсити.
Это принцип P3. Подробнее о персонах — в обзоре AGORA.
Роутер выбирает модель не случайно и не по прайсу, а по тому, кто выигрывает на ВАШЕМ классе задач — и становится точнее с каждым проверенным исходом.
POST /v1/chat/completions + GET /v1/models. Ваш агент (Cline, Claude Code,
Aider, Hermes) ставит base_url на AGORA и model: "auto" — модель меняется
на лету по классу задачи, переподключать ничего не надо. Подробности — Connect.Голый tests_passed ломается законом Гудхарта: модель напишет запутанный код, который
формально проходит тесты, или сгенерирует тесты сама себе. Поэтому награда — взвешенная, а компонент
тестов считается только от внешних тестов репозитория (модель не оценивает свою же домашку):
reward = 0.4·tests_passed + 0.3·pr_merged_no_revision + 0.2·(1−review_rounds) + 0.1·token_efficiency
У кодинг-задач истина быстрая (тест за секунды) — на них можно учиться. У AML/KYC истина зреет 30–90 дней; учиться рано = выучить «groupthink-прокси». Поэтому класс переходит из shadow (логируем, не применяем) в live только когда судья откалиброван: κ≥0.7 при N≥50 и есть независимая человеческая оценка. До тех пор мозг честно говорит: «учусь тихо, в бой не включаю».
«Закрытый контур» — это то, что отличает governance от роутера: каждое утверждение проверяемо, каждый доллар учтён, каждая egress-точка под tripwire.
Любое заявление можно превратить в тестируемое предсказание и проверить детерминированно
(read-only проба, secret-scrubbed). confirmed=false = коробка сама опровергла заявление —
это и есть ценный сигнал.
«Client-owned» — это threat-model: вы можете доказать целостность аудита, даже не доверяя AGORA. Механизм:
agora-verify (отдельный репо) — вы проверяете chain + подписи сами.Per-consumer виртуальные ключи с бюджетами (fail-closed: over-budget = отказ, не тихий даунгрейд). Spend атрибутируется по ключу — основа chargeback-биллинга, отдельного от «полиции людей».
AGORA опирается на телеметрию, а не на обещания. Три доказательства — и все из реальных данных вашего контура, видимые в панели мониторинга.
Сколько $ сэкономлено на токенах, с разбивкой по task_class — видна логика
(code_gen→GPT-4o, simple_qa→Haiku). Источник: spend per-model + usage_report.
Не веса и лоссы, а история решений во времени:
[Нед 1] code_review → GPT-4o tests_passed ✓ но дорого [Нед 3] code_review → Sonnet tests_passed ✓ −40% стоимость (роутер сам выбрал) [Нед 8] confidence(Sonnet, code_review) κ=0.84 → learning update активирован → «Система стала умнее за 8 недель. Без единой строки конфига от вас.»
Сколько дрифт-событий поймано и сколько потенциальных потерь предотвращено. Резонирует с любой командой, у кого был инцидент с молча деградировавшей моделью.
Главный принцип: не конкурировать на «дешевле токены» (это коммодити — RouteLLM OSS, Bedrock нативно). Конкурировать на «кто отвечает за то, что ИИ решил, и докажет это».
| Горизонт | Моат | Источник |
|---|---|---|
| Сейчас | Архитектурная сложность: роль-осведомлённость × фидбэк-обучение × закрытый контур | 6–9 мес конкуренту |
| 6–18 мес | Per-client feedback-data + κ-калибровка | растущий switching cost |
| 18+ мес | Cross-client паттерны + сеть аудит-артефактов | data network effect |
Stateless. Без фидбэк-контура, без аудита, без роль-осведомлённости. OSS — нет стимула строить compliance-слой.
Vendor-lock: хотят вас на СВОИХ моделях. Роутинг через конкурентов — против их бизнеса. Аудит-trail = их данные, не ваши.
Команды с ИИ в продакшне, которым важны три вещи разом: контроль расходов, качество решений и аудируемость — финтех и регулируемые отрасли, AI-heavy продукты, компании с несколькими командами на разных моделях.
Путь — от наблюдения к управлению, без риска на входе:
| Факт | Цифра | Источник |
|---|---|---|
| Управление AI-расходами стало нормой | 31% → 63% → 98% (2024→2025→2026) | FinOps Foundation, State of FinOps 2026 |
| «FinOps for AI» — приоритет №1 наперёд | 33% респондентов | FinOps 2026 |
| Инструмент №1, которого нет на рынке | гранулярный мониторинг AI-расходов (токены/LLM/GPU) | FinOps 2026 |
| Регуляторный драйвер аудита | EU AI Act (high-risk) — 2 авг 2026 · DORA — с 17.01.2025 | artificialintelligenceact.eu |
Роутинг — коммодити, это правда. Но «учиться на ВАШИХ верифицируемых исходах + аудит, принадлежащий клиенту + роль-делиберация» не делает никто. Это проверено по живым продуктам, не на словах.
| Игрок | Роутит | Учится на ваших исходах | Client-owned аудит | Роль-делиберация | Self-host |
|---|---|---|---|---|---|
| RouteLLM (OSS) | да (binary) | нет (preference-data) | — | нет | да |
| LiteLLM | да (правила) | нет | req/resp логи | нет | да |
| OpenRouter | да (Auto) | нет | usage | нет | нет (SaaS) |
| Bedrock IPR | только within-family | нет (docs: «can't») | platform-only | нет | нет |
| Azure Model Router | cross-vendor (в Azure) | нет (pre-trained) | Azure Policy | нет | нет |
| Portkey / Helicone | да (config-правила) | нет | RBAC/SOC2 | нет | да |
| Credal / Langfuse | —/мульти | нет | сильный (SOC2 II) | нет | да |
| AGORA | ✓ | ✓ closed-loop | ✓ client-owned | ✓ | ✓ |
Самый кредибельный: единственный cloud, реально cross-vendor + обученный. Слаб: pre-trained и статичен — не учится на ВАШИХ исходах, cloud-locked, нет роль-делиберации, нет client-owned ledger.
Слаб вербатим из AWS-доков: маршрутизирует «within the same model family» (нет cross-competitor), «can't adjust routing based on application-specific performance data», English-only, нет self-host.
Книга продукта AGORA · обновляется исследованиями и периодическими консилиумами · 2026-06-09
Тех-первоисточники: обзор AGORA ·
деплой · портал.