Что умеет сейчас
Здесь честно: что в PRISM уже работает, чем это подтверждено и что в планах. Где функция сырая — так и написано.
В двух словах
Автоматическая оценка (Уровень 1) работает для обеих категорий задач: код компилируется, прогоняется скрытыми тестами и запускается в реальной 1С. Слой эксперта (Уровень 2) — пока в планах: для него нужны живые специалисты.
Правила и пороги живут в файлах метрики (metrics/), а где наша оценка надёжна, а где ещё
нет — на странице Честные границы. Здесь — только карта состояния.
Что уже работает
| Способность | Состояние | Чем подтверждено |
|---|---|---|
| Категория A — оси Синтаксис, Семантика, Оптимальность автоматически | готово | prism check: эталоны A набирают M=10, тесты зелёные |
| Категория B — запуск кода в реальной 1С | готово | prism check: эталоны B проходят «S=10 · M=10 · P чисто» |
| Синтаксис категории B проверяет компилятор 1С | готово | ошибки ловит настоящий компилятор (/CheckModules), а не приблизительный анализатор |
| Платформа (P) из запуска — «пережил ли код контакт с базой» | готово | обращение к несуществующему полю ловится и отделяется от просто неверного ответа |
| Кто виноват — код или окружение | готово | код не компилируется → 0; нет Docker и т.п. → «не измерено», а не 0 |
| Сборка учебной базы из описания задачи | готово | база собирается из описания и грузится в 1С без ошибок |
| Полный прогон оценки (S · M · O · P + общий балл Q) | готово | одной командой prism score для категорий A и B |
| Уровень 2 — эксперты и согласие с машиной | в планах | прототип платформы разметки — genlab-1c-web; согласие пока не посчитать — нужен не один эксперт |
Из чего состоит
- Задачи — двух категорий: алгоритмические (
tasks/category_a/) и платформенные (tasks/category_b/). У платформенной задачи есть описание своей учебной базы, тестовые данные, проверки и эталонное решение. Эталоны проверяются настоящим запуском вprism check. - Метрика — правила оценки в
metrics/: ось Платформа считается запуском кода, прежняя проверка «на глаз» убрана. - Запуск кода — по умолчанию в Docker-песочнице (недоверенный код ИИ): OneScript для
категории A, headless-1С для категории B, плюс автоматическая сборка учебной базы. Хост —
опционально (
--runner/--bsl local). - Оценка — модули
harness/score/(по одному на каждую ось); один запуск в 1С даёт сразу и Семантику (M), и Платформу (P).
Результаты
Авто-прогон Уровня 1 (10 моделей)
Средний общий балл Q на одних и тех же задачах (полные векторы S·M·O·P и срезы по навыкам —
на странице Лидерборд). Таблица регенерируется командой prism docs:
| Модель | Q · категория A | Q · категория B |
|---|---|---|
| Gemini 3.1 Pro | 9.78 | 4.98 |
| Gemini 3.5 Flash | 9.78 | 9.30 |
| GPT-5.5 | 9.00 | 8.59 |
| MiMo-V2.5 | 7.87 | 8.75 |
| DeepSeek V4-Flash | 7.82 | 6.23 |
| Claude Opus 4.8 | 7.22 | 7.52 |
| Alice AI LLM Flash | 6.86 | 4.60 |
| GLM-4.7 Flash | 6.32 | 5.77 |
| Claude Sonnet 4.6 | 6.22 | 8.97 |
| GPT-5 Mini | 6.11 | 4.29 |
| GPT-OSS 120B | 5.89 | 4.90 |
| Alice AI LLM | 5.56 | 5.00 |
| Gemini 2.5 Flash Lite | 5.44 | 4.50 |
| Qwen3.6-35B-A3B | 5.04 | 5.29 |
| Qwen3-235B-A22B | 5.00 | 4.96 |
| GigaChat 2 Max | 4.89 | 4.13 |
| YandexGPT 5 Pro | 4.78 | 4.37 |
| YandexGPT 5 Lite | 4.50 | 4.93 |
| YandexGPT 5.1 Pro | 4.00 | 4.59 |
| GigaChat 2 Lite | 3.00 | 4.27 |
| GigaChat 2 Pro | 2.44 | 4.07 |
(прогон: A — 10 алгоритмических задач, B — 15 платформенных; банк с тех пор подрос до 17 задач B. Ранги по A и B немного различаются — например, GLM на B второй.)
Что показал прогон: DeepSeek V4-Flash — лучший на обеих категориях при копеечной цене; Qwen3-235B (235 млрд параметров) — в хвосте обеих, то есть размер не предсказывает доменный навык 1С. Ось Платформа различает модели по тому, выдумывают ли они метаданные.
Это первый авто-прогон
Одна генерация на задачу, недорогие модели, Уровень 1 без экспертной сверки. Границы применимости — Честные границы. Полные срезы по навыкам — на странице Лидерборд.
Что в планах (по приоритету)
- Больше задач. Банк пока небольшой, а от числа и разнообразия заданий напрямую зависит, можно ли уверенно говорить «эта модель лучше той». Рост банка — приоритет №1 (как добавить — Как участвовать).
- Открытый прогон на актуальных моделях — больше моделей и генераций, свежие честные цифры на лидерборде.
- Уровень 2 с двумя-тремя экспертами — первое настоящее измерение согласия машины и эксперта (главный научный результат проекта).
- Проверки категории B на YAXUNIT — стандартный для 1С формат модульных тестов (сейчас формат свой; смысл проверок при переходе сохранится).
- Скорость категории B — кэш собранной базы под каждую задачу. Пока главное уже снимает
параллелизм (
PRISM_CONCURRENCY): ~10–20 секунд на кандидата, общее время масштабируется по ядрам.
