Что умеет сейчас

Здесь честно: что в PRISM уже работает, чем это подтверждено и что в планах. Где функция сырая — так и написано.

В двух словах

Автоматическая оценка (Уровень 1) работает для обеих категорий задач: код компилируется, прогоняется скрытыми тестами и запускается в реальной 1С. Слой эксперта (Уровень 2) — пока в планах: для него нужны живые специалисты.

Правила и пороги живут в файлах метрики (metrics/), а где наша оценка надёжна, а где ещё нет — на странице Честные границы. Здесь — только карта состояния.

Что уже работает

Способность	Состояние	Чем подтверждено
Категория A — оси Синтаксис, Семантика, Оптимальность автоматически	готово	`prism check`: эталоны A набирают M=10, тесты зелёные
Категория B — запуск кода в реальной 1С	готово	`prism check`: эталоны B проходят «S=10 · M=10 · P чисто»
Синтаксис категории B проверяет компилятор 1С	готово	ошибки ловит настоящий компилятор (`/CheckModules`), а не приблизительный анализатор
Платформа (P) из запуска — «пережил ли код контакт с базой»	готово	обращение к несуществующему полю ловится и отделяется от просто неверного ответа
Кто виноват — код или окружение	готово	код не компилируется → 0; нет Docker и т.п. → «не измерено», а не 0
Сборка учебной базы из описания задачи	готово	база собирается из описания и грузится в 1С без ошибок
Полный прогон оценки (S · M · O · P + общий балл Q)	готово	одной командой `prism score` для категорий A и B
Уровень 2 — эксперты и согласие с машиной	в планах	прототип платформы разметки — genlab-1c-web; согласие пока не посчитать — нужен не один эксперт

Из чего состоит

Задачи — двух категорий: алгоритмические (tasks/category_a/) и платформенные (tasks/category_b/). У платформенной задачи есть описание своей учебной базы, тестовые данные, проверки и эталонное решение. Эталоны проверяются настоящим запуском в prism check.
Метрика — правила оценки в metrics/: ось Платформа считается запуском кода, прежняя проверка «на глаз» убрана.
Запуск кода — по умолчанию в Docker-песочнице (недоверенный код ИИ): OneScript для категории A, headless-1С для категории B, плюс автоматическая сборка учебной базы. Хост — опционально (--runner/--bsl local).
Оценка — модули harness/score/ (по одному на каждую ось); один запуск в 1С даёт сразу и Семантику (M), и Платформу (P).

Результаты

Авто-прогон Уровня 1 (10 моделей)

Средний общий балл Q на одних и тех же задачах (полные векторы S·M·O·P и срезы по навыкам — на странице Лидерборд). Таблица регенерируется командой prism docs:

Модель	Q · категория A	Q · категория B
Gemini 3.1 Pro	9.78	4.98
Gemini 3.5 Flash	9.78	9.30
GPT-5.5	9.00	8.59
MiMo-V2.5	7.87	8.75
DeepSeek V4-Flash	7.82	6.23
Claude Opus 4.8	7.22	7.52
Alice AI LLM Flash	6.86	4.60
GLM-4.7 Flash	6.32	5.77
Claude Sonnet 4.6	6.22	8.97
GPT-5 Mini	6.11	4.29
GPT-OSS 120B	5.89	4.90
Alice AI LLM	5.56	5.00
Gemini 2.5 Flash Lite	5.44	4.50
Qwen3.6-35B-A3B	5.04	5.29
Qwen3-235B-A22B	5.00	4.96
GigaChat 2 Max	4.89	4.13
YandexGPT 5 Pro	4.78	4.37
YandexGPT 5 Lite	4.50	4.93
YandexGPT 5.1 Pro	4.00	4.59
GigaChat 2 Lite	3.00	4.27
GigaChat 2 Pro	2.44	4.07

(прогон: A — 10 алгоритмических задач, B — 15 платформенных; банк с тех пор подрос до 17 задач B. Ранги по A и B немного различаются — например, GLM на B второй.)

Что показал прогон: DeepSeek V4-Flash — лучший на обеих категориях при копеечной цене; Qwen3-235B (235 млрд параметров) — в хвосте обеих, то есть размер не предсказывает доменный навык 1С. Ось Платформа различает модели по тому, выдумывают ли они метаданные.

Это первый авто-прогон

Одна генерация на задачу, недорогие модели, Уровень 1 без экспертной сверки. Границы применимости — Честные границы. Полные срезы по навыкам — на странице Лидерборд.

Что в планах (по приоритету)

Больше задач. Банк пока небольшой, а от числа и разнообразия заданий напрямую зависит, можно ли уверенно говорить «эта модель лучше той». Рост банка — приоритет №1 (как добавить — Как участвовать).
Открытый прогон на актуальных моделях — больше моделей и генераций, свежие честные цифры на лидерборде.
Уровень 2 с двумя-тремя экспертами — первое настоящее измерение согласия машины и эксперта (главный научный результат проекта).
Проверки категории B на YAXUNIT — стандартный для 1С формат модульных тестов (сейчас формат свой; смысл проверок при переходе сохранится).
Скорость категории B — кэш собранной базы под каждую задачу. Пока главное уже снимает параллелизм (PRISM_CONCURRENCY): ~10–20 секунд на кандидата, общее время масштабируется по ядрам.