PRISM/genlab-1c / prism
v1.4.0Star10

Что умеет сейчас

Здесь честно: что в PRISM уже работает, чем это подтверждено и что в планах. Где функция сырая — так и написано.

В двух словах

Автоматическая оценка (Уровень 1) работает для обеих категорий задач: код компилируется, прогоняется скрытыми тестами и запускается в реальной 1С. Слой эксперта (Уровень 2) — пока в планах: для него нужны живые специалисты.

Правила и пороги живут в файлах метрики (metrics/), а где наша оценка надёжна, а где ещё нет — на странице Честные границы. Здесь — только карта состояния.

Что уже работает

СпособностьСостояниеЧем подтверждено
Категория A — оси Синтаксис, Семантика, Оптимальность автоматическиготовоprism check: эталоны A набирают M=10, тесты зелёные
Категория B — запуск кода в реальной 1Сготовоprism check: эталоны B проходят «S=10 · M=10 · P чисто»
Синтаксис категории B проверяет компилятор 1Сготовоошибки ловит настоящий компилятор (/CheckModules), а не приблизительный анализатор
Платформа (P) из запуска — «пережил ли код контакт с базой»готовообращение к несуществующему полю ловится и отделяется от просто неверного ответа
Кто виноват — код или окружениеготовокод не компилируется → 0; нет Docker и т.п. → «не измерено», а не 0
Сборка учебной базы из описания задачиготовобаза собирается из описания и грузится в 1С без ошибок
Полный прогон оценки (S · M · O · P + общий балл Q)готовоодной командой prism score для категорий A и B
Уровень 2 — эксперты и согласие с машинойв планахпрототип платформы разметки — genlab-1c-web; согласие пока не посчитать — нужен не один эксперт

Из чего состоит

Результаты

Авто-прогон Уровня 1 (10 моделей)

Средний общий балл Q на одних и тех же задачах (полные векторы S·M·O·P и срезы по навыкам — на странице Лидерборд). Таблица регенерируется командой prism docs:

МодельQ · категория AQ · категория B
Gemini 3.1 Pro9.784.98
Gemini 3.5 Flash9.789.30
GPT-5.59.008.59
MiMo-V2.57.878.75
DeepSeek V4-Flash7.826.23
Claude Opus 4.87.227.52
Alice AI LLM Flash6.864.60
GLM-4.7 Flash6.325.77
Claude Sonnet 4.66.228.97
GPT-5 Mini6.114.29
GPT-OSS 120B5.894.90
Alice AI LLM5.565.00
Gemini 2.5 Flash Lite5.444.50
Qwen3.6-35B-A3B5.045.29
Qwen3-235B-A22B5.004.96
GigaChat 2 Max4.894.13
YandexGPT 5 Pro4.784.37
YandexGPT 5 Lite4.504.93
YandexGPT 5.1 Pro4.004.59
GigaChat 2 Lite3.004.27
GigaChat 2 Pro2.444.07

(прогон: A — 10 алгоритмических задач, B — 15 платформенных; банк с тех пор подрос до 17 задач B. Ранги по A и B немного различаются — например, GLM на B второй.)

Что показал прогон: DeepSeek V4-Flash — лучший на обеих категориях при копеечной цене; Qwen3-235B (235 млрд параметров) — в хвосте обеих, то есть размер не предсказывает доменный навык 1С. Ось Платформа различает модели по тому, выдумывают ли они метаданные.

Это первый авто-прогон

Одна генерация на задачу, недорогие модели, Уровень 1 без экспертной сверки. Границы применимости — Честные границы. Полные срезы по навыкам — на странице Лидерборд.

Что в планах (по приоритету)

  1. Больше задач. Банк пока небольшой, а от числа и разнообразия заданий напрямую зависит, можно ли уверенно говорить «эта модель лучше той». Рост банка — приоритет №1 (как добавить — Как участвовать).
  2. Открытый прогон на актуальных моделях — больше моделей и генераций, свежие честные цифры на лидерборде.
  3. Уровень 2 с двумя-тремя экспертами — первое настоящее измерение согласия машины и эксперта (главный научный результат проекта).
  4. Проверки категории B на YAXUNIT — стандартный для 1С формат модульных тестов (сейчас формат свой; смысл проверок при переходе сохранится).
  5. Скорость категории B — кэш собранной базы под каждую задачу. Пока главное уже снимает параллелизм (PRISM_CONCURRENCY): ~10–20 секунд на кандидата, общее время масштабируется по ядрам.