prism — многомерная оценка генерации кода 1С
Открытый бенчмарк качества генерации кода 1С. Код, который написала модель, мы по-настоящему исполняем — компилятор, скрытые тесты, живая база 1С — и оцениваем по четырём осям S M O P (синтаксис · смысл · оптимальность · платформа), а не по принципу «прошло / не прошло».
Участвуйте: добавьте свою модель в лидерборд или пришлите готовый прогон. Как поучаствовать
Модели отсортированы по доле решённых задач в категориях A и B. «Решено» — код прошёл все скрытые проверки.
#модельалгоритмика · Aплатформа 1С · B
1
Google
100%решено
93%решено
2
G5
OpenAI
89%решено
73%решено
3
xiaomi
67%решено
73%решено
4
Anthropic
44%решено
80%решено
5
Anthropic
67%решено
53%решено
6
Google
100%решено
0%решено
7
DeepSeek
56%решено
13%решено
8
Yandex
56%решено
0%решено
9
G4
Zhipu
33%решено
7%решено
10
G5
OpenAI
33%решено
0%решено
11
Yandex
22%решено
7%решено
12
Alibaba
22%решено
7%решено
13
GO
OpenAI
22%решено
7%решено
14
Alibaba
11%решено
13%решено
15
Google
22%решено
0%решено
16
Yandex
11%решено
0%решено
17
Yandex
0%решено
0%решено
18
Yandex
0%решено
0%решено
19
G2
Sber
0%решено
0%решено
20
G2
Sber
0%решено
0%решено
21
G2
Sber
0%решено
0%решено
