ММЛУ

Измерение понимания языка в условиях массовой многозадачности ( MMLU ) является эталоном для оценки возможностей языковых моделей . Он состоит из около 16 000 вопросов с несколькими вариантами ответов, охватывающих 57 академических предметов, включая математику, философию, право и медицину. Это один из наиболее часто используемых тестов для сравнения возможностей больших языковых моделей: по состоянию на июль 2024 года его загрузили более 100 миллионов раз. ^[1]^[2]

MMLU был выпущен Дэном Хендриксом и командой исследователей в 2020 году. ^[3] и был разработан как более сложный, чем существовавшие на тот момент тесты, такие как GLUE, в которых новые языковые модели достигали точности, превосходящей человеческую. На момент выпуска MMLU большинство существующих языковых моделей работали примерно на уровне случайности (25%), при этом наиболее эффективная модель GPT-3 имела точность 43,9%. ^[3] По оценкам разработчиков MMLU, эксперты в области человеческой деятельности достигают точности около 89,8%. ^[3] Сообщалось , что по состоянию на 2024 год некоторые из наиболее мощных языковых моделей, такие как Claude 3 и GPT-4 , достигли оценок в середине 80-х годов. ^[4]

Примеры

Следующие примеры взяты из задач « Абстрактная алгебра » и « Международное право » соответственно. ^[3] Правильные ответы выделены жирным шрифтом:

Найти все $c$ в $\mathbb {Z} _{3}$ такой, что $\mathbb {Z} _{3}[x]/(x^{2}+c)$ это поле.
(А) 0 (Б) 1 (В) 2 (Г) 3

Будет ли оговорка к определению пытки в МПГПП приемлемой в современной практике?
(A) Это приемлемая оговорка, если в законодательстве страны, сделавшей оговорку, используется другое определение.
(B) Это неприемлемая оговорка, поскольку она противоречит объекту и цели МПГПП.
(C) Это неприемлемая оговорка, поскольку определение пытки в МПГПП соответствует обычному международному праву.
(D) Это приемлемая оговорка, поскольку согласно общему международному праву государства имеют право делать оговорки к договорам.

Ссылки

^ Руз, Кевин (15 апреля 2024 г.). «У ИИ проблемы с измерением» . Нью-Йорк Таймс .
^ «Набор данных MMLU» . Обнимающее лицо . 24 июля 2024 г.
^ Перейти обратно: ^а ^б ^с ^д Хендрикс, Дэн; Бернс, Коллин; Коссен, Энди; Стейнхардт, Джейкоб; Мишкин, Павел; Гимпел, Кевин; Чжу, Марк (2020). «Измерение понимания языка в условиях многозадачности». arXiv : 2009.03300 .
^ «Представляем следующее поколение Клода» . Антропный ИИ . 4 марта 2024 г.

[nyt-1] Руз, Кевин (15 апреля 2024 г.). «У ИИ проблемы с измерением» . Нью-Йорк Таймс .

[huggingface-2] «Набор данных MMLU» . Обнимающее лицо . 24 июля 2024 г.

[paper-3] Перейти обратно: ^а ^б ^с ^д Хендрикс, Дэн; Бернс, Коллин; Коссен, Энди; Стейнхардт, Джейкоб; Мишкин, Павел; Гимпел, Кевин; Чжу, Марк (2020). «Измерение понимания языка в условиях многозадачности». arXiv : 2009.03300 .

[claude3-4] «Представляем следующее поколение Клода» . Антропный ИИ . 4 марта 2024 г.

[1]

[2]

[3]

[4]