ММЛУ
Измерение понимания языка в условиях массовой многозадачности ( MMLU ) является эталоном для оценки возможностей языковых моделей . Он состоит из около 16 000 вопросов с несколькими вариантами ответов, охватывающих 57 академических предметов, включая математику, философию, право и медицину. Это один из наиболее часто используемых тестов для сравнения возможностей больших языковых моделей: по состоянию на июль 2024 года его загрузили более 100 миллионов раз. [1] [2]
MMLU был выпущен Дэном Хендриксом и командой исследователей в 2020 году. [3] и был разработан как более сложный, чем существовавшие на тот момент тесты, такие как GLUE, в которых новые языковые модели достигали точности, превосходящей человеческую. На момент выпуска MMLU большинство существующих языковых моделей работали примерно на уровне случайности (25%), при этом наиболее эффективная модель GPT-3 имела точность 43,9%. [3] По оценкам разработчиков MMLU, эксперты в области человеческой деятельности достигают точности около 89,8%. [3] Сообщалось , что по состоянию на 2024 год некоторые из наиболее мощных языковых моделей, такие как Claude 3 и GPT-4 , достигли оценок в середине 80-х годов. [4]
Примеры
[ редактировать ]Следующие примеры взяты из задач « Абстрактная алгебра » и « Международное право » соответственно. [3] Правильные ответы выделены жирным шрифтом:
Найти все в такой, что это поле.
(А) 0 (Б) 1 (В) 2 (Г) 3
Будет ли оговорка к определению пытки в МПГПП приемлемой в современной практике?
(A) Это приемлемая оговорка, если в законодательстве страны, сделавшей оговорку, используется другое определение.
(B) Это неприемлемая оговорка, поскольку она противоречит объекту и цели МПГПП.
(C) Это неприемлемая оговорка, поскольку определение пытки в МПГПП соответствует обычному международному праву.
(D) Это приемлемая оговорка, поскольку согласно общему международному праву государства имеют право делать оговорки к договорам.
Ссылки
[ редактировать ]- ^ Руз, Кевин (15 апреля 2024 г.). «У ИИ проблемы с измерением» . Нью-Йорк Таймс .
- ^ «Набор данных MMLU» . Обнимающее лицо . 24 июля 2024 г.
- ^ Перейти обратно: а б с д Хендрикс, Дэн; Бернс, Коллин; Коссен, Энди; Стейнхардт, Джейкоб; Мишкин, Павел; Гимпел, Кевин; Чжу, Марк (2020). «Измерение понимания языка в условиях многозадачности». arXiv : 2009.03300 .
- ^ «Представляем следующее поколение Клода» . Антропный ИИ . 4 марта 2024 г.