Jump to content

ММЛУ

Измерение понимания языка в условиях массовой многозадачности ( MMLU ) является эталоном для оценки возможностей языковых моделей . Он состоит из около 16 000 вопросов с несколькими вариантами ответов, охватывающих 57 академических предметов, включая математику, философию, право и медицину. Это один из наиболее часто используемых тестов для сравнения возможностей больших языковых моделей: по состоянию на июль 2024 года его загрузили более 100 миллионов раз. [1] [2]

MMLU был выпущен Дэном Хендриксом и командой исследователей в 2020 году. [3] и был разработан как более сложный, чем существовавшие на тот момент тесты, такие как GLUE, в которых новые языковые модели достигали точности, превосходящей человеческую. На момент выпуска MMLU большинство существующих языковых моделей работали примерно на уровне случайности (25%), при этом наиболее эффективная модель GPT-3 имела точность 43,9%. [3] По оценкам разработчиков MMLU, эксперты в области человеческой деятельности достигают точности около 89,8%. [3] Сообщалось , что по состоянию на 2024 год некоторые из наиболее мощных языковых моделей, такие как Claude 3 и GPT-4 , достигли оценок в середине 80-х годов. [4]

Следующие примеры взяты из задач « Абстрактная алгебра » и « Международное право » соответственно. [3] Правильные ответы выделены жирным шрифтом:

Найти все в такой, что это поле.

(А) 0 (Б) 1 (В) 2 (Г) 3

Будет ли оговорка к определению пытки в МПГПП приемлемой в современной практике?

(A) Это приемлемая оговорка, если в законодательстве страны, сделавшей оговорку, используется другое определение.
(B) Это неприемлемая оговорка, поскольку она противоречит объекту и цели МПГПП.
(C) Это неприемлемая оговорка, поскольку определение пытки в МПГПП соответствует обычному международному праву.
(D) Это приемлемая оговорка, поскольку согласно общему международному праву государства имеют право делать оговорки к договорам.

  1. ^ Руз, Кевин (15 апреля 2024 г.). «У ИИ проблемы с измерением» . Нью-Йорк Таймс .
  2. ^ «Набор данных MMLU» . Обнимающее лицо . 24 июля 2024 г.
  3. ^ Перейти обратно: а б с д Хендрикс, Дэн; Бернс, Коллин; Коссен, Энди; Стейнхардт, Джейкоб; Мишкин, Павел; Гимпел, Кевин; Чжу, Марк (2020). «Измерение понимания языка в условиях многозадачности». arXiv : 2009.03300 .
  4. ^ «Представляем следующее поколение Клода» . Антропный ИИ . 4 марта 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c9d41116520b0b3d17f0face4ad304cc__1722050220
URL1:https://arc.ask3.ru/arc/aa/c9/cc/c9d41116520b0b3d17f0face4ad304cc.html
Заголовок, (Title) документа по адресу, URL1:
MMLU - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)