Премия Хаттера
Премия Хаттера — это денежная премия, финансируемая Маркусом Хаттером , которая вознаграждает за улучшение сжатия данных в конкретном текстовом файле на английском языке размером 1 ГБ с целью стимулирования исследований в области искусственного интеллекта (ИИ).
Премия, учрежденная в 2006 году, присуждает 5000 евро за каждый процент улучшения (при общем объеме финансирования 500 000 евро). [1] в сжатом размере файла enwik9 , который является большим из двух файлов, используемых в тесте сжатия большого текста (LTCB); [2] enwik9 состоит из первых 10 9 байты конкретной версии английской Википедии . [3] Текущий [4] соревнование организуют Хаттер, Мэтт Махони и Джим Бауэри. [1]
По состоянию на 2018 год [update]текстовые данные enwik8 и enwik9 остаются ключевым инструментом для оценки производительности алгоритмов сжатия (как это сделано в LTCB Хаттера) и языковых моделей . [5]
Цели
[ редактировать ]Цель премии Хаттера — стимулировать исследования в области искусственного интеллекта (ИИ). Организаторы считают, что сжатие текста и искусственный интеллект — равноценные проблемы. Хаттер доказал, что оптимальное поведение агента, ищущего цель в неизвестной, но вычислимой среде, состоит в том, чтобы на каждом этапе догадываться, что среда, вероятно, контролируется одной из самых коротких программ, совместимых со всеми взаимодействиями на данный момент. [6] Однако общего решения не существует, поскольку колмогоровская сложность не вычислима. Хаттер доказал, что в ограниченном случае (называемом AIXI ТЛ ), где среда ограничена временем t и пространством l , решение может быть вычислено за время O (t2 л ), что до сих пор неразрешимо.
Организаторы также считают, что сжатие текста на естественном языке — это сложная задача искусственного интеллекта , эквивалентная прохождению теста Тьюринга . Таким образом, прогресс в достижении одной цели представляет собой прогресс в достижении другой. Они утверждают, что предсказание того, какие символы с наибольшей вероятностью появятся следующими в текстовой последовательности, требует обширных практических знаний. Компрессор текста должен решить ту же задачу, чтобы назначать наиболее короткие коды наиболее вероятным текстовым последовательностям. [7]
Такие модели, как ChatGPT, не претендуют на премию Hutter Prize по ряду причин: они могут потребовать слишком много вычислительных ресурсов, чем разрешено конкурентом.
Правила
[ редактировать ]Конкурс является открытым. Он открыт для всех. Чтобы принять участие, участник должен предоставить программу сжатия и декомпрессор, который распаковывает файл enwik9 . [3] Также можно отправить сжатый файл вместо программы сжатия. Общий размер сжатого файла и декомпрессора (исполняемого файла Win32 или Linux) должен быть меньше или равен 99 % размера предыдущей работы, выигравшей приз. За каждый процент улучшения участник выигрывает 5000 евро. Программа распаковки также должна соответствовать ограничениям по времени выполнения и памяти.
Материалы должны быть опубликованы, чтобы обеспечить независимую проверку. Перед вручением премии предусмотрен 30-дневный период ожидания общественного обсуждения. В 2017 году правила были изменены и теперь требуют выпуска исходного кода под лицензией свободного программного обеспечения из-за опасений, что «прошлые материалы [которые не раскрывали свой исходный код] были бесполезны для других, и идеи в них могут быть потеряны». навсегда." [4]
История
[ редактировать ]Этот раздел включает список общих ссылок , но в нем отсутствуют достаточные соответствующие встроенные цитаты . ( Июль 2023 г. ) |
Премия была объявлена 6 августа 2006 года. [1] с текстовым файлом меньшего размера: enwik8 размером 100 МБ. 21 февраля 2020 года он был расширен в 10 раз, до enwik9 в 1 ГБ, аналогично приз увеличивается с 50 000 до 500 000 евро. Первоначальный базовый размер приза составлял 18 324 887 байт, чего достиг PAQ 8F. Базовый размер расширенного приза составил 116 МБ.
20 августа того же года Александр Ратушняк представил PAQ8HKCC, модифицированную версию PAQ8H, в которой сжатие улучшилось на 2,6% по сравнению с PAQ8F. Он продолжил улучшать сжатие до 3,0% с PAQ8HP1 21 августа, 4% с PAQ8HP2 28 августа, 4,9% с PAQ8HP3 3 сентября, 5,9% с PAQ8HP4 10 сентября и 5,9% с PAQ8HP5 25 сентября. При этом В этот момент он был объявлен первым лауреатом премии Хаттера, награжден 3416 евро, а новый базовый размер был установлен в 17 073 018 байт.
С тех пор Ратушняк несколько раз побивал свой рекорд, становясь вторым (14 мая 2007 г., когда PAQ8HP12 сжал enwik8 до 16 481 655 байт и выиграл 1732 евро), третьим (23 мая 2009 г., когда decomp8 сжал файл до 15 949 688 байт), и выиграв 1614 евро), и четвертый (4 ноября 2017 г., когда phda сжал файл до 15 284 944 байт и выиграл 2085 евро) обладатель приза Хаттера.
По состоянию на июль 2023 года Саураб Кумар стал последним лауреатом премии Hutter Prize, который с помощью fast-cmix сжал больший файл enwik9 до 114 156 155 байт и выиграл 5187 евро. [2]
2 февраля 2024 года Кайдо Орав установил новый рекорд enwiki9 — 112 578 322 байта. [2]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с «Премия в размере 500 000 евро за сжатие человеческих знаний» . Премия Хаттера . Проверено 8 января 2023 г.
- ^ Перейти обратно: а б с Махони, Мэтт (2 декабря 2022 г.). «Бенчмарк сжатия большого текста» . Проверено 8 января 2023 г.
- ^ Перейти обратно: а б Махони, Мэтт (01 сентября 2011 г.). «О тестовых данных» . Проверено 16 ноября 2022 г.
- ^ Перейти обратно: а б «Конкурс по сжатию человеческих знаний: часто задаваемые вопросы и ответы» . Премия Хаттера . Проверено 14 октября 2022 г.
- ^ Рэдфорд, Алек; Ву, Джефф; Дитя, Ревон; Луан, Дэвид; Амодей, Дарио; Суцкевер, Илья (2019). «Языковые модели предназначены для многозадачного обучения без присмотра» (PDF) .
- ^ Хаттер, Маркус (2005). Универсальный искусственный интеллект: последовательные решения на основе алгоритмической вероятности . Тексты по теоретической информатике, серия EATCS. Спрингер . дои : 10.1007/b138233 . ISBN 3-540-22139-5 .
- ^ Махони, Мэтт (23 июля 2009 г.). «Обоснование теста сжатия большого текста» . Проверено 16 ноября 2022 г.