~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 6D7CCD08585FD1CC8511D8BCA48ACF7D__1709555280 ✰
Заголовок документа оригинал.:
✰ Byte pair encoding - Wikipedia ✰
Заголовок документа перевод.:
✰ Кодирование пары байтов — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Byte_pair_encoding ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/6d/7d/6d7ccd08585fd1cc8511d8bca48acf7d.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/6d/7d/6d7ccd08585fd1cc8511d8bca48acf7d__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 17:57:42 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 4 March 2024, at 15:28 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Кодирование пары байтов — Википедия Jump to content

Кодирование пары байтов

Из Википедии, бесплатной энциклопедии

Кодирование пары байтов [1] [2] (также известное как диграммное кодирование ) [3] — это алгоритм, впервые описанный в 1994 году Филипом Гейджем для кодирования строк текста в табличную форму для использования в дальнейшем моделировании. [4] Его модификация примечательна тем, что представляет собой большой токенизатор языковой модели с возможностью объединения как токенов, кодирующих отдельные символы (включая отдельные цифры или отдельные знаки препинания), так и токенов, кодирующих целые слова (даже самые длинные составные слова). [5] [6] [7] Эта модификация на первом этапе предполагает, что все уникальные символы представляют собой начальный набор односимвольных n-грамм (т.е. начальные «токены»). Затем последовательно наиболее частая пара соседних символов объединяется в новую, двухсимвольную n-грамму, и все экземпляры пары заменяются этим новым токеном. Это повторяется до тех пор, пока не будет получен словарь заданного размера. Обратите внимание, что новые слова всегда можно составить из окончательных словарных токенов и символов начального набора. [8]

Все уникальные токены, найденные в корпусе, перечислены в словаре токенов, размер которого в случае GPT-3.5 и GPT-4 равен 100256.

Отличие модифицированного алгоритма от исходного заключается в том, что исходный алгоритм не объединяет наиболее часто встречающиеся пары байтов данных, а заменяет их новым байтом, которого не было в исходном наборе данных. Таблица поиска замен необходима для восстановления исходного набора данных. Алгоритм эффективен для токенизации, поскольку он имеет низкие вычислительные затраты и остается последовательным и надежным.

Оригинальный алгоритм [ править ]

Исходный алгоритм работает путем итеративной замены наиболее распространенных смежных последовательностей символов в целевом тексте неиспользуемыми байтами-заполнителями. Итерация заканчивается, когда не удается найти ни одной последовательности, в результате чего целевой текст эффективно сжимается. Распаковку можно выполнить, обратив этот процесс, проверив известные термины-заполнители по их соответствующей обозначенной последовательности, используя таблицу поиска. В исходной статье эта справочная таблица закодирована и хранится вместе со сжатым текстом.

Пример [ править ]

Предположим, что данные, подлежащие кодированию,

ааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа
 

Пара байтов «аа» встречается чаще всего, поэтому она будет заменена байтом, который не используется в данных, например «Z». Теперь есть следующие данные и таблица замены:

ЗабдЗабац
 Z=аа
 

Затем процесс повторяется с парой байтов «ab», заменяя ее на «Y»:

ЗЫдЗЯц
 Y=ab
 Z=аа
 

Единственная оставшаяся пара буквальных байтов встречается только один раз, и на этом кодирование может остановиться. В качестве альтернативы процесс можно продолжить с рекурсивным кодированием пары байтов, заменив «ZY» на «X»:

XdXac
 Х=ЗЫ
 Y=ab
 Z=аа
 

Эти данные не могут быть дополнительно сжаты путем парного кодирования байтов, поскольку не существует пар байтов, встречающихся более одного раза.

Чтобы распаковать данные, просто выполните замены в обратном порядке.

См. также [ править ]

Ссылки [ править ]

  1. ^ Гейдж, Филип (1994). «Новый алгоритм сжатия данных» . Журнал пользователя C.
  2. ^ «Новый алгоритм сжатия данных» . Журнал доктора Добба . 1 февраля 1994 года . Проверено 10 августа 2020 г.
  3. ^ Виттен, Ян Х.; Моффат, Алистер; Белл, Тимоти К. (1994). Управление гигабайтами . Нью-Йорк: Ван Ностранд Рейнхольд. ISBN  978-0-442-01863-4 .
  4. ^ «Кодирование пары байтов» . Архивировано из оригинала 26 марта 2016 г.
  5. ^ Сеннрих, Рико; Береза, Александра; Хэддоу, Барри (31 августа 2015 г.). «Нейронный машинный перевод редких слов с подсловами». arXiv : 1508.07909 [ cs.CL ].
  6. ^ Браун, Том Б.; Манн, Бенджамин; Райд Р, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (04 июня 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
  7. ^ "Google/предложение" . Google. 2021-03-02 . Проверено 02 марта 2021 г.
  8. ^ Паас, Герхард; Гиссельбах, Свен (2022). «Предварительно обученные языковые модели» . Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. дои : 10.1007/978-3-031-23190-2_2 . ISBN  9783031231902 . Проверено 3 августа 2023 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 6D7CCD08585FD1CC8511D8BCA48ACF7D__1709555280
URL1:https://en.wikipedia.org/wiki/Byte_pair_encoding
Заголовок, (Title) документа по адресу, URL1:
Byte pair encoding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)