Jump to content

Сжатая структура данных

Термин «структура сжатых данных» возникает в таких областях информатики , как алгоритмы , структуры данных и теоретическая информатика . Это относится к структуре данных, операции которой примерно такие же быстрые, как и у обычной структуры данных для задачи, но размер которой может быть существенно меньше. Размер структуры сжатых данных обычно сильно зависит от информационной энтропии представляемых данных.

Важные примеры структур сжатых данных включают сжатый суффиксный массив. [1] [2] и FM-индекс , [3] оба из которых могут представлять произвольный текст символов T для сопоставления с образцом . Учитывая любой входной шаблон P , они поддерживают операцию поиска, появляется ли P в T и где и если да, то где . Время поиска пропорционально сумме длины шаблона P (очень медленно растущей функции длины текста T ) и количества зарегистрированных совпадений. Пространство, которое они занимают, примерно равно размеру текста T в энтропийно-сжатой форме, например, полученной с помощью Prediction by Partial Matching или gzip . Более того, обе структуры данных являются самоиндексируемыми, поскольку они могут восстанавливать текст T методом произвольного доступа, и, таким образом, базовый текст T может быть отброшен. они одновременно обеспечивают сжатое и доступное для быстрого поиска представление текста T. Другими словами , Они представляют собой существенное улучшение места по сравнению с обычным суффиксным деревом и суффиксным массивом чем размер T. , которые занимают во много раз больше места , Они также поддерживают поиск произвольных шаблонов, в отличие от инвертированный индекс , который может поддерживать только поиск по словам. Кроме того, инвертированные индексы не имеют функции самоиндексации.

Важным связанным с этим понятием является понятие краткой структуры данных , которая использует пространство, примерно равное минимуму теории информации, что является наихудшим понятием пространства, необходимого для представления данных. Напротив, размер сжатой структуры данных зависит от конкретных представляемых данных. Когда данные сжимаемы, как это часто бывает на практике с текстом на естественном языке, сжатая структура данных может занимать пространство, очень близкое к минимуму теории информации, и значительно меньше места, чем большинство схем сжатия. [ нужен пример ] [ нужна ссылка ]

Ссылки [ править ]

  1. ^ Гросси, Роберто; Виттер, Джеффри Скотт (январь 2005 г.). «Сжатые суффиксные массивы и суффиксные деревья с приложениями для индексации текста и сопоставления строк» ​​(PDF) . SIAM Journal по вычислительной технике . 35 (2): 378–407. дои : 10.1137/S0097539702402354 . hdl : 1808/18962 .
  2. ^ Р. Гросси, А. Гупта и Дж. С. Виттер, Текстовые индексы высокого порядка с энтропийным сжатием, Материалы 14-го ежегодного симпозиума SIAM/ACM по дискретным алгоритмам , январь 2003 г., 841-850.
  3. ^ Феррагина, П.; Манзини, Г. (2000). «Оппортунистические структуры данных с приложениями». Материалы 41-го ежегодного симпозиума по основам информатики . стр. 390–398. дои : 10.1109/SFCS.2000.892127 . ISBN  0-7695-0850-2 . S2CID   12530704 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2a87960e2d66f5b2a21090e718101f4a__1714424940
URL1:https://arc.ask3.ru/arc/aa/2a/4a/2a87960e2d66f5b2a21090e718101f4a.html
Заголовок, (Title) документа по адресу, URL1:
Compressed data structure - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)