Jump to content

Сравнение парсеров HTML

Парсеры HTML — это программное обеспечение для автоматического языка гипертекстовой разметки (HTML) анализа . У них есть две основные цели:

  • Обход HTML: предложите программистам интерфейс для легкого доступа и изменения «строкового кода HTML». Канонический пример: парсеры DOM .
  • Очистка HTML: исправление недопустимого HTML и улучшение макета и стиля отступов полученной разметки. Канонический пример: HTML Tidy .
Парсер Лицензия Язык(и) реализации Последняя дата* HTML-парсинг [1] HTML5-совместимый анализ Чистый HTML** Обновить HTML***
HTML аккуратный Лицензия W3C АНСИ С 2021-07-17 [2] Да [3] Да Да [3] Да
ХтмлЮнит Лицензия Апач 2.0 Ява 2023-10-31 [4] Да ? Нет Нет
Красивый суп МОЯ лицензия Питон 2023-04-07 [5] Да Да ? Нет
являются МОЯ лицензия Ява 2024-07-10 [6] Да Да Да Да
Парсер Лицензия Язык(и) реализации Последняя дата* HTML-парсинг HTML5-совместимый анализ Чистый HTML** Обновить HTML***
* Дата последнего выпуска (со значительными изменениями).
** очистка (создание веб-страницы, совместимой со стандартами, уменьшение количества спама и т. д.) и очистка (удаление лишних презентационных тегов, удаление кода XSS и т. д.) HTML-кода.
*** Обновляет HTML4.X до XHTML или HTML5, преобразуя устаревшие теги (например, CENTER) в действительные (например, DIV с style="text-align:center;").
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b855551934c949ab4253b6e410513d3a__1720588020
URL1:https://arc.ask3.ru/arc/aa/b8/3a/b855551934c949ab4253b6e410513d3a.html
Заголовок, (Title) документа по адресу, URL1:
Comparison of HTML parsers - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)