Семантический HTML

Семантический HTML — это использование разметки HTML для усиления семантики или значения информации на веб-страницах и веб-приложениях, а не просто для определения ее представления или внешнего вида . Семантический HTML обрабатывается традиционными веб-браузерами , а также многими другими пользовательскими агентами . CSS используется для того, чтобы предложить пользователям свое представление.

История

HTML включает семантическую разметку с момента своего создания. ^[1] В документе HTML автор может, среди прочего, «начать с заголовка; добавлять заголовки и абзацы; выделять текст; добавлять изображения; добавлять ссылки на другие страницы; [и] использовать различные виды списков» . ^[2]

Различные версии стандарта HTML включают презентационную разметку, такую как <font> (добавлено в HTML 3.2; удалено в HTML 4.0 Strict), <i> (все версии) и <center> (добавлено в HTML 3.2). Существуют также семантически нейтральные элементы span и div . С конца 1990-х годов, когда каскадные таблицы стилей начали работать в большинстве браузеров, веб-авторам рекомендовалось избегать использования презентационной разметки HTML с целью разделения контента и представления . ^[3]

В 2001 году Тим Бернерс-Ли участвовал в обсуждении семантической сети , где было показано, что «агенты» интеллектуального программного обеспечения однажды смогут автоматически сканировать Интернет и находить, фильтровать и сопоставлять ранее несвязанные, опубликованные факты в интересах конечных пользователей. . ^[4] Такие агенты не являются обычным явлением даже сейчас, но некоторые идеи Web 2.0 , коллажи и веб-сайты сравнения цен могут быть близки к этому. Основное различие между этими гибридами веб-приложений и семантическими агентами Бернерса-Ли заключается в том, что текущая агрегация и гибридизация информации обычно разрабатывается веб-разработчиками, которые уже знают веб-локации и семантику API конкретных данных, которые они хотят. смешивать, сравнивать и комбинировать.

Важным типом веб-агента, который автоматически сканирует и читает веб-страницы без предварительного знания того, что он может найти, является веб-сканер или паук поисковой системы. Эти программные агенты зависят от семантической ясности веб-страниц, которые они находят, поскольку они используют различные методы и алгоритмы для чтения и индексирования миллионов веб-страниц в день и предоставляют веб-пользователям возможности поиска .

Чтобы пауки поисковых систем могли оценивать значимость фрагментов текста, которые они находят в документах HTML, а также для тех, кто создает коллажи и другие гибриды, а также для более автоматизированных агентов по мере их разработки, семантические структуры, которые существующие в HTML, должны широко и единообразно применяться для раскрытия смысла публикуемой информации. ^[5]

Хотя истинная семантическая сеть может зависеть от сложных RDF онтологий и метаданных , каждый HTML-документ вносит свой вклад в осмысленность сети за счет правильного использования заголовков, списков, заголовков и другой семантической разметки, где это возможно. Такое «простое» использование HTML получило название «Старый простой семантический HTML» или POSH. ^[6] Правильное использование «тегов» Web 2.0 создает фолксономии , которые могут быть одинаково или даже более значимы для многих. ^[5] HTML 5 представил новые семантические элементы, такие как <section>, <article>, <footer>, <progress>, <nav>, <aside>, <mark>, и <time>. ^[7] В целом, цель W3C — постепенно предлагать браузерам, разработчикам и сканерам больше способов лучше различать различные типы данных, обеспечивая такие преимущества, как лучшее отображение в браузерах на разных устройствах.

Элементы представления формально не были признаны устаревшими в рекомендациях HTML 4.01 и XHTML, но не рекомендовались. В HTML 5 некоторые из этих элементов, например <i> и <b>, все еще уточняются, поскольку их значение четко определено, «чтобы стилистически отличаться от обычной прозы, не придавая никакой дополнительной важности». ^[8]^[9]

Соображения

В тех случаях, когда документ требует более точной семантики, чем та, которая выражена только в HTML, фрагменты документа могут быть заключены в span или div элементы со значимыми именами классов ^[10] такой как <span class="author"> и <div class="invoice">. Если эти имена классов также являются идентификаторами фрагментов в схеме или онтологии, они могут иметь более определенное значение. Микроформаты формализуют этот подход к семантике в HTML.

Одним из важных ограничений этого подхода является то, что такая разметка, основанная на включении элементов, должна соответствовать условиям корректности. Поскольку эти документы имеют древовидную структуру, это означает, что таким образом можно размечать только сбалансированные фрагменты поддерева. ^[11]^[12] Для разметки любого произвольного раздела HTML потребуется механизм, независимый от самой структуры разметки, например XPointer .

Хороший семантический HTML также улучшает доступность веб-документов (см. также Рекомендации по обеспечению доступности веб-контента ). ^{[ нужна ссылка ]} Например, когда программа чтения с экрана или аудиобраузер может правильно определить структуру документа, она не будет тратить время пользователя с ослабленным зрением на считывание повторяющейся или нерелевантной информации, если она правильно размечена.

Google «расширенные фрагменты»

В 2010 году Google определил три формы структурированных метаданных, которые их системы будут использовать для поиска структурированного семантического контента на веб-страницах. Такая информация, связанная с отзывами, профилями людей, списками компаний и событиями, будет использоваться Google для улучшения «фрагмента» или короткого фрагмента цитируемого текста, который отображается, когда страница появляется в результатах поиска. Google указывает, что эти данные могут быть предоставлены с использованием микроданных , микроформатов или RDFa . ^[13] Микроданные указаны внутри itemtype и itemprop атрибуты, добавленные к существующим элементам HTML; Ключевые слова микроформата добавляются внутри class атрибуты, как обсуждалось выше; и RDFa опирается на rel, typeof и property атрибуты, добавленные к существующим элементам. ^[14]

См. также

Ссылки

^ Бернерс-Ли, Тим ; Фишетти, Марк (2000). Плетение Интернета: оригинальный замысел и окончательная судьба Всемирной паутины ее изобретателя . Сан-Франциско: Харпер. ISBN 978-0062515872 .
^ Рэггетт, Дэйв (24 апреля 2005 г.). «Начало работы с HTML» . Консорциум Всемирной паутины . Проверено 8 декабря 2010 г.
^ Рэггетт, Дэйв (8 апреля 2002 г.). «Добавление стиля» . Консорциум Всемирной паутины . Проверено 8 декабря 2010 г. В этой статье отмечается, что презентационная HTML-разметка может быть полезна при работе с браузерами «до Netscape 4.0 и Internet Explorer 4.0 », которые были выпущены в 1997 году.
^ Бернерс-Ли, Тим; Хендлер, Джеймс; Лассила, Ора (2001). «Семантическая сеть» . Научный американец . Проверено 2 октября 2009 г.
^ Перейти обратно: ^а ^б Шедболт, Найджел; Бернерс-Ли, Тим; Холл, Венди (май – июнь 2006 г.). «Возвращение к семантической сети» (PDF) . Интеллектуальные системы IEEE . Проверено 8 декабря 2010 г.
^ «Старый простой семантический HTML (POSH)» . Микроформаты Wiki . сообщество микроформатов. 20 апреля 2007 года . Проверено 4 мая 2013 г.
^ Робинсон, Майк. «Поговорим о семантике» . HTML 5 Доктор . Проверено 26 октября 2015 г.
^ «HTML5» . Консорциум Всемирной паутины. Раздел 4.5.17: Элемент i.
^ «HTML5» . Консорциум Всемирной паутины. Раздел 4.5.18: Элемент b.
^ Эти имена классов в лучшем случае носят наводящий, а не формально значимый характер, если только они ранее не были переданы как создателю, так и потребителю контента.
^ «Хорошо сформированные XML-документы» . Расширяемый язык разметки (XML) 1.1 . W3C .
^ «Важные концепции HTML» . Бендев-младший .
^ «Расширенные фрагменты» . Центр веб-мастеров . Проверено 26 мая 2010 г.
^ «Предприятия и организации - Информация об организации» . Центр веб-мастеров . Проверено 26 мая 2010 г.

Внешние ссылки

Schema.org — это инициатива, запущенная 2 июня 2011 года компаниями Bing , Google и Yahoo!

[1] Бернерс-Ли, Тим ; Фишетти, Марк (2000). Плетение Интернета: оригинальный замысел и окончательная судьба Всемирной паутины ее изобретателя . Сан-Франциско: Харпер. ISBN 978-0062515872 .

[2] Рэггетт, Дэйв (24 апреля 2005 г.). «Начало работы с HTML» . Консорциум Всемирной паутины . Проверено 8 декабря 2010 г.

[3] Рэггетт, Дэйв (8 апреля 2002 г.). «Добавление стиля» . Консорциум Всемирной паутины . Проверено 8 декабря 2010 г. В этой статье отмечается, что презентационная HTML-разметка может быть полезна при работе с браузерами «до Netscape 4.0 и Internet Explorer 4.0 », которые были выпущены в 1997 году.

[4] Бернерс-Ли, Тим; Хендлер, Джеймс; Лассила, Ора (2001). «Семантическая сеть» . Научный американец . Проверено 2 октября 2009 г.

[Semantic_Web_Revisted-5] Перейти обратно: ^а ^б Шедболт, Найджел; Бернерс-Ли, Тим; Холл, Венди (май – июнь 2006 г.). «Возвращение к семантической сети» (PDF) . Интеллектуальные системы IEEE . Проверено 8 декабря 2010 г.

[6] «Старый простой семантический HTML (POSH)» . Микроформаты Wiki . сообщество микроформатов. 20 апреля 2007 года . Проверено 4 мая 2013 г.

[7] Робинсон, Майк. «Поговорим о семантике» . HTML 5 Доктор . Проверено 26 октября 2015 г.

[8] «HTML5» . Консорциум Всемирной паутины. Раздел 4.5.17: Элемент i.

[9] «HTML5» . Консорциум Всемирной паутины. Раздел 4.5.18: Элемент b.

[10] Эти имена классов в лучшем случае носят наводящий, а не формально значимый характер, если только они ранее не были переданы как создателю, так и потребителю контента.

[11] «Хорошо сформированные XML-документы» . Расширяемый язык разметки (XML) 1.1 . W3C .

[12] «Важные концепции HTML» . Бендев-младший .

[13] «Расширенные фрагменты» . Центр веб-мастеров . Проверено 26 мая 2010 г.

[14] «Предприятия и организации - Информация об организации» . Центр веб-мастеров . Проверено 26 мая 2010 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]