Контролируемый словарный запас
Эта статья нуждается в дополнительных цитатах для проверки . ( июнь 2012 г. ) |
Контролируемые словари позволяют организовать знания для последующего поиска. Они используются в предметного индексирования схемах , предметных рубриках , тезаурумах , [1] [2] таксономии и другие системы организации знаний . Схемы контролируемого словаря требуют использования заранее определенных, предпочтительных терминов, которые были предварительно выбраны разработчиками схем, в отличие от словарей естественного языка , которые не имеют такого ограничения. [3]
В библиотечно-информатическом деле [ править ]
В библиотечной и информационной науке контролируемый словарь представляет собой тщательно отобранный список слов и фраз , которые используются для обозначения единиц информации (документа или произведения), чтобы их было легче найти при поиске. [4] [5] Контролируемые словари решают проблемы омографов , синонимов и многосем за счет биекции между понятиями и предпочтительными терминами. Короче говоря, контролируемые словари уменьшают нежелательную двусмысленность, присущую обычным человеческим языкам, где одному и тому же понятию могут быть присвоены разные имена, и обеспечивают согласованность. [3]
Например, в предметных рубриках Библиотеки Конгресса США. [6] (система предметных рубрик, использующая контролируемый словарный запас), предпочтительные термины (в данном случае предметные заголовки) должны быть выбраны для управления выбором между вариантами написания одного и того же слова (американское или британское), выбором между научными и популярными терминами ( таракан против Periplaneta americana ), и выбор между синонимами ( автомобиль или автомобиль ), а также другие сложные вопросы.
Выбор предпочтительных терминов основан на принципах пользовательской гарантии (какие термины пользователи могут использовать), литературной гарантии (какие термины обычно используются в литературе и документах) и структурной гарантии (термины выбираются с учетом структуры, объема контролируемая лексика).
Контролируемые словари также обычно решают проблему омографов с квалификаторами. Например, термин «пул» должен относиться либо к плавательному бассейну , либо к игровому пулу, чтобы гарантировать, что каждый предпочтительный термин или заголовок относится только к одному понятию. [7]
Типы, используемые в библиотеках [ править ]
В библиотеках используются два основных вида инструментов контролируемого словаря: предметные рубрики и тезаурусы . Хотя различия между ними уменьшаются, некоторые незначительные различия все же существуют.
- Исторически предметные рубрики создавались каталогизаторами для описания книг в библиотечных каталогах , тогда как тезаурусы использовались индексаторами для применения индексных терминов к документам и статьям.
- Предметные рубрики, как правило, имеют более широкий охват, описывая целые книги, тогда как тезаурусы, как правило, более специализированы и охватывают очень конкретные дисциплины.
- Из-за системы карточного каталога в предметных рубриках термины, как правило, расположены в косвенном порядке (хотя с появлением автоматизированных систем это удаляется), тогда как термины в тезаурусе всегда располагаются в прямом порядке.
- В предметных рубриках, как правило, используется больше предварительных согласований терминов, так что разработчик контролируемого словаря объединяет различные понятия вместе, чтобы сформировать одну предпочтительную предметную рубрику. (например, дети и терроризм), в то время как тезаурусы склонны использовать прямые термины в единственном числе. Тезаурусы перечисляют не только эквивалентные термины, но также более узкие, более широкие термины и связанные термины среди различных предпочтительных и непредпочтительных (но потенциально синонимичных) терминов, в то время как исторически в большинстве предметных рубрик этого не было. Например, сама предметная рубрика Библиотеки Конгресса не имела синдетической структуры до 1943 года, и только в 1985 году она начала принимать термины типа тезауруса « более широкий термин » и « узкий термин ».
Термины . выбираются и систематизируются обученными профессионалами (в том числе библиотекарями и информатиками), имеющими опыт в предметной области Термины контролируемого словаря могут точно описать, о чем на самом деле идет речь в данном документе, даже если сами термины не встречаются в тексте документа. Хорошо известные системы предметных рубрик включают систему Библиотеки Конгресса , Медицинские предметные рубрики (MeSH), созданные Национальной медицинской библиотекой США , и Sears . Хорошо известные тезаурусы включают Тезаурус искусства и архитектуры и Тезаурус ERIC .
При выборе терминов для контролируемого словаря проектировщик должен учитывать специфику выбранного термина, возможность использования прямого ввода, взаимосвязь и стабильность языка.
Наконец, еще одним важным вопросом является объем предварительной координации (в этом случае степень перебора по сравнению с синтезом становится проблемой) и пост-координации в системе. Элементы контролируемого словаря (термины/фразы), используемые в качестве тегов для помощи в процессе идентификации контента документов или других объектов информационной системы (например, СУБД, веб-служб), квалифицируются как метаданные .
Индексирование языков [ править ]
Существует три основных типа языков индексирования.
- Контролируемый язык индексирования – индексатор может использовать только одобренные термины для описания документа.
- Язык индексирования на естественном языке – для описания документа можно использовать любой термин из рассматриваемого документа.
- Свободный язык индексирования – для описания документа можно использовать любой термин (не только из документа).
При индексировании документа индексатор также должен выбрать уровень полноты индексации, уровень детализации описания документа. Например, при использовании низкой исчерпывающей индексации второстепенные аспекты работы не будут описываться индексными терминами. В целом, чем выше полнота индексации, тем больше терминов индексируется для каждого документа.
В последние годы стал популярным бесплатный текстовый поиск как средство доступа к документам. Это предполагает использование индексации естественного языка с исчерпывающим максимальным индексированием ( индексируется каждое слово в тексте ). Эти методы сравнивались в некоторых исследованиях, таких как статья 2007 года «Сравнительная оценка полнотекстового, концептуального и контекстно-зависимого поиска». [8]
Преимущества [ править ]
Часто утверждается, что контролируемые словари повышают точность произвольного текстового поиска, например, уменьшают количество нерелевантных элементов в списке поиска. Эти нерелевантные элементы ( ложные срабатывания ) часто вызваны присущей естественному языку двусмысленностью . Возьмем, к примеру, английское слово «футбол» . Футбол – это название ряда различных командных видов спорта . Во всем мире самым популярным из этих командных видов спорта является футбол , который в некоторых странах также называют футболом . Слово «футбол» также применяется к регби ( союз регби и лига регби ), американскому футболу , австралийскому футболу по правилам , гэльскому футболу и канадскому футболу . Таким образом, поиск по футболу приведет к получению документов, касающихся нескольких совершенно разных видов спорта. Контролируемый словарь решает эту проблему, размечая документы таким образом, чтобы исключить двусмысленность.
По сравнению со свободным текстовым поиском использование контролируемого словаря может значительно повысить производительность системы поиска информации, если производительность измеряется точностью (процентом документов в списке поиска, которые действительно имеют отношение к теме поиска).
В некоторых случаях контролируемый словарный запас также может улучшить запоминание, поскольку, в отличие от схем естественного языка, после поиска правильного предпочтительного термина нет необходимости искать другие термины, которые могут быть синонимами этого термина.
Проблемы [ править ]
Контролируемый поиск по словарю может привести к неудовлетворительному отзыву , поскольку он не сможет найти некоторые документы, которые действительно имеют отношение к вопросу поиска.
Это особенно проблематично, когда поисковый вопрос включает в себя термины, которые достаточно касаются предметной области, так что индексатор мог бы решить пометить его, используя другой термин (но искатель может принять то же самое). По сути, этого может избежать только опытный пользователь контролируемой лексики, чье понимание лексики совпадает с пониманием индексатора.
Другая возможность заключается в том, что статья просто не помечена индексатором, поскольку полнота индексации низкая. Например, в статье футбол может упоминаться как второстепенное направление, и индексатор может решить не помечать его тегом «футбол», поскольку он недостаточно важен по сравнению с основным направлением. Но оказывается, что для искателя эта статья релевантна и, следовательно, вспомнить ее не удается. Бесплатный текстовый поиск в любом случае автоматически выберет эту статью.
С другой стороны, поиск по произвольному тексту имеет высокую исчерпывающую полноту (ищет каждое слово), поэтому, хотя он и имеет гораздо меньшую точность, он имеет потенциал для высокой запоминаемости, если искатель преодолевает проблему синонимов, вводя каждую комбинацию.
Контролируемые словари могут быстро устареть в быстро развивающихся областях знаний, если предпочтительные термины не будут регулярно обновляться. Даже в идеальном сценарии контролируемая лексика зачастую менее конкретна, чем слова самого текста. Индексаторы, пытающиеся выбрать подходящие индексные термины, могут неправильно истолковать автора, хотя эта конкретная проблема не является фактором в свободном тексте, поскольку в нем используются собственные слова автора.
Использование контролируемых словарей может оказаться дорогостоящим по сравнению со свободным текстовым поиском, поскольку для индексации каждой записи необходимы эксперты или дорогостоящие автоматизированные системы. Кроме того, пользователь должен быть знаком со схемой контролируемого словаря, чтобы максимально эффективно использовать систему. Но, как уже упоминалось, контроль синонимов и омографов может помочь повысить точность.
Для помощи в создании контролируемых словарей были разработаны многочисленные методологии, включая фасетную классификацию , которая позволяет описывать данную запись данных или документ несколькими способами.
Выбор слов в выбранных словарях не является нейтральным, и индексатор должен тщательно учитывать этику выбора слов. Например, традиционно колониалистские термины часто были предпочтительными терминами в выбранных словарях при обсуждении проблем коренных народов, что вызывало споры. [9]
Приложения [ править ]
Контролируемые словари, такие как предметные рубрики Библиотеки Конгресса , являются важным компонентом библиографии , изучения и классификации книг. Первоначально они были разработаны в области библиотечного дела и информатики . В 1950-х годах правительственные учреждения начали разрабатывать контролируемые словари для растущей журнальной литературы в специализированных областях; примером являются медицинские предметные рубрики (MeSH), разработанные Национальной медицинской библиотекой США . Впоследствии появились коммерческие фирмы (так называемые службы реферирования и индексирования), которые индексировали быстрорастущую литературу во всех областях знаний. В 1960-х годах индустрия онлайн-библиографических баз данных развивалась на основе коммутируемой сети X.25 . Эти услуги редко предоставлялись населению, поскольку ими было сложно пользоваться; Работу по поиску выполняли библиотекари-специалисты, называемые поисковыми посредниками. первые полнотекстовые В 1980-е годы появились базы данных; эти базы данных содержат полный текст индексных статей, а также библиографическую информацию. Онлайн-библиографические базы данных мигрировали в Интернет и теперь общедоступны; однако большинство из них являются патентованными и могут быть дорогими в использовании. Студенты, обучающиеся в колледжах и университетах, могут иметь доступ к некоторым из этих услуг бесплатно; некоторые из этих услуг можно получить бесплатно в публичной библиотеке.
Техническая связь [ править ]
В крупных организациях для улучшения технической коммуникации могут быть введены контролируемые словари . Использование контролируемого словарного запаса гарантирует, что все будут использовать одно и то же слово в значении одного и того же. Эта согласованность терминов является одной из наиболее важных концепций в технической письменной речи и управлении знаниями , когда прилагаются усилия для использования одного и того же слова во всем документе или организации, а не немного разных слов для обозначения одного и того же.
сеть и структурированные Семантическая данные
Поиск в Интернете можно было бы значительно улучшить за счет разработки контролируемого словаря для описания веб-страниц; использование такого словаря может привести к созданию семантической сети , в которой содержимое веб-страниц описывается с использованием схемы машиночитаемых метаданных . Одним из первых предложений по такой схеме является Дублинская основная инициатива. Примером контролируемого словаря, который можно использовать для индексации веб-страниц, является PSH .
Маловероятно, что единая схема метаданных когда-либо сможет описать содержимое всей сети. [10] Чтобы создать семантическую сеть, может потребоваться использование двух или более систем метаданных для описания содержимого веб-страницы. Язык eXchangeable Faceted Metadata Language (XFML) предназначен для того, чтобы позволить создателям контролируемых словарей публиковать и обмениваться системами метаданных. XFML разработан на основе принципов фасетной классификации . [11] [ нужен неосновной источник ]
Контролируемые словари семантической сети определяют концепции и отношения (термины), используемые для описания области интересов или проблемной области. Например, чтобы объявить человека в машиночитаемом формате, необходим словарь, имеющий формальное определение «Человек», например словарь «Друг друга» ( FOAF ), который имеет класс Person, определяющий типичные свойства человека. человек, включая, помимо прочего, имя, почетный префикс, принадлежность, адрес электронной почты и домашнюю страницу или словарь лиц Schema.org . [12] Точно так же книгу можно описать, используя словарь Book на Schema.org. [13] и общие термины публикации из словаря Dublin Core , [14] событие со словарем событий Schema.org , [15] и так далее.
Чтобы использовать машиночитаемые термины из любого контролируемого словаря, веб-дизайнеры могут выбирать из множества форматов аннотаций, включая RDFa, микроданные HTML5 или JSON-LD в разметке, а также RDF сериализацию (RDF/XML, Turtle, N3, TriG, TriX) во внешних файлах.
См. также [ править ]
- Авторитетный контроль – уникальные заголовки, используемые для библиографической информации.
- Контролируемый естественный язык - подмножество естественного языка.
- Определение словарного запаса - список слов, используемых лексикографами для написания словарных определений.
- IMS Vocabulary Definition Exchange – язык разметки – или грамматика – для контролируемых словарей, разработанных IMS Global.
- Распознавание именованного объекта — извлечение упоминаний именованного объекта в неструктурированном тексте в заранее определенные категории.
- Номенклатура - Система названий или терминов в определенной области искусства или науки.
- Онтология (информатика) — спецификация концептуализации.
- Терминология - академическая дисциплина, изучающая термины и их общее использование.
- Universal Data Element Framework – контролируемый словарь.
- Трансформация на основе словаря – трансформация, поддерживаемая утверждениями семантической эквивалентности в контролируемом словаре.
Ссылки [ править ]
- ^ Контролируемые словари Ссылки на примеры тезаурусов и схем классификации.
- ^ Контролируемые словари Ссылки на примеры тезаурусов и схем классификации, используемых в области сельского хозяйства, рыболовства, лесного хозяйства и т. д.
- ↑ Перейти обратно: Перейти обратно: а б Харпринг, Патрисия (2010). «2. Что такое контролируемые словари?» . Введение в контролируемые словари: терминология искусства, архитектуры и других произведений культуры (1-е изд.). Лос-Анджелес, Калифорния: Исследовательский институт Гетти. ISBN 978-1-60606-018-6 . OCLC 456174098 .
- ^ Эми Уорнер, Учебник по таксономии // мертвая ссылка. Архивировано 5 марта 2016 г. в Wayback Machine .
- ^ «Карл Фаст, Фред Лейзе и Майк Стеккель» . 16 декабря 2002 г. Архивировано из оригинала 17 ноября 2017 г. Проверено 15 сентября 2014 г.
- ^ «Контролируемые словари | Библиотекари | Библиотека Конгресса» . Библиотека Конгресса . Архивировано из оригинала 16 ноября 2019 г. Проверено 22 мая 2018 г.
- ^ Харпринг, Патрисия (2010). «3. Отношения в управляемых словарях» . Введение в контролируемые словари: терминология по искусству, архитектуре и другим произведениям культуры . Исследовательский институт Гетти (1-е изд.). Лос-Анджелес, Калифорния: Исследовательский институт Гетти. ISBN 978-1-60606-150-3 .
- ^ Москович, Роберт; Мартинс, Сусана Б.; Бехири, Эйтан; Вайс, Авирам; Шахар, Юваль (2007). «Сравнительная оценка полнотекстового, концептуального и контекстно-зависимого поиска» . Журнал Американской ассоциации медицинской информатики . 14 (2): 164–174. дои : 10.1197/jamia.M1953 . ISSN 1067-5027 . ПМК 2213470 . ПМИД 17213502 .
- ^ Смит, Кэтрин (3 апреля 2021 г.). «Контролируемые словари: прошлое, настоящее и будущее предметного доступа» . Каталогизация и классификация Ежеквартально . 59 (2–3): 186–202. дои : 10.1080/01639374.2021.1881007 . ISSN 0163-9374 . S2CID 233205938 .
- ^ Кори Доктороу, Metacrap. Архивировано 8 мая 2007 г. в Wayback Machine .
- ^ Марк Пилигрим, Обмениваемый язык фасетных метаданных. Архивировано 8 февраля 2012 г. в Wayback Machine .
- ^ «Словарь Person на Schema.org» . Архивировано из оригинала 28 июля 2015 года . Проверено 13 марта 2015 г.
- ^ «Книжный словарь Schema.org» . Архивировано из оригинала 11 марта 2015 года . Проверено 13 марта 2015 г.
- ^ «Набор элементов метаданных Dublin Core, версия 1.1» . Архивировано из оригинала 16 августа 2013 года . Проверено 13 марта 2015 г.
- ^ «Словарь событий Schema.org» . Архивировано из оригинала 13 марта 2015 года . Проверено 13 марта 2015 г.