Тематическое индексирование

Тематическое индексирование — это процесс описания или с помощью классификации документа индексных терминов , ключевых слов или других символов, чтобы указать, о чем речь в различных документах , обобщить их содержание или повысить удобство поиска . Другими словами, речь идет об определении и описании предмета документов. Индексы создаются отдельно на трех различных уровнях: термины в документе, например в книге; объекты в коллекции, например в библиотеке; и документы (например, книги и статьи) в области знаний.

Тематическое индексирование используется при поиске информации, особенно для создания библиографических указателей для поиска документов по определенной теме. Примерами академических служб индексирования являются Zentralblatt MATH , Chemical Abstracts и PubMed . Указательные термины в основном были назначены экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с анализа тематики документа. Индексатор должен затем идентифицировать термины, которые соответствующим образом идентифицируют предмет, либо путем извлечения слов непосредственно из документа, либо путем присвоения слов из контролируемого словаря . ^[1] Термины в указателе затем представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными они должны быть. В совокупности это дает глубину индексации.

Предметный анализ [ править ]

Первым шагом в индексировании является определение тематики документа. При индексировании вручную индексатор рассматривает предмет с точки зрения ответа на ряд вопросов, например: «Имеет ли документ отношение к конкретному продукту, состоянию или явлению?». ^[2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и в результате придумывать разные индексные термины. Это повлияет на успех поиска.

Автоматический и ручной анализ предметов

Автоматическое индексирование следует за установленными процессами анализа частотности словосочетаний и сравнения результатов с другими документами для отнесения к тематическим категориям. Для этого не требуется понимания индексируемого материала. Это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не понимает значения утверждений и поэтому может не определить некоторые соответствующие термины или назначить их неправильно. Индексаторы сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку глубокий анализ всего текста является дорогостоящим и отнимает много времени. ^[3] Автоматизированная система снимает ограничение по времени и позволяет анализировать весь документ, но также имеет возможность направить его на определенные части документа.

Выбор термина [ править ]

Второй этап индексации предполагает перевод предметного анализа в набор индексных терминов . Это может включать в себя извлечение из документа или присвоение из контролируемого словаря . Благодаря широко доступной возможности полнотекстового поиска многие люди стали полагаться на свой собственный опыт в проведении информационного поиска, и полнотекстовый поиск стал очень популярным. Тематическое индексирование и его специалисты, профессиональные индексаторы, каталогизаторы и библиотекари , по-прежнему имеют решающее значение для организации и поиска информации. Эти эксперты понимают контролируемые словари и способны найти информацию, которую невозможно найти с помощью полнотекстового поиска . Стоимость экспертного анализа для создания предметного индексирования нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для создания сопоставимого набора полнотекстовых материалов с возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрели популярность, особенно в Интернете. ^[4]

Одно из применений индексации – книжный указатель – остается относительно неизменным, несмотря на информационную революцию .

Извлечение/производная индексация [ править ]

Индексирование с извлечением предполагает взятие слов непосредственно из документа. Он использует естественный язык и хорошо поддается автоматизированным методам, при которых вычисляется частота слов, а слова, частота которых превышает заранее определенный порог, используются в качестве индексных терминов. Будет сделана ссылка на стоп-лист, содержащий общие слова (такие как «the», «and»), и такие стоп-слова будут исключены как индексные термины.

Индексирование автоматического извлечения может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно извлечь часто встречающиеся фразы, это становится сложнее, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему: даже при использовании стоп-листа для удаления общих слов некоторые часто встречающиеся слова могут оказаться бесполезными для обеспечения различения документов. Например, термин «глюкоза», скорее всего, будет часто встречаться в любом документе, посвященном диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшит этот эффект, но ответственность за связывание соответствующих терминов будет лежать на поисковике, а не на специалисте по информации. Кроме того, термины, которые встречаются нечасто, могут иметь большое значение, например, новое лекарственное средство может упоминаться нечасто, но новизна предмета делает любую ссылку значимой. Одним из методов, позволяющих включать более редкие термины и исключать распространенные слова с помощью автоматизированных методов, является подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Таким образом, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, может быть использован в качестве индексного термина, а термины, которые встречаются одинаково часто во всем документе, будут исключены.

Другая проблема автоматического извлечения заключается в том, что оно не распознает, когда концепция обсуждается, но не идентифицируется в тексте индексируемым ключевым словом. ^[5]

Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, результирующий продукт правильнее называть согласованием , чем индексом.

Индексация назначений [ править ]

Альтернативой является индексирование по назначению, при котором термины индекса берутся из контролируемого словаря. Преимущество этого метода заключается в контроле за синонимами , поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, использованного автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. ^[6] Это также устраняет любую путаницу, вызванную омографами, путем включения уточняющего термина. Третье преимущество заключается в том, что он позволяет связывать родственные термины, независимо от того, связаны ли они иерархией или ассоциацией, например, в индексной записи для пероральных препаратов могут быть указаны другие пероральные препараты как связанные термины на том же уровне иерархии, но также будут связаны с более широкими терминами. такие термины, как лечение. Индексирование присвоений используется при индексировании вручную для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют полностью несоответствия, поскольку два индексатора все равно могут интерпретировать предмет по-разному. ^[2]

Индексная презентация [ править ]

Заключительный этап индексации заключается в представлении записей в систематическом порядке. Это может включать в себя связывание записей. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В посткоординированном индексе записи представлены по отдельности, и пользователь может связать их посредством поиска, который чаще всего осуществляется с помощью компьютерного программного обеспечения. Посткоординация приводит к потере точности по сравнению с предварительной координацией. ^[7]

Глубина индексации [ править ]

Индексаторы должны принимать решения о том, какие записи следует включить и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации с учетом полноты и специфичности. ^[8]

Полнота [ править ]

Исчерпывающий индекс – это индекс, в котором перечислены все возможные индексные термины. Большая полнота дает более высокий уровень отзыва или большую вероятность того, что все соответствующие статьи будут найдены, однако это происходит за счет точности . Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые касаются предмета лишь недостаточно глубоко. В ручной системе более высокий уровень полноты влечет за собой более высокие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затраченное в автоматизированной системе, будет гораздо менее значительным. На другом конце шкалы находится выборочный индекс, охватывающий только наиболее важные аспекты. ^[9] В выборочном указателе запоминаемость снижается, поскольку, если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена из виду. Поэтому индексаторам следует стремиться к балансу и учитывать, какой документ может быть использован. Возможно, им также придется учитывать последствия, связанные с затратами времени и средств.

Специфика [ править ]

Специфика описывает, насколько близко термины индекса соответствуют темам, которые они представляют. ^[10] Индекс считается конкретным, если индексатор использует параллельные дескрипторы концепции документа и точно отражает концепции. ^[11] Специфичность имеет тенденцию увеличиваться по мере полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексации [ править ]

Хьёрланд (2011) ^[12] обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:

Рационалистические теории индексации (такие как теория Ранганатана) предполагают, что предметы логически конструируются из фундаментального набора категорий. В этом случае основным методом предметного анализа является «аналитико-синтетический», заключающийся в выделении набора основных категорий (=анализ) и последующем построении предмета любого данного документа путем объединения этих категорий по некоторым правилам (=синтез).
Эмпиристские теории индексирования основаны на выборе похожих документов на основе их свойств, в частности, с применением методов числовой статистики.
Историческая и герменевтическая теории индексации предполагают, что предмет данного документа связан с данным дискурсом или областью, поэтому индексирование должно отражать потребность конкретного дискурса или области. Согласно герменевтике, документ всегда пишется и интерпретируется с определенного горизонта. То же самое происходит с системами организации знаний и со всеми пользователями, осуществляющими поиск в таких системах. Любой вопрос, заданный к такой системе, ставится с определенного горизонта. Все эти горизонты могут находиться в большей или меньшей степени в консенсусе или в конфликте. Индексировать документ — значит попытаться внести свой вклад в поиск «релевантных» документов, зная об этих различных горизонтах.
Прагматические и критические теории индексации (например, Hjørland, 1997). ^[13] согласен с историцистской точкой зрения, согласно которой субъекты соотносятся с конкретными дискурсами, но подчеркивает, что предметный анализ должен поддерживать заданные цели и ценности и должен учитывать последствия индексации тем или иным способом. Эти теории полагают, что индексирование не может быть нейтральным и что пытаться индексировать нейтральным образом — неправильная цель. Индексирование — это действие (а компьютерное индексирование действует в соответствии с намерениями программиста). Действия служат человеческим целям. Библиотеки и информационные службы также служат целям человечества, поэтому их индексирование должно осуществляться таким образом, чтобы максимально способствовать достижению этих целей. На первый взгляд это выглядит странно, поскольку целью библиотек и информационных служб является идентификация любого документа или фрагмента информации. Тем не менее, любой конкретный способ индексации всегда поддерживает одни виды использования за счет других. Документы, подлежащие индексированию, призваны служить определенным целям в обществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же социальной системы. В такой системе могут действовать различные теории, эпистемологии, мировоззрения и т. д., и пользователям необходимо иметь возможность ориентироваться и перемещаться между этими различными взглядами. Это требует картирования различных эпистемологий в этой области и классификации единого документа в такую карту. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации в области искусства представлены Оромом (2003). ^[14] и в музыке Абрахамсена (2003). ^[15]

Основой индексации, как утверждают Роули и Фэрроу, является ^[16] оценить вклад статьи в знания и соответствующим образом проиндексировать ее. Или, по словам Хьёрланда (1992, ^[17] 1997), чтобы проиндексировать его информативный потенциал.

«Чтобы добиться хорошей последовательной индексации, индексатор должен иметь полное представление о структуре предмета и характере вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000, ^[16] п. 99).

См. также [ править ]

Служба индексирования и абстрагирования
Классификация документов
Метаданные
Чрезмерная категоризация
Томас Ирландский , средневековый пионер предметного индексирования.

Ссылки [ править ]

^ Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Фасет ISBN 1-85604-482-3 . страница 6
↑ Перейти обратно: Перейти обратно: ^а ^б Г. Г. Чоудхури (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фасет. ISBN 1-85604-480-7 . стр. 71
^ Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Фасет ISBN 1-85604-482-3 . стр. 24
^ Восс, Якоб (2007). «Теги, Folksonomy & Co — возрождение ручного индексирования?». Материалы Международного симпозиума по информатике . стр. 234–254. arXiv : cs/0701072 . Бибкод : 2007cs........1072V .
^ Дж. Лэмб (2008): Индексы, создаваемые человеком или компьютером? Архивировано 4 июня 2014 г. в Wayback Machine [онлайн] Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.
^ К. Тенопир (1999): «Индексация важна, человечная или автоматизированная». Библиотечный журнал 124 (18) стр. 34-38.
^ Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной и пост-координации». Журнал Американского общества информатики , 49 (14), 1254–1269.
^ Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 105
^ Б. Х. Вайнберг (1990): «Исчерпывание индексов: книги, журналы и полные электронные тексты; Краткое изложение семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова , 7 (5), страницы 1+.
^ Дж. Д. Андерсон (1997): Рекомендации для индексов и соответствующих устройств поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.
^ Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 106
^ Хьёрланд, Биргер (2011). Важность теорий познания: индексирование и поиск информации на примере. Журнал Американского общества информатики и технологий , 62 (1), 72-77.
^ Хьёрланд, Б. (1997). Поиск информации и представление субъекта. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.
^ Ором, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30(3/4), 128-143.
^ Абрахамсен, Кнут Т. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144–169.
↑ Перейти обратно: Перейти обратно: ^а ^б Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Олдерстот: Издательская компания Gower
^ Хьёрланд, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

Дальнейшее чтение [ править ]

Фугман, Роберт (1993). Предметный анализ и индексирование. Теоретическая основа и практические советы . Франкфурт-на-Майне: Index Verlag.
Фроманн, Б. (1990). «Правила индексирования: критика ментализма в теории поиска информации». Журнал документации . 46 (2): 81–101. дои : 10.1108/eb026855 .

[Lancaster2003a-1] Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Фасет ISBN 1-85604-482-3 . страница 6

[Chowdhury2004-2] Перейти обратно: Перейти обратно: ^а ^б Г. Г. Чоудхури (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фасет. ISBN 1-85604-480-7 . стр. 71

[Lancaster2003b-3] Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Фасет ISBN 1-85604-482-3 . стр. 24

[Voss2007-4] Восс, Якоб (2007). «Теги, Folksonomy & Co — возрождение ручного индексирования?». Материалы Международного симпозиума по информатике . стр. 234–254. arXiv : cs/0701072 . Бибкод : 2007cs........1072V .

[Lamb2008-5] Дж. Лэмб (2008): Индексы, создаваемые человеком или компьютером? Архивировано 4 июня 2014 г. в Wayback Machine [онлайн] Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.

[Tenopir-6] К. Тенопир (1999): «Индексация важна, человечная или автоматизированная». Библиотечный журнал 124 (18) стр. 34-38.

[Bodoff1998-7] Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной и пост-координации». Журнал Американского общества информатики , 49 (14), 1254–1269.

[Cleveland2001-8] Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 105

[Weinberg1999-9] Б. Х. Вайнберг (1990): «Исчерпывание индексов: книги, журналы и полные электронные тексты; Краткое изложение семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова , 7 (5), страницы 1+.

[Anderson1997-10] Дж. Д. Андерсон (1997): Рекомендации для индексов и соответствующих устройств поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.

[Cleveland2001b-11] Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 106

[12] Хьёрланд, Биргер (2011). Важность теорий познания: индексирование и поиск информации на примере. Журнал Американского общества информатики и технологий , 62 (1), 72-77.

[13] Хьёрланд, Б. (1997). Поиск информации и представление субъекта. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.

[14] Ором, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30(3/4), 128-143.

[15] Абрахамсен, Кнут Т. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144–169.

[rowley2000-16] Перейти обратно: Перейти обратно: ^а ^б Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Олдерстот: Издательская компания Gower

[17] Хьёрланд, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]