Ключевое слово в контексте
Ключевое слово в контексте ( KWIC ) — это наиболее распространенный формат строк соответствия . Термин KWIC был придуман Гансом Петером Луном . [1] Система была основана на концепции, называемой ключевым словом в заголовках , которая была впервые предложена для библиотек Манчестера в 1864 году Андреа Крестадоро . [2]
Индекс KWIC формируется путем сортировки и выравнивания слов в заголовке статьи, чтобы каждое слово (кроме стоп-слов ) в заголовках было доступным для поиска в алфавитном порядке в индексе. [3] Это был полезный метод индексации технических руководств до того, как компьютерный полнотекстовый поиск стал обычным явлением.
Например, поисковый запрос, включающий все слова из примерного определения («KWIC — это аббревиатура от «Ключевое слово в контексте», наиболее распространенный формат строк соответствия») и слоган Википедии на английском языке («свободная энциклопедия»), поиск по странице Википедии может дать индекс KWIC следующим образом. В индексе KWIC обычно используется широкий макет, позволяющий отображать максимум информации «в контексте» (не показано в следующем примере).
КВИК – это | аббревиатура от «Ключевое слово в контексте», ... | страница 1 |
... Ключевое слово в контексте: наиболее | общий формат строк согласования. | страница 1 |
... наиболее распространенный формат для | линии согласования . | страница 1 |
... является аббревиатурой от Key Word In. | Контекст , наиболее распространенный формат... | страница 1 |
Arc.Ask3.Ru, Бесплатное | Энциклопедия | страница 0 |
... В контексте наиболее распространенный | формат строк соответствия. | страница 1 |
Arc.Ask3.Ru, | Бесплатная энциклопедия | страница 0 |
KWIC — это аббревиатура от | Ключевое слово в контексте, наиболее ... | страница 1 |
KWIC — это аббревиатура от Key Word… | страница 1 | |
... общий формат согласования | линии . | страница 1 |
... для ключевого слова в контексте | наиболее распространенный формат согласования... | страница 1 |
Arc.Ask3.Ru , Бесплатная энциклопедия | страница 0 | |
KWIC — это аббревиатура от Key | Слово в контексте, наиболее распространенное... | страница 1 |
Индекс KWIC — это частный случай перестановочного индекса . [4] Этот термин относится к тому факту, что он индексирует все циклические перестановки заголовков. Книги, состоящие из множества коротких разделов с собственными описательными заголовками, особенно сборники страниц руководства , часто заканчиваются перестановочным индексным разделом, позволяющим читателю легко найти раздел по любому слову из его заголовка. Эта практика, также известная как «Ключевое слово вне контекста» ( KWOC ), больше не распространена.
- Ключевое слово в контексте (KWAC)
- Ключевое слово в контексте (KWIC)
- Ключевое слово вне контекста (KWOC)
Ссылки в литературе
[ редактировать ]Примечание. В первой ссылке индекс KWIC не указан, если вы не платите за просмотр статьи. Во второй ссылке эта статья вообще не упоминается.
- Дэвид Л. Парнас использует индекс KWIC в качестве примера выполнения модульного проектирования в своей статье «О критериях, которые будут использоваться при разложении систем на модули» , доступной как классическая статья ACM.
- Кристофер Д. Мэннинг и Хинрих Шютце описывают индекс KWIC и компьютерное согласование в разделе 1.4.5 своей книги « Основы статистической обработки естественного языка» . Кембридж, Массачусетс: MIT Press, 1999. ISBN 9780262133609 . Они цитируют статью Г. П. Луна 1960 года «Указатель ключевых слов в контексте технической литературы (индекс kwic)».
- Согласно книге преподобного Джерарда О'Коннора Concordantia et Indices Missalium Romanorum , «большинство симфоний, созданных в последнее время с помощью компьютерного программного обеспечения, используют форматы KWIC (ключевое слово в контексте) и KWICn (ключевое слово в центре), в которых перечислены ключевое слово, обычно выделенное жирным шрифтом в постоянной позиции, в ограниченном объеме контекстного текста, т.е. три [или] четыре слова текста перед ключевым словом и такое же количество текста после него. Этот формат чрезвычайно полезен в этом отношении. ключевое слово легко идентифицируется вместе с его контекстом ... Согласование Римского Миссала производится как в форматах KWIC, так и в KWICn и примечательно тем, что каждая словоформа указана в том виде, в котором она появляется в тексте, то есть является таковой. нелемматизированный ».
См. также
[ редактировать ]ptx
, утилита командной строки Unix, создающая перестановочный индекс- Конкордансер
- Преобразование Берроуза – Уиллера
- Суффиксное дерево
Ссылки
[ редактировать ]- ^ Мэннинг, CD; Шютце, Х. (1999). Основы статистической обработки естественного языка . Массачусетский технологический институт Пресс. п. 35.
- ^ «Продвинутые методы индексирования и абстрагирования» . Atlantic Publishers & Distri . Проверено 26 марта 2019 г. - через Google Книги.
- ^ «Индексы и соответствия KWIC» . Архивировано из оригинала 6 июня 2016 г. Проверено 17 июня 2016 г.
- ^ «3. Теория индексации KWIC» . Infohost.nmt.edu . Архивировано из оригинала 14 мая 2019 года . Проверено 26 марта 2019 г.