Поиск информации

Поиск информации ( IR ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , соответствующих информационным потребностям . Информационная потребность может быть указана в виде поискового запроса. В случае поиска документов запросы могут основываться на полнотекстовой или другой индексации на основе содержимого. Поиск информации – это наука [1] поиска информации в документе, поиска самих документов, а также поиска метаданных, описывающих данные, и баз данных текстов, изображений или звуков.

Автоматизированные системы поиска информации используются для уменьшения так называемой информационной перегрузки . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; он также хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными ИК-приложениями.

Обзор [ править ]

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о информационных потребностях, например строки поиска в поисковых системах Интернета. При поиске информации запрос не идентифицирует однозначно ни один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .

Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать запросу, а могут и не соответствовать, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. [2]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] интеллект-карты [5] или видео. Часто сами документы не хранятся и не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство IR-систем вычисляют числовой показатель того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю отображаются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [6]

История [ править ]

существует... машина под названием Univac... с помощью которой буквы и цифры кодируются в виде узора из магнитных пятен на длинной стальной ленте. Таким образом, может быть записан текст документа, которому предшествует символ его тематического кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.

- Дж. Э. Хольмстрем, 1948 г.

Идея использования компьютеров для поиска необходимой информации была популяризирована в статье «Как мы можем думать» Ванневара Буша в 1945 году. [7] Судя по всему, Буша вдохновили патенты на «статистическую машину», зарегистрированные Эмануэлем Голдбергом в 1920-х и 1930-х годах, которые искали документы, хранящиеся на пленке. [8] Первое описание компьютера, осуществляющего поиск информации, было описано Хольмстромом в 1948 году. [9] с подробным описанием раннего упоминания о компьютере Univac . Автоматизированные системы поиска информации были внедрены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор» . в Корнелле была сформирована первая крупная исследовательская группа по поиску информации В 1960-х годах Джерардом Солтоном . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми массивами, такими как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.

В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило соавтором конференции по текстовому поиску (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследований методов, которые можно масштабировать до огромных корпусов. Внедрение поисковых систем еще больше увеличило потребность в очень крупномасштабных поисковых системах.

Приложения [ править ]

Области, в которых используются методы поиска информации, включают (в каждой категории записи расположены в алфавитном порядке):

Общие приложения [ править ]

Приложения, специфичные для предметной области [ править ]

Другие методы поиска [ править ]

Методы/техники, в которых используются методы поиска информации, включают:

Типы моделей [ править ]

Категоризация IR-моделей (перевод с немецкой статьи , первоисточник Доминик Куропка )

Чтобы эффективно получить соответствующие документы с помощью стратегий IR, документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Рисунок справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум параметрам: математическая основа и свойства модели.

: математическая основа измерение Первое

Второе измерение: свойства модели [ править ]

  • Модели без взаимозависимостей терминов рассматривают разные термины/слова как независимые. Этот факт обычно представляется в моделях векторного пространства предположением ортогональности векторов термов или в вероятностных моделях - предположением независимости переменных-термов.
  • Модели с имманентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, путем уменьшения размеров ) из совместного появления этих терминов во всем наборе документов.
  • Модели с трансцендентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)

и правильности Показатели производительности

Оценка системы информационного поиска — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем случае измерение предполагает совокупность документов, в которых осуществляется поиск, и поисковый запрос. Традиционные метрики оценки, предназначенные для логического поиска. [ нужны разъяснения ] или поиск top-k, включите точность и отзыв . Все меры предполагают базовое понятие релевантности: известно, что каждый документ либо релевантный, либо нерелевантный конкретному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.

Хронология [ править ]

  • До 1900-х годов
    1801 : Жозеф Мари Жаккар изобретает жаккардовый ткацкий станок , первую машину, использующую перфокарты для управления последовательностью операций.
    1880-е годы : Герман Холлерит изобретает электромеханический табулятор данных, использующий перфокарты в качестве машиночитаемого носителя.
    1890 года Холлерита Карточки , перфораторы и табуляторы, использованные для обработки данных переписи населения США 1890 года .
  • 1920-1930-е годы
    Эмануэль Голдберг подает патенты на свою «Статистическую машину», поисковую систему документов, которая использовала фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
  • 1940–1950-е годы
    Конец 1940-х годов : американские военные столкнулись с проблемами индексации и поиска документов научных исследований военного времени, захваченных у немцев.
    1945 : Ванневара Буша « книга Как мы можем думать» появилась В журнале Atlantic Monthly .
    1947 : Ханс Петер Лун (инженер-исследователь в IBM с 1941 года) начал работу над механизированной системой на основе перфокарт для поиска химических соединений.
    1950-е : Растущая озабоченность в США «научным разрывом» с СССР мотивировала, поощряла финансирование и создавала основу для механизированных систем поиска литературы ( Аллен Кент и др. ), а также изобретение индекса цитирования Юджином Гарфилдом .
    1950 : Термин «поиск информации» был придуман Кэлвином Мурсом . [10]
    1951 : Филип Бэгли провел первый эксперимент по компьютеризированному поиску документов в своей магистерской диссертации в Массачусетском технологическом институте . [11]
    1955 : Аллен Кент поступил на работу в Университет Кейс Вестерн Резерв и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали в журнале American Documentation статью, в которой описываются меры точности и полноты, а также подробно описывается предлагаемая «структура» для оценки системы IR, которая включает методы статистической выборки для определения количества неполученных соответствующих документов. [12]
    1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, рассмотрела рассмотрение систем ИК как решения выявленных проблем. См.: Материалы Международной конференции по научной информации, 1958 г. (Национальная академия наук, Вашингтон, округ Колумбия, 1959 г.).
    1959 : Ханс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
  • 1960-е :
    начало 1960-х : Джерард Солтон начал работу в области международных отношений в Гарварде, позже переехал в Корнелл.
    1960 : Мелвин Эрл Марон и Джон Лари Кунс [13] опубликовал статью «Об релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 г.
    1962 :
    • Сирил В. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель оценки системы IR. См.: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексирования». Крэнфилдская коллекция аэронавтики, Крэнфилд, Англия, 1962 год.
    • Кент опубликовал «Анализ и поиск информации» .
    1963 :
    • Доклад Вайнберга «Наука, правительство и информация» дал полную формулировку идеи «кризиса научной информации». Доклад был назван в честь доктора Элвина Вайнберга .
    • Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Уайли (1963).
    1964 :
    • Карен Сперк Джонс защитила диссертацию по теме «Синонимия и семантическая классификация» в Кембридже и продолжила работу в области компьютерной лингвистики применительно к международным отношениям.
    • Национальное бюро стандартов спонсировало симпозиум под названием «Методы статистической ассоциации для механизированной документации». Несколько весьма важных статей, в том числе первая опубликованная ссылка (на наш взгляд) Дж. Солтона на систему SMART .
    середина 1960-х :
    1965 : JCR Licklider опубликовал «Библиотеки будущего» .
    1966 : Дон Суонсон участвовал в исследованиях требований к будущим каталогам в Чикагском университете.
    Конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
    1968 :
    • Джерард Солтон опубликовал книгу «Автоматическая организация и поиск информации» .
    • В техническом отчете RADC Джона В. Сэммона-младшего «Некоторые математические методы хранения и поиска информации...» изложена векторная модель.
    1969 : Книга Сэммона « Нелинейное отображение для анализа структуры данных. Архивировано 8 августа 2017 г. в Wayback Machine » (IEEE Transactions on Computers) была первым предложением по интерфейсу визуализации для ИК-системы.
  • 1970-е годы
    начало 1970-х :
    • Первые онлайн-системы — AIM-TWX компании NLM, MEDLINE; Диалог Локхида; ОРБИТА SDC.
    • Теодор Нельсон, продвигающий концепцию гипертекста , опубликовал Computer Lib/Dream Machines .
    1971 : Николас Жардин и Корнелис Дж. ван Рейсберген опубликовали «Использование иерархической кластеризации в поиске информации», в которой сформулировали «гипотезу кластера». [14]
    1975 : Три весьма влиятельные публикации Солтона полностью изложили его структуру векторной обработки и модель дискриминации терминов :
    • Теория индексации (Общество промышленной и прикладной математики)
    • Теория важности терминов в автоматическом анализе текста ( JASIS , версия 26)
    • Модель векторного пространства для автоматического индексирования ( CACM 18:11)
    1978 : Первая конференция ACM SIGIR .
    1979 : Си Джей ван Рейсберген опубликовал «Поиск информации» (Баттервортс). Большой упор на вероятностные модели.
    1979 : Тамаш Дошкоч внедрил пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживала ввод запросов в свободной форме, ранжирование результатов и обратную связь по релевантности. [15]
  • 1980-е годы
    1980 : Первая международная конференция ACM SIGIR, совместная с группой IR Британского компьютерного общества в Кембридже.
    1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их инструмент автоматического анализа в конечном итоге разочаровал.
    1983 : Солтон (и Майкл Дж. МакГилл) опубликовали «Введение в современный поиск информации» (McGraw-Hill), уделив большое внимание векторным моделям.
    1985 : Дэвид Блэр и Билл Марон публикуют: «Оценка эффективности поиска для системы полнотекстового поиска документов».
    середина 1980-х : попытки разработать версии коммерческих ИК-систем для конечных пользователей.
    1985–1993 : Ключевые статьи по экспериментальным системам интерфейсов визуализации.
    Работы Дональда Б. Крауча , Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Сперри и других.
    1989 : Первые Всемирной паутины предложения Тима Бернерса-Ли в ЦЕРНе .
  • 1990-е годы
    1992 : Первая TREC . конференция
    1997 : Публикация книги Корфхаге « Хранение и поиск информации ». [16] с упором на визуализацию и системы с несколькими точками отсчета.
    1999 : Публикация книги Рикардо Баэса-Йейтса и Бертье Рибейро-Нето Аддисона Уэсли «Современный поиск информации» , первой книги, в которой делается попытка охватить все международные отношения.
    Конец 1990-х годов : реализация в поисковых системах многих функций, ранее встречавшихся только в экспериментальных ИК-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим примером реализации IR-моделей.

Крупные конференции [ править ]

Награды в этой области [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Лук, РВП (2022). «Почему поиск информации является научной дисциплиной?». Основы науки . 27 (2): 427–453. дои : 10.1007/s10699-020-09685-x . hdl : 10397/94873 . S2CID   220506422 .
  2. ^ Янсен, Б. Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.
  3. ^ Гудрам, Эбби А. (2000). «Поиск информации об изображении: обзор текущих исследований». Информационная наука . 3 (2).
  4. ^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 :2–10. CiteSeerX   10.1.1.39.6339 . дои : 10.1007/s005300050106 . S2CID   2000641 .
  5. ^ Бил, Йоран; Гипп, Бела; Стиллер, Ян-Олаф (2009). Поиск информации по интеллект-картам: для чего это может быть полезно? . Материалы 5-й Международной конференции по совместным вычислениям: сети, приложения и совместная работа (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 13 мая 2011 г. Проверено 13 марта 2012 г.
  6. ^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы информационного поиска . Прентис-Холл, Inc. ISBN  978-0-13-463837-9 . Архивировано из оригинала 28 сентября 2013 г.
  7. ^ Jump up to: Перейти обратно: а б Сингхал, Амит (2001). «Современный поиск информации: краткий обзор» (PDF) . Бюллетень Технического комитета по инженерии данных IEEE Computer Society . 24 (4): 35–43.
  8. ^ Марк Сандерсон и В. Брюс Крофт (2012). «История информационно-поисковых исследований» . Труды IEEE . 100 : 1444–1451. дои : 10.1109/jproc.2012.2189916 .
  9. ^ Дж. Э. Хольмстрем (1948). « Секция III. Открытие пленарного заседания» . Научно-информационная конференция Королевского общества, 21 июня — 2 июля 1948 г.: Представлено отчет и документы : 85.
  10. ^ Мурс, Кэлвин Н.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Фэрторн, РА (1958). «Автоматическое получение записанной информации» . Компьютерный журнал . 1 (1): 37. дои : 10.1093/comjnl/1.1.36 .
  11. ^ Дойл, Лорен; Беккер, Джозеф (1975). Поиск и обработка информации . Мелвилл. стр. 410 стр. ISBN  978-0-471-22151-7 .
  12. ^ Перри, Джеймс В.; Кент, Аллен; Берри, Мэдлин М. (1955). «Поиск в машинной литературе X. Машинный язык; факторы, лежащие в основе его проектирования и развития». Американская документация . 6 (4): 242–254. дои : 10.1002/asi.5090060411 .
  13. ^ Марон, Мелвин Э. (2008). «Историческая справка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. дои : 10.1016/j.ipm.2007.02.012 .
  14. ^ Н. Джардин, Си Джей ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9 .
  15. ^ Дошкоч, Т.Е. и Рапп, бакалавр (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросами на естественном языке, ранжированным выводом и обратной связью по релевантности», В: Proceedings of the ASIS Annual Meeting, 16: 131-139.
  16. ^ Корфхаге, Роберт Р. (1997). Хранение и поиск информации . Уайли. стр. 368 стр . ISBN  978-0-471-14338-3 .

Дальнейшее чтение [ править ]

  • Йо, ШинДжон. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10: 0252087127 онлайн

Внешние ссылки [ править ]