Поиск информации
Информатика |
---|
Общие аспекты |
Связанные поля и подполя |
Поиск информации ( IR ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в виде поискового запроса. В случае поиска документов запросы могут основываться на полнотекстовой или другой индексации на основе содержимого. Поиск информации – это наука [1] поиска информации в документе, поиска самих документов, а также поиска метаданных, описывающих данные, и баз данных текстов, изображений или звуков.
Автоматизированные системы поиска информации используются для уменьшения так называемой информационной перегрузки . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; он также хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными ИК-приложениями.
Обзор
[ редактировать ]Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о информационных потребностях, например строки поиска в поисковых системах Интернета. При поиске информации запрос не идентифицирует однозначно ни один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .
Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать запросу, а могут и не соответствовать, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. [2]
В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] интеллект-карты [5] или видео. Часто сами документы не хранятся и не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .
Большинство IR-систем вычисляют числовой показатель того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю отображаются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [6]
История
[ редактировать ]существует... машина под названием Univac... с помощью которой буквы и цифры кодируются в виде узора из магнитных пятен на длинной стальной ленте. Таким образом, может быть записан текст документа, которому предшествует символ его тематического кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.
- Дж. Э. Хольмстрем, 1948 г.
Идея использования компьютеров для поиска необходимой информации была популяризирована в статье «Как мы можем думать» Ванневара Буша в 1945 году. [7] Судя по всему, Буша вдохновили патенты на «статистическую машину», зарегистрированные Эмануэлем Голдбергом в 1920-х и 1930-х годах, которые искали документы, хранящиеся на пленке. [8] Первое описание компьютера, осуществляющего поиск информации, было описано Хольмстромом в 1948 году. [9] с подробным описанием раннего упоминания о компьютере Univac . Автоматизированные системы поиска информации были внедрены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор» . в Корнелле была сформирована первая крупная исследовательская группа по поиску информации В 1960-х годах Джерардом Солтоном . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми массивами, такими как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.
В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило соавтором конференции по текстовому поиску (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследований методов, которые можно масштабировать до огромных корпусов. Внедрение поисковых систем еще больше увеличило потребность в очень крупномасштабных поисковых системах.
Приложения
[ редактировать ]Области, в которых используются методы поиска информации, включают (в каждой категории записи расположены в алфавитном порядке):
Общие приложения
[ редактировать ]- Электронные библиотеки
- Фильтрация информации
- Медиа-поиск
- Поиск по блогам
- Получение изображения
- 3D-извлечение
- Поиск музыки
- Поиск новостей
- Восстановление речи
- Поиск видео
- Поисковые системы
Специализированные приложения
[ редактировать ]- Экспертный поиск
- Поиск геномной информации
- Поиск географической информации
- Поиск информации по химическим структурам
- Информационный поиск в программной инженерии
- Поиск юридической информации
- Вертикальный поиск
Другие методы поиска
[ редактировать ]Методы/техники, в которых используются методы поиска информации, включают:
- Поиск состязательной информации
- Автоматическое обобщение
- Обработка сложных терминов
- Межъязыковой поиск
- Классификация документов
- Фильтрация спама
- Ответ на вопрос
Типы моделей
[ редактировать ]Чтобы эффективно извлечь соответствующие документы с помощью стратегий IR, документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Рисунок справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум параметрам: математическая основа и свойства модели.
Первое измерение: математическая основа
[ редактировать ]- Теоретико-множественные модели представляют документы как наборы слов или фраз. Сходства обычно выводятся из теоретико-множественных операций над этими множествами. Распространенными моделями являются:
- Алгебраические модели представляют документы и запросы обычно в виде векторов, матриц или кортежей. Сходство вектора запроса и вектора документа представляется в виде скалярного значения.
- Вероятностные модели рассматривают процесс поиска документов как вероятностный вывод. Сходства рассчитываются как вероятность того, что документ соответствует данному запросу. вероятностные теоремы, такие как теорема Байеса В этих моделях часто используются .
- Модель двоичной независимости
- Вероятностная модель релевантности , на которой основана Окапи (BM25). функция релевантности
- Неопределенный вывод
- Языковые модели
- Модель отклонения от случайности
- Скрытое распределение Дирихле
- Модели поиска на основе функций рассматривают документы как векторы значений функций функций (или просто функций ) и ищут лучший способ объединить эти функции в единый показатель релевантности, обычно путем обучения методам ранжирования . Функциональные функции — это произвольные функции документа и запроса, поэтому они могут легко включать практически любую другую модель поиска в качестве еще одной функции.
Второе измерение: свойства модели
[ редактировать ]- Модели без взаимозависимостей терминов рассматривают разные термины/слова как независимые. Этот факт обычно представляется в моделях векторного пространства предположением ортогональности векторов термов или в вероятностных моделях предположением независимости переменных-термов.
- Модели с имманентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, путем уменьшения размеров ) из совместного появления этих терминов во всем наборе документов.
- Модели с трансцендентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)
Показатели производительности и правильности
[ редактировать ]Оценка системы поиска информации — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем случае измерение предполагает совокупность документов, в которых осуществляется поиск, и поисковый запрос. Традиционные метрики оценки, предназначенные для логического поиска. [ нужны разъяснения ] или поиск top-k, включите точность и отзыв . Все меры предполагают базовое понятие релевантности: известно, что каждый документ либо релевантный, либо нерелевантный конкретному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.
Хронология
[ редактировать ]- До 1900-х годов
- 1801 : Жозеф Мари Жаккар изобретает жаккардовый ткацкий станок , первую машину, использующую перфокарты для управления последовательностью операций.
- 1880-е годы : Герман Холлерит изобретает электромеханический табулятор данных, использующий перфокарты в качестве машиночитаемого носителя.
- 1890 года Холлерита Карточки , перфораторы и табуляторы, использованные для обработки данных переписи населения США 1890 года .
- 1920-1930-е годы
- Эмануэль Голдберг подает патенты на свою «Статистическую машину», систему поиска документов, которая использовала фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
- 1940–1950-е годы
- Конец 1940-х годов : американские военные столкнулись с проблемами индексации и поиска документов научных исследований военного времени, захваченных у немцев.
- 1945 : Ванневара Буша « книга Как мы можем думать» появилась В журнале Atlantic Monthly .
- 1947 : Ханс Петер Лун (инженер-исследователь в IBM с 1941 года) начал работу над механизированной системой на основе перфокарт для поиска химических соединений.
- 1950-е : Растущая озабоченность в США «научным разрывом» с СССР мотивировала, поощряла финансирование и создавала основу для механизированных систем поиска литературы ( Аллен Кент и др. ), а также изобретение индекса цитирования Юджином Гарфилдом .
- 1950 : Термин «поиск информации» был придуман Кэлвином Мурсом . [10]
- 1951 : Филип Бэгли провел первый эксперимент по компьютеризированному поиску документов в своей магистерской диссертации в Массачусетском технологическом институте . [11]
- 1955 : Аллен Кент поступил на работу в Университет Кейс Вестерн Резерв и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали в журнале American Documentation статью, в которой описываются меры точности и полноты, а также подробно описывается предлагаемая «структура» для оценки системы IR, которая включает методы статистической выборки для определения количества неполученных соответствующих документов. [12]
- 1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, рассмотрела рассмотрение систем ИК как решения выявленных проблем. См.: Материалы Международной конференции по научной информации, 1958 г. (Национальная академия наук, Вашингтон, округ Колумбия, 1959 г.).
- 1959 : Ганс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
- Конец 1940-х годов : американские военные столкнулись с проблемами индексации и поиска документов научных исследований военного времени, захваченных у немцев.
- 1960-е :
- начало 1960-х : Джерард Солтон начал работу в области международных отношений в Гарварде, позже переехал в Корнелл.
- 1960 : Мелвин Эрл Марон и Джон Лари Кунс [13] опубликовал «Об релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 г.
- 1962 :
- Сирил В. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель оценки системы IR. См.: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексирования». Крэнфилдская коллекция аэронавтики, Крэнфилд, Англия, 1962.
- Кент опубликовал «Анализ и поиск информации» .
- 1963 :
- Доклад Вайнберга «Наука, правительство и информация» дал полную формулировку идеи «кризиса научной информации». Доклад был назван в честь доктора Элвина Вайнберга .
- Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Уайли (1963).
- 1964 :
- Карен Сперк Джонс защитила диссертацию по теме «Синонимия и семантическая классификация» в Кембридже и продолжила работу в области компьютерной лингвистики применительно к международным отношениям.
- Национальное бюро стандартов спонсировало симпозиум под названием «Методы статистической ассоциации для механизированной документации». Несколько весьма важных статей, в том числе первая опубликованная ссылка Дж. Солтона (на наш взгляд) на систему SMART .
- середина 1960-х :
- Национальная медицинская библиотека разработала систему анализа и поиска медицинской литературы MEDLARS , первую крупную машиночитаемую базу данных и систему пакетного поиска.
- Проект Intrex в Массачусетском технологическом институте.
- 1965 : JCR Licklider опубликовал «Библиотеки будущего» .
- 1966 : Дон Суонсон участвовал в исследованиях в Чикагском университете по требованиям к будущим каталогам.
- Конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
- 1968 :
- Джерард Солтон опубликовал книгу «Автоматическая организация и поиск информации» .
- В техническом отчете RADC Джона В. Сэммона-младшего «Некоторые математические методы хранения и поиска информации...» изложена векторная модель.
- 1969 : Книга Сэммона « Нелинейное отображение для анализа структуры данных. Архивировано 8 августа 2017 г. в Wayback Machine » (IEEE Transactions on Computers) была первым предложением по интерфейсу визуализации для ИК-системы.
- 1970-е годы
- начало 1970-х :
- Первые онлайн-системы — AIM-TWX компании NLM, MEDLINE; Диалог Локхида; ОРБИТА SDC.
- Теодор Нельсон продвигает концепцию гипертекста в публикации Computer Lib/Dream Machines .
- 1971 : Николас Жардин и Корнелис Дж. ван Рейсберген опубликовали «Использование иерархической кластеризации в поиске информации», в которой сформулировали «гипотезу кластера». [14]
- 1975 : Три весьма влиятельные публикации Солтона полностью изложили его структуру векторной обработки и модель дискриминации терминов :
- 1978 : Первая конференция ACM SIGIR .
- 1979 : Си Джей ван Рейсберген опубликовал «Поиск информации» (Баттервортс). Большой упор на вероятностные модели.
- 1979 : Тамаш Дошкоч внедрил пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживала ввод запросов в свободной форме, ранжирование результатов и обратную связь по релевантности. [15]
- начало 1970-х :
- 1980-е годы
- 1980 : Первая международная конференция ACM SIGIR, совместная с группой IR Британского компьютерного общества в Кембридже.
- 1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их инструмент автоматического анализа в конечном итоге разочаровал.
- 1983 : Солтон (и Майкл Дж. МакГилл) опубликовали «Введение в современный поиск информации» (McGraw-Hill), уделив большое внимание векторным моделям.
- 1985 : Дэвид Блэр и Билл Марон публикуют: «Оценка эффективности поиска для системы полнотекстового поиска документов».
- середина 1980-х : попытки разработать версии коммерческих ИК-систем для конечных пользователей.
- 1985–1993 : Ключевые статьи по экспериментальным системам интерфейсов визуализации.
- Работы Дональда Б. Крауча , Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Сперри и других.
- 1989 : Первые Всемирной паутины предложения Тима Бернерса-Ли в ЦЕРНе .
- 1990-е годы
- 1992 : Первая TREC . конференция
- 1997 : Публикация книги Корфхаге « Хранение и поиск информации ». [16] с упором на визуализацию и системы с несколькими точками отсчета.
- 1999 : Публикация книги Рикардо Баэса-Йейтса и Бертье Рибейро-Нето Аддисона Уэсли «Современный поиск информации» , первой книги, в которой делается попытка охватить все международные отношения.
- Конец 1990-х : В поисковых системах веб-поиска реализованы многие функции, ранее встречавшиеся только в экспериментальных ИК-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим примером реализации IR-моделей.
Крупные конференции
[ редактировать ]- SIGIR: Конференция по исследованиям и разработкам в области информационного поиска
- ECIR: Европейская конференция по информационному поиску
- CIKM: Конференция по управлению информацией и знаниями
- WWW: Международная конференция Всемирной паутины
- WSDM: Конференция по веб-поиску и интеллектуальному анализу данных
- ICTIR: Международная конференция по теории информационного поиска
Награды в области
[ редактировать ]См. также
[ редактировать ]- Состязательный поиск информации . Стратегии поиска информации в наборах данных.
- Память компьютера - компонент компьютера, хранящий информацию для немедленного использования.
- Контролируемая лексика - Метод организации знаний.
- Межъязыковой поиск информации – поиск информации на разных языках.
- Интеллектуальный анализ данных - процесс извлечения и обнаружения закономерностей в больших наборах данных.
- Поиск данных - способ получения данных из базы данных.
- Европейская летняя школа по информационному поиску - ESSIR способствует исследованиям, инновациям и разработке систем доступа к информации, обучая младших и старших исследователей, студентов, специалистов и разработчиков новейшим разработкам в этой области, как методологическим, так и технологическим.
- Человеко-компьютерный поиск информации ( HCIR )
- Извлечение информации - машинное чтение неструктурированных документов.
- Поиск информации - процесс или деятельность по попытке получения информации как в человеческом, так и в технологическом контексте.
- Поиск информации § По сравнению с поиском информации
- Совместный поиск информации
- Поиск социальной информации - область исследований, которая включает изучение ситуаций, мотиваций и методов для людей, которые ищут и делятся информацией на совместных онлайн-социальных сайтах.
- Центр поиска информации – организация в Вене, Австрия, 2006–2012 гг.
- Визуализация знаний — набор методов создания изображений, диаграмм или анимации для передачи сообщения.
- Поиск мультимедийной информации
- Управление личной информацией – Инструменты и системы для управления собственными данными.
- Выращивание жемчуга – Тип стратегии поиска
- Понимание запроса – этап обработки поисковой системой
- Релевантность (поиск информации) – мера применимости документа к данной теме или поисковому запросу.
- Обратная связь по релевантности – тип обратной связи.
- Классификация Роккио - модель классификации в машинном обучении, основанная на центроидах.
- Индексирование поисковыми системами – метод управления данными
- Специальная группа по поиску информации - Подгруппа Ассоциации вычислительной техники
- Тематическое индексирование – классификация документа по индексным терминам.
- Поиск временной информации - область исследований, связанных с поиском информации, ориентированная на своевременность.
- tf–idf – Оценка важности слова в документе.
- Извлечение XML – извлечение XML-документов на основе содержимого.
- Веб-майнинг — процесс извлечения и обнаружения закономерностей в больших наборах данных.
Ссылки
[ редактировать ]- ^ Лук, РВП (2022). «Почему поиск информации является научной дисциплиной?». Основы науки . 27 (2): 427–453. дои : 10.1007/s10699-020-09685-x . hdl : 10397/94873 . S2CID 220506422 .
- ^ Янсен, Б. Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.
- ^ Гудрам, Эбби А. (2000). «Поиск информации об изображении: обзор текущих исследований». Информационная наука . 3 (2).
- ^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 :2–10. CiteSeerX 10.1.1.39.6339 . дои : 10.1007/s005300050106 . S2CID 2000641 .
- ^ Бил, Йоран; Гипп, Бела; Стиллер, Ян-Олаф (2009). Поиск информации по интеллект-картам: для чего это может быть полезно? . Материалы 5-й Международной конференции по совместным вычислениям: сети, приложения и совместная работа (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 13 мая 2011 г. Проверено 13 марта 2012 г.
- ^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы информационного поиска . Прентис-Холл, Inc. ISBN 978-0-13-463837-9 . Архивировано из оригинала 28 сентября 2013 г.
- ^ Jump up to: а б Сингхал, Амит (2001). «Современный поиск информации: краткий обзор» (PDF) . Бюллетень Технического комитета по инженерии данных IEEE Computer Society . 24 (4): 35–43.
- ^ Марк Сандерсон и В. Брюс Крофт (2012). «История информационно-поисковых исследований» . Труды IEEE . 100 : 1444–1451. дои : 10.1109/jproc.2012.2189916 .
- ^ Дж. Э. Хольмстрем (1948). « Секция III. Открытие пленарного заседания» . Научно-информационная конференция Королевского общества, 21 июня — 2 июля 1948 г.: Представлено отчет и документы : 85.
- ^ Мурс, Кэлвин Н.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Фэрторн, РА (1958). «Автоматическое получение записанной информации» . Компьютерный журнал . 1 (1): 37. дои : 10.1093/comjnl/1.1.36 .
- ^ Дойл, Лорен; Беккер, Джозеф (1975). Поиск и обработка информации . Мелвилл. стр. 410 стр. ISBN 978-0-471-22151-7 .
- ^ Перри, Джеймс В.; Кент, Аллен; Берри, Мэдлин М. (1955). «Поиск в машинной литературе X. Машинный язык; факторы, лежащие в основе его проектирования и развития». Американская документация . 6 (4): 242–254. дои : 10.1002/asi.5090060411 .
- ^ Марон, Мелвин Э. (2008). «Историческая справка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. дои : 10.1016/j.ipm.2007.02.012 .
- ^ Н. Джардин, Си Джей ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9 .
- ^ Дошкоч, Т.Э. и Рапп, бакалавр (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросами на естественном языке, ранжированным выводом и обратной связью по релевантности», В: Proceedings of the ASIS Annual Meeting, 16: 131-139.
- ^ Корфхаге, Роберт Р. (1997). Хранение и поиск информации . Уайли. стр. 368 стр . ISBN 978-0-471-14338-3 .
Дальнейшее чтение
[ редактировать ]- Рикардо Баэса-Йейтс, Бертье Рибейру-Нето. Современный поиск информации: концепции и технологии поиска (второе издание). Архивировано 18 сентября 2017 г. в Wayback Machine . Аддисон-Уэсли, Великобритания, 2011 г.
- Стефан Бютчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. Архивировано 5 октября 2020 г. в Wayback Machine . MIT Press, Кембридж, Массачусетс, 2010.
- «Информационно-поисковая система» . Сеть библиотек и информатики . 24 апреля 2015 г. Архивировано из оригинала 11 мая 2020 г. . Проверено 3 мая 2020 г.
- Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации . Издательство Кембриджского университета, 2008.
- Йо, ШинДжон. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10: 0252087127 онлайн
Внешние ссылки
[ редактировать ]- ACM SIGIR: Специальная группа по поиску информации
- BCS IRSG: Британское компьютерное общество – группа специалистов по поиску информации
- Конференция по текстовому поиску (TREC)
- Форум по оценке информационного поиска (FIRE)
- Информационный поиск (онлайн-книга), Си Джей ван Рейсберген
- Информационно-поисковая вики. Архивировано 24 ноября 2015 г. на Wayback Machine.
- Средство поиска информации. Архивировано 22 мая 2008 г. в Wayback Machine.
- Отчет TREC о методах оценки информационного поиска
- Как eBay измеряет релевантность поиска
- Инструмент оценки эффективности поиска информации @ Исследовательский центр Афина