Jump to content

Автоматическое индексирование

Автоматическое индексирование — это компьютеризированный процесс сканирования больших объемов документов на предмет соответствия контролируемому словарю , таксономии , тезаурусу или онтологии и использования этих контролируемых терминов для быстрой и эффективной индексации крупных хранилищ электронных документов . Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, какие слова следует сопоставлять. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и том, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста. [1] Поскольку количество документов экспоненциально увеличивается с распространением Интернета , автоматическое индексирование станет необходимым для сохранения возможности находить нужную информацию в море ненужной информации . Системы естественного языка используются для обучения системы, основанной на семи различных методах, которые помогают справиться с этим морем ненужной информации. К этим методам относятся морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический. Каждый из них имеет разные аспекты скорости и условий для создания домена для конкретной информации, которая подлежит индексированию. Это используется в автоматизированном процессе индексации. [1]

Автоматизированный процесс может столкнуться с проблемами, вызванными в первую очередь двумя факторами: 1) сложностью языка; и 2) отсутствие интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии. [2] Это прежде всего лингвистические проблемы и специфические проблемы, затрагивающие семантические и синтаксические аспекты языка. [2] Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе попаданий, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютеризированная система пропустила и которые не пропустил бы человек, и ключевым словам, выбранным компьютером и которых не было бы у человека. Основанная на этом статистика точности должна быть выше 85 % для попаданий из 100 % при индексировании человеком. В результате суммарное количество промахов и шума составит 15 % или меньше. Эта шкала обеспечивает основу для того, что считается хорошей автоматической системой индексирования, и показывает, где возникают проблемы. [1]

Некоторые ученые отмечают, что тема автоматического индексирования привлекла внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и более полном доступе к научной и технической литературе. [3] Такое внимание к индексированию началось с обработки текста между 1957 и 1959 годами, проведенной HP Lunh в серии опубликованных статей. Лунь предположил, что компьютер может выполнять сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматического индексирования и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было установлено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, что мы имеем сейчас с автоматическим индексированием. [4] Об этом свидетельствовал информационный взрыв, предсказанный в 1960-е гг. [5] и появился благодаря появлению информационных технологий и Всемирной паутины. Прогноз был подготовлен Мурсом, в котором была создана схема ожидаемой роли, которую компьютеры будут играть в обработке текста и поиске информации. В этом предсказании говорилось, что машины будут использоваться для хранения документов в больших коллекциях и что мы будем использовать эти машины для поиска. Мурс также предсказал онлайн-аспект и среду поиска для индексации баз данных. Это побудило Мурса предсказать появление индукционной машины вывода, которая произвела бы революцию в индексировании. [4] Это явление потребовало разработки системы индексирования, которая могла бы справиться с задачей хранения и организации огромных объемов данных и облегчить доступ к информации. [6] [7] Новое электронное оборудование еще больше продвинуло автоматическое индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, и позволило кодировать информацию на молекулярном уровне. [5] С помощью этого нового электронного оборудования были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как пакеты PDM, такие как Outlook или Lotus Note, и инструменты отображения разума, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели. [8] Автоматическое индексирование также частично обусловлено появлением области, называемой компьютерной лингвистикой , которая руководила исследованиями, которые в конечном итоге привели к появлению таких методов, как применение компьютерного анализа к структуре и значению языков. [3] [9] Автоматическое индексирование также стимулируется исследованиями и разработками в области искусственного интеллекта и самоорганизующейся системы, также называемой мыслящей машиной. [3]

Лекарство

[ редактировать ]

Автоматическое индексирование имеет множество практических применений, например, в области медицины. В исследовании, опубликованном в 2009 году, исследователи рассказывают о том, как можно использовать автоматическое индексирование для создания информационного портала, на котором пользователи смогут найти достоверную информацию о препарате. CISMeF — один из таких порталов здравоохранения, предназначенный для предоставления информации о лекарствах. Веб-сайт использует тезаурус MeSH для индексации научных статей базы данных MEDLINE и метаданных Dublin Core. Система создает метатермин «наркотик» и использует его в качестве критерия поиска для поиска всей информации о конкретном препарате. На сайте используется простой и расширенный поиск. Простой поиск позволяет осуществлять поиск по торговой марке или по любому коду, присвоенному лекарству. Расширенный поиск обеспечивает более конкретный поиск, позволяя ввести все, что описывает препарат, который вы ищете. [10]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с Глава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени» . Бюллетень Американского общества информатики и технологий . 29 (1): 12–15. дои : 10.1002/bult.261 .
  2. ^ Jump up to: а б Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание . Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ИСБН  9781598849769 .
  3. ^ Jump up to: а б с Риаз, Мухаммед (1989). Расширенные методы индексирования и абстрагирования . Дели: Атлантические издатели и дистрибьюторы. п. 263.
  4. ^ Jump up to: а б Историческая справка: последние тридцать лет в области поиска информации Солтон, Джерард Журнал Американского общества информатики (1986–1998); сентябрь 1987 г.; 38, 5; ПроКвест стр. 375
  5. ^ Jump up to: а б Торрес-Морено, Хуан-Мануэль (2014). Автоматическое обобщение текста . Хобокен, Нью-Джерси: John Wiley & Sons. стр. XII. ISBN  9781848216686 .
  6. ^ Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB, 2008 г., Лондон, Великобритания, 24–27 июня 2008 г., Труды, Майра (2008 г.). Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы . Берлин: Springer Science & Business Media. п. 350. ИСБН  978-3-540-69857-9 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
  7. ^ Баш, Рева (1996). Секреты супер-поисковиков в сети: размышления, откровения и с трудом завоеванная мудрость 35 ведущих интернет-исследователей мира . Медфорд, Нью-Джерси: Information Today, Inc., стр. 271 . ISBN  0910965226 .
  8. ^ Джаявира, Ю.Д.; Джохар, Мэриленд Гапар, Мэриленд; Перера, С.Н. «Системы открытого журнала» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  9. ^ Армстронг, Сьюзен (1994). Использование крупной корпорации . Кембридж, Массачусетс: MIT Press. п. 291. ИСБН  0262510820 .
  10. ^ Сакджи, Соссен; Леторд, Кэтрин; Дахамна, Бадис; Кергурли, Иван; Перейра, Сюзанна; Жубер, Мишель; Дармони, Стефан (2009). «Автоматическое индексирование на лекарственном информационном портале» . Исследования в области медицинских технологий и информатики . 148 : 112–122. ISSN   0926-9630 . ПМИД   19745241 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f78476f25bce6b85d0c5d9781bcf89ce__1710256200
URL1:https://arc.ask3.ru/arc/aa/f7/ce/f78476f25bce6b85d0c5d9781bcf89ce.html
Заголовок, (Title) документа по адресу, URL1:
Automatic indexing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)