Jump to content

Крэнфилдские эксперименты

(Перенаправлено из «Эксперименты Крэнфилда »)

Эксперименты Крэнфилда представляли собой серию экспериментальных исследований по поиску информации , проведенных Сирилом В. Клевердоном в Колледже аэронавтики, сегодня известном как Университет Крэнфилда , в 1960-х годах для оценки эффективности систем индексации . [1] [2] [3] Эксперименты были разбиты на два основных этапа, ни один из которых не был компьютеризирован. Вся коллекция рефератов, итоговые указатели и результаты впоследствии были распространены в электронном формате и широко использовались на протяжении десятилетий.

В первой серии экспериментов сравнивалось несколько существующих методов индексации, чтобы проверить их эффективность. Запросы были сгенерированы авторами статей в сборнике, а затем переведены в индексный поиск экспертами этих систем. В этой серии один из методов превратился из наименее эффективного в наиболее эффективный после внесения незначительных изменений в порядок записи данных на учетных карточках . Судя по всему, был сделан вывод о том, что лежащая в основе методология представляется менее важной, чем конкретные детали реализации. Это привело к серьезным дискуссиям по поводу методологии экспериментов.

Эта критика также привела ко второй серии экспериментов, теперь известной как Крэнфилд 2. Крэнфилд 2 попытался получить дополнительную информацию, изменив методологию; Крэнфилд 1 проверял способность экспертов находить конкретный ресурс с помощью индексной системы, Крэнфилд 2 вместо этого изучал результаты постановки вопросов на человеческом языке и проверял, дает ли система индексирования релевантный ответ, независимо от того, был ли это исходный целевой документ. Это тоже было темой серьезных дискуссий.

Эксперименты Крэнфилда оказали огромное влияние на область поиска информации, которая сама по себе вызвала значительный интерес в эпоху после Второй мировой войны , когда количество научных исследований резко возросло. Это было темой постоянных дебатов в течение многих лет, что привело к созданию нескольких компьютерных проектов по проверке ее результатов. Его влияние было значительным в течение сорока лет, прежде чем индексы естественного языка , подобные индексам современных веб-поисковых систем, стали обычным явлением.

На знаменитую теперь статью « Как мы можем думать », опубликованную Ванневара Буша в июле 1945 года , часто указывают как на первое полное описание области, которая стала поиском информации . В статье описывается гипотетическая машина, известная как « мемекс », которая будет хранить все знания человечества в индексированной форме, позволяющей любому получить к ним доступ. [4]

В 1948 году Королевское общество провело Научно-информационную конференцию, на которой впервые на формальной основе были изучены некоторые из этих концепций. Это привело к небольшому количеству экспериментов в этой области в Великобритании, США и Нидерландах. Единственную серьезную попытку сравнить различные системы предпринял Галл, используя коллекцию работ Агентства технической информации вооруженных сил , которая начиналась как сборник отчетов по аэронавтике, захваченных в Германии в конце Второй мировой войны . Оценка результатов проводилась экспертами двух систем, и они так и не пришли к единому мнению относительно того, имеют ли различные найденные документы отношение к поиску, при этом каждая группа отклонила более 30% результатов как неверные. Дальнейшее тестирование было отменено из-за отсутствия консенсуса. [5]

Вторая конференция по этой теме, Международная конференция по научной информации, была проведена в Вашингтоне, округ Колумбия , в 1958 году, когда развитие компьютеров достигло точки, когда стал возможен автоматический поиск индексов. Именно на этой встрече Сирил В. Клевердон «взял удила в зубах» и сумел добиться финансирования от Национального научного фонда США для запуска проекта, который позже будет известен как Крэнфилд-1. [6]

Крэнфилд 1

[ редактировать ]

В первой серии экспериментов напрямую сравнивались четыре системы индексации, которые представляли собой существенно разные концептуальные основы. Четыре системы были:

  1. Универсальная десятичная классификация — иерархическая система, широко внедряемая в библиотеках,
  2. Алфавитный предметный каталог, в котором предметные рубрики в классических библиотечных карточках расположены в алфавитном порядке ,
  3. Схема фасетной классификации , которая позволяет комбинировать предметы для создания новых предметов,
  4. и Мортимера Таубе , где ссылку можно найти на любом количестве отдельных учетных карточек. Uniterm систему координатного индексирования [6]

В первой серии экспериментов участникам было предложено создать индексы для коллекции документов, связанных с аэрокосмической отраслью . Каждый индекс был подготовлен экспертом по этой методологии. Затем авторов исходных документов попросили подготовить набор поисковых запросов, которые должны были возвращать этот документ. Затем экспертов по индексированию попросили сгенерировать запросы к их индексу на основе поисковых запросов автора. Затем запросы использовались для проверки индекса на предмет того, возвращает ли он целевой документ. [6]

В этих тестах все системы, кроме фасетной, дали примерно одинаковое количество «правильных» результатов, в то время как фасетная концепция отставала. Изучив эти результаты, фасетная система была переиндексирована с использованием другого формата на карточках и повторены тесты. В этой серии тестов фасетная система стала явным победителем. Это означало, что теория, лежащая в основе системы, была менее важна, чем особенности реализации. [6]

Результаты этих экспериментов, опубликованные в 1962 году, вызвали огромные споры как среди сторонников различных систем, так и среди исследователей, которые жаловались на эксперименты в целом. [7] Тем не менее, похоже, один вывод был явно подтвержден: простые системы, основанные на ключевых словах, работали так же хорошо, как и сложные классификационные схемы. Это важно, поскольку первые значительно проще реализовать. [8]

Крэнфилд 2

[ редактировать ]

В первой серии экспериментов перед экспертами по использованию различных методов была поставлена ​​задача как создать индекс, так и использовать его для выборочных запросов. Каждая система имела свою собственную концепцию о том, как должен быть структурирован запрос, которая сегодня известна как язык запросов . Большая часть критики первых экспериментов была сосредоточена на том, действительно ли эксперименты проверяли системы или способность пользователя переводить запрос на язык запросов. [6]

Это привело ко второй серии экспериментов, Крэнфилд 2, в которых рассматривался вопрос преобразования запроса в язык. Для этого вместо того, чтобы рассматривать генерацию запроса как черный ящик , каждый шаг был разбит на части. Результат этого подхода был для того времени революционным; он предложил оставить условия поиска в исходном формате, который сегодня будет известен как запрос на естественном языке . [6]

Еще одним важным изменением стало то, как оценивались результаты. В первоначальных тестах успех имел место только в том случае, если индекс возвращал именно тот документ, который использовался для создания поиска. Однако это было нетипично для реального запроса; пользователь, ищущий информацию о шасси самолета , может быть доволен любой из многочисленных статей сборника по этой теме, но Крэнфилд 1 сочтет такой результат провалом, несмотря на то, что он вернул соответствующие материалы. Во второй серии результаты оценивались сторонними организациями, которые давали качественный ответ о том, генерировал ли запрос соответствующий набор документов, а не возвращал указанный исходный документ. [7]

Продолжение дебатов

[ редактировать ]

Результаты двух серий испытаний продолжали оставаться предметом серьезных дискуссий на протяжении многих лет. В частности, это привело к постоянным дебатам между Клевердоном и Джейсоном Фарраданом , одним из основателей Института ученых-информатиков в 1958 году. Эти двое неизменно появлялись на собраниях, на которых выступал другой, а затем, в период вопросов и ответов , объяснить, почему все, что они делали, было неправильно. Дебаты были охарактеризованы как «...жестокие и безжалостные, иногда выходящие далеко за рамки вежливости». [7] К этому хору присоединился Дон Р. Свенсон из США, который несколько лет спустя опубликовал критику экспериментов Крэнфилда. [7]

Несмотря на эту критику, Крэнфилд-2 установил планку, по которой оценивались многие последующие эксперименты. В частности, методология Крэнфилда-2, начинающаяся с терминов естественного языка и оценивающая результаты по релевантности, а не точным совпадениям, стала почти универсальной в последующих экспериментах, несмотря на множество возражений. [7]

После завершения Крэнфилда-2 в 1967 году весь корпус был опубликован в машиночитаемой форме. [9] Сегодня он известен как Cranfield 1400 или любые другие вариации на эту тему. Название соответствует количеству документов в сборнике, состоящем из 1398 рефератов. Коллекция также включает 225 запросов и оценки релевантности всех пар запрос:документ, полученные в результате экспериментальных запусков. [10] Основная база тезисов составляет около 1,6 МБ. [11]

Эксперименты проводились в эпоху, когда компьютеры имели несколько килобайт оперативной памяти и сетевой доступ, возможно, к нескольким мегабайтам . среднего класса Например, IBM System/360 Model 50 поставлялась с оперативной памятью от 64 до 512 КБ. [12] (склоняясь к нижнему пределу), а его типичный жесткий диск хранит чуть более 80 МБ. [13] По мере роста возможностей систем в 1960-х и 1970-х годах коллекция документов Крэнфилда стала основным корпусом испытательной площадки, который неоднократно использовался в течение многих лет. [14]

Сегодня коллекция слишком мала, чтобы ее можно было использовать для практических испытаний, выходящих за рамки пилотных экспериментов. Его место в основном заняла коллекция TREC, которая содержит 1,89 миллиона документов по более широкому спектру тем, или еще более недавняя коллекция GOV2, состоящая из 25 миллионов веб-страниц. [10]

См. также

[ редактировать ]
  1. ^ Клевердон, CW (1960). «Исследовательский проект Аслиба Крэнфилда по сравнительной эффективности систем индексирования». Судебное разбирательство АСЛИБ . 12 (12). Изумруд: 421–431. дои : 10.1108/eb049778 . ISSN   0001-253X .
  2. ^ Клевердон, Сирил (1967). «Крэнфилдские тесты на устройствах с индексным языком». Судебное разбирательство АСЛИБ . 19 (6). Изумруд: 173–194. дои : 10.1108/eb050097 . ISSN   0001-253X .
  3. ^ Клевердон, штат Вашингтон; Кин, Э.М. (1966). Факторы, определяющие производительность систем индексирования. Том. 1: Дизайн, Том. 2: Результаты . Крэнфилд, Великобритания: Исследовательский проект Аслиба Крэнфилда.
  4. ^ Бакленд, Майкл К. (май 1992 г.). «Эмануэль Голдберг, электронный поиск документов и Memex Ванневара Буша» . Журнал Американского общества информатики . 43 (4): 284–94. doi : 10.1002/(SICI)1097-4571(199205)43:4<284::AID-ASI3>3.0.CO;2-0 .
  5. ^ Галл, Клойд (1 октября 1956 г.). «Семь лет работы по организации материалов специальной библиотеки» . Американская документация . 7 (4): 320–329. дои : 10.1002/asi.5090070408 .
  6. ^ Перейти обратно: а б с д и ж Робертсон 2008 , с. 3.
  7. ^ Перейти обратно: а б с д и Робертсон 2008 , с. 4.
  8. ^ Сарацевич, Тефко (2016). Понятие релевантности в информатике . Морган и Клейпул. п. 13. ISBN  9781598297690 .
  9. ^ Робертсон 2008 , с. 7.
  10. ^ Перейти обратно: а б Мэннинг, Рагхаван и Шютце, 2008 г.
  11. ^ КРЭНФИЛД .
  12. ^ Функциональные характеристики IBM System/360 Model 50 (PDF) . ИБМ. 1967. А22-6898-1.
  13. ^ «Архивы IBM: дисковый накопитель IBM 1302» . ИБМ. 23 января 2003 г. Проверено 20 июля 2011 г.
  14. ^ Робертсон 2008 , стр. 5, 7.

Библиография

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b362105bcea5917fc92f2c52a3f6d3c8__1703873400
URL1:https://arc.ask3.ru/arc/aa/b3/c8/b362105bcea5917fc92f2c52a3f6d3c8.html
Заголовок, (Title) документа по адресу, URL1:
Cranfield experiments - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)