Jump to content

Нормализованное расстояние Google

Нормализованное расстояние Google ( NGD ) представляет собой семантического сходства, меру полученную на основе количества обращений, возвращаемых поисковой системой Google по заданному набору ключевых слов . [ 1 ] Ключевые слова с одинаковым или похожим значением в смысле естественного языка, как правило, находятся «близко» в единицах нормализованного расстояния Google, тогда как слова с разными значениями, как правило, находятся дальше друг от друга.

В частности, NGD между двумя поисковыми запросами x и y равен

где N — общее количество веб-страниц, просматриваемых Google, умноженное на среднее количество одноэлементных поисковых запросов, встречающихся на страницах; f ( x ) и f ( y ) — количество совпадений поисковых запросов x и y соответственно; и f ( x , y ) — количество веб-страниц, на которых встречаются как x, так и y .

Если тогда x и y рассматриваются как можно более похожими, но если тогда x и y очень разные. Если два поисковых запроса x и y никогда не встречаются вместе на одной веб-странице, а встречаются по отдельности, то NGD между ними бесконечен. Если оба термина всегда встречаются вместе, их NGD равен нулю.

Пример: 9 апреля 2013 года поиск в Google «Шекспира» дал 130 000 000 результатов; поиск в Google «Макбета» дал 26 000 000 просмотров; и гуглить за «Шекспира Макбета» набрали 20 800 000 просмотров. Количество страниц, проиндексированных Google, оценивалось по числу совпадений по поисковому запросу «the», которое составило 25 270 000 000. Предполагая на средней странице содержится около 1000 поисковых запросов, что дает . Следовательно

.

«Шекспир» и «Макбет» очень похожи согласно относительной семантике, предоставленной Google .

Введение

[ редактировать ]

Нормализованное расстояние Google получается из ранее нормализованного расстояния сжатия . [ 2 ] [ 3 ] А именно, объекты можно задавать буквально, как буквальный четырехбуквенный геном мыши, или буквальный текст «Макбета Шекспира » . Сходство этих объектов придает НИЗ. Для простота, мы полагаем, что весь смысл объекта представлен самим буквальным объектом. Объекты также могут быть дается по имени, например, «четырехбуквенный геном мыши», или «текст «Макбета» » Шекспира . Есть также предметы, которые нельзя дать буквально, а только по имени, и которые приобретают свое значение из контекста на общем фоне. знания в человечестве, такие как «дом» или «красный». Сходство названий предметов заключается в предоставлено НГД.

Дистрибутив Google и код Google

[ редактировать ]

Вероятности поисковых запросов Google, понимаемые как частота подсчета страниц, возвращаемая Google, разделенная на количество страниц, проиндексированных Google (умноженное на среднее количество поисковых запросов на этих страницах), приблизительно соответствует фактической относительной частоте этих поисковых запросов, которые фактически используются в обществе. Основываясь на этой предпосылке, отношения, представленные нормализованным расстоянием Google, приблизительно захватывают предполагаемые истинные семантические отношения, управляющие условиями поиска. В НГД используются Всемирная паутина и Google. Другие текстовые корпуса включают Википедию короля Иакова , версию Библии или Оксфордский словарь английского языка вместе с соответствующими поисковыми системами.

Характеристики

[ редактировать ]

Следующие свойства доказаны в: [ 1 ]

  • NGD находится примерно между 0 и . Оно может быть слегка отрицательным. Например, «красный красный» дает примерно на 20% больше посещений Google во Всемирной паутине, чем «красный». (В середине 2013 года было 4 260 000 000 совпадений для слова «красный» и 5 500 000 000 совпадений для «красный красный». В настоящее время «красный красный» теперь возвращает гораздо меньше результатов, чем «красный».) Если тогда мы рассматриваем x и y как очень разные.
  • NGD не является показателем . NGD равен нулю для x и y, которые не равны, при условии, что x и y всегда встречаются вместе на одной и той же веб-странице. Из формулы НГД мы видим, что она симметрична . Свойство треугольника не удовлетворяется NGD. Однако эти результаты являются теоретическими. Трудно придумать практические примеры Всемирной паутины с использованием Google, которые нарушают свойство треугольника.

Приложения

[ редактировать ]

Приложения к цветам и числам, простым и непростым числам и т. д. даны в: [ 1 ] а также рандомизированный массовый эксперимент с использованием категорий WordNet . В случае сравнения простых и непростых чисел и эксперимента WordNet метод NGD дополняется машинным классификатором опорных векторов . Эксперименты состоят из 25 положительных примеров и 25 отрицательных. Эксперимент WordNet состоял из 100 случайных категорий WordNet. Метод NGD имел успех 87,25%. Среднее значение составляет 0,8725, а стандартное отклонение — 0,1169. Эти показатели соответствуют категориям WordNet, которые отражают знания исследователей с докторской степенью, вошедших в них. Редко можно увидеть согласие менее 75%.

  1. ^ Jump up to: а б с Р.Л. Чилибраси; ПМБ Витаний (2007). «Расстояние сходства Google». IEEE Транс. Знания и инженерия данных . 19 (3): 370–383. arXiv : cs/0412098 . дои : 10.1109/TKDE.2007.48 . S2CID   59777 .
  2. ^ Р.Л. Чилибраси; ПМБ Витаний (2005). «Кластеризация путем сжатия» . IEEE Транс. Инф. Теория . 51:12 .arXiv cs.CV/0312044 : . дои : 10.1109/TKDE.2007.48 . S2CID   59777 .
  3. ^ М. Ли; С. Чен; С. Ли; Б. Ма; ПМБ Витаний (декабрь 2004 г.). «Метрика сходства». IEEE Транс. Инф. Теория . 50 (12). IEEE : 3250–3264. дои : 10.1109/TIT.2004.838101 . S2CID   221927 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1538a8e614a9c8616f684955e44523e9__1722389520
URL1:https://arc.ask3.ru/arc/aa/15/e9/1538a8e614a9c8616f684955e44523e9.html
Заголовок, (Title) документа по адресу, URL1:
Normalized Google distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)