Jump to content

Нормализованное расстояние Google

Нормализованное расстояние Google ( NGD ) представляет собой семантического сходства, меру полученную на основе количества обращений, возвращаемых поисковой системой Google по заданному набору ключевых слов . [1] Ключевые слова с одинаковым или похожим значением в смысле естественного языка, как правило, находятся «близко» в единицах нормализованного расстояния Google, тогда как слова с разными значениями, как правило, находятся дальше друг от друга.

В частности, NGD между двумя поисковыми запросами x и y равен

где N — общее количество веб-страниц, просматриваемых Google, умноженное на среднее количество одноэлементных поисковых запросов, встречающихся на страницах; f ( x ) и f ( y ) — количество совпадений поисковых запросов x и y соответственно; и f ( x , y ) — количество веб-страниц, на которых встречаются как x, так и y .

Если тогда x и y рассматриваются как можно более похожими, но если тогда x и y очень разные.Если два поисковых запроса x и y никогда не встречаются вместе на одной веб-странице, а встречаются по отдельности, то NGD между ними бесконечен. Если оба термина всегда встречаются вместе, их NGD равен нулю.

Пример: 9 апреля 2013 года поиск в Google слова «Шекспир» дал 130 000 000 результатов;поиск в Google «Макбета» дал 26 000 000 просмотров; и гуглитьза «Шекспира Макбета» набрали 20 800 000 просмотров.Количество страниц, проиндексированных Google, оценивалось по числусовпадений по поисковому запросу «the», которое составило 25 270 000 000. Предполагаяна средней странице содержится около 1000 поисковых запросов, что дает .Следовательно

.

«Шекспир» и «Макбет»очень похожи согласно относительной семантике, предоставленной Google .

Введение

[ редактировать ]

Нормализованное расстояние Google получается из ранее нормализованного расстояния сжатия . [2] [3] А именно, объекты можно задавать буквально, как буквальный четырехбуквенный геном мыши,или буквальный текст «Макбета Шекспира » . Сходство этих объектов придает НИЗ. Дляпростота, мы полагаем, что весь смысл объектапредставлен самим буквальным объектом. Объекты также могут бытьдается по имени, например, «четырехбуквенный геном мыши»,или «текст «Макбета» » Шекспира . Естьтакже предметы, которые нельзя дать буквально, а только по имени,и которые приобретают свое значение из контекста на общем фоне.знания в человечестве, такие как «дом» или «красный». Сходство названий предметов заключается в предоставлено НГД.

Дистрибутив Google и код Google

[ редактировать ]

Вероятности поисковых запросов Google, понимаемые какчастота подсчета страниц, возвращаемая Google, разделенная наколичество страниц, проиндексированных Google (умноженное на среднее количество поисковых запросов на этих страницах), приблизительно соответствует фактической относительной частоте этих поисковых запросов, которые фактически используются в обществе. Основываясь на этой предпосылке, отношения, представленные нормализованным расстоянием Google, приблизительно захватываютпредполагаемые истинные семантические отношения, управляющие условиями поиска. В НГД используются Всемирная паутина и Google. Другие текстовые корпуса включают Википедию короля Иакова , версию Библии или Оксфордский словарь английского языка вместе с соответствующими поисковыми системами.

Характеристики

[ редактировать ]

Следующие свойства доказаны в: [1]

  • NGD находится примерно между 0 и . Оно может быть слегка отрицательным. Например, «красный красный» дает примерно на 20% больше посещений Google во Всемирной паутине, чем «красный». (В середине 2013 года было 4 260 000 000 совпадений для слова «красный» и 5 500 000 000 совпадений для «красный красный». В настоящее время «красный красный» теперь возвращает гораздо меньше результатов, чем «красный».) Если тогда мы рассматриваем x и y как очень разные.
  • NGD не является показателем . NGD равен нулю для x и y, которые не равны, при условии, что x и y всегда встречаются вместе на одной и той же веб-странице. Из формулы НГД мы видим, что она симметрична . Свойство треугольника не удовлетворяется NGD. Однако эти результаты являются теоретическими. Трудно придумать практические примеры Всемирной паутины с использованием Google, которые нарушают свойство треугольника.

Приложения

[ редактировать ]

Приложения к цветам и числам, простым и непростым числам и т. д. даны в: [1] а также рандомизированный массовый эксперимент с использованием категорий WordNet . В случае простых и непростых чисел и эксперименте WordNet метод NGD дополняется машинным классификатором опорных векторов . Эксперименты состоят из 25 положительных примеров и 25 отрицательных. Эксперимент WordNet состоял из 100 случайных категорий WordNet. Метод NGD имел успех 87,25%. Среднее значение составляет 0,8725, а стандартное отклонение — 0,1169. Эти показатели соответствуют категориям WordNet, которые отражают знания исследователей с докторской степенью, вошедших в них. Редко можно увидеть согласие менее 75%.

  1. ^ Jump up to: а б с Р.Л. Чилибрази; ПМБ Витаний (2007). «Расстояние сходства Google». IEEE Транс. Знания и инженерия данных . 19 (3): 370–383. arXiv : cs/0412098 . дои : 10.1109/TKDE.2007.48 . S2CID   59777 .
  2. ^ Р.Л. Чилибрази; ПМБ Витаний (2005). «Кластеризация путем сжатия» . IEEE Транс. Инф. Теория . 51 : 12. arXiv : cs.CV/0312044 . дои : 10.1109/TKDE.2007.48 . S2CID   59777 .
  3. ^ М. Ли; С. Чен; С. Ли; Б. Ма; ПМБ Витаний (декабрь 2004 г.). «Метрика сходства». IEEE Транс. Инф. Теория . 50 (12). Ieeexplore.ieee.org: 3250–3264. дои : 10.1109/TIT.2004.838101 . S2CID   221927 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5ec98bdd9a557779102c00e7792e3ba2__1721257740
URL1:https://arc.ask3.ru/arc/aa/5e/a2/5ec98bdd9a557779102c00e7792e3ba2.html
Заголовок, (Title) документа по адресу, URL1:
Normalized Google distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)