Jump to content

Наученный разреженный поиск

Обученный разреженный поиск или разреженный нейронный поиск — это подход к текстовому поиску , который использует разреженное векторное представление запросов и документов. [ 1 ] Он заимствует методы как из лексического набора слов , так и из алгоритмов векторного встраивания , и, как утверждается, работает лучше, чем любой из них по отдельности. Самые известные системы разреженного нейронного поиска — SPLADE. [ 2 ] и его преемник SPLADE v2. [ 3 ] Другие включают DeepCT, [ 4 ] юникойл, [ 5 ] ЭПИК, [ 6 ] ДипИмпакт, [ 7 ] ТИЛЬДА и ТИЛЬДАv2, [ 8 ] Спарта, [ 9 ] SPLADE-max и DistilSPLADE-max. [ 3 ]

Некоторые реализации SPLADE имеют задержку, аналогичную лексическому поиску Okapi BM25 , но при этом дают такие же хорошие результаты, как и современные нейронные ранжеры для внутридоменных данных. [ 10 ]

Официальные веса модели SPLADE и код обучения выпущены под некоммерческой лицензией Creative Commons . [ 11 ] Но существуют и другие независимые реализации SPLADE++ (вариант моделей SPLADE), выпускаемые по разрешительным лицензиям.

SPRINT — это набор инструментов для оценки систем нейронного разреженного поиска. [ 12 ]

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Нгуен, Тонг; МакЭвани, Шон; Йейтс, Эндрю (2023). «Единая структура для обучения разреженному поиску» . В Кампсе, Яап; Гурио, Лотарингия; Крестани, Фабио; Маистро, Мария; Джохо, Хидео; Дэвис, Брайан; Гуррин, Катал; Крушвиц, Удо; Капуто, Анналина (ред.). Достижения в области поиска информации . Конспекты лекций по информатике. Том. 13982. Чам: Springer Nature Switzerland. стр. 101–116. arXiv : 2303.13416 . дои : 10.1007/978-3-031-28241-6_7 . ISBN  978-3-031-28241-6 . S2CID   257585074 .
  2. ^ Формальный, Тибо; Пивоварски, Бенджамин; Клиншан, Стефан (11 июля 2021 г.). «SPLADE: разреженная лексика и модель расширения для ранжирования на первом этапе» . Материалы 44-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2288–2292. arXiv : 2107.05720 . дои : 10.1145/3404835.3463098 . ISBN  978-1-4503-8037-9 . S2CID   235792467 .
  3. ^ Jump up to: а б Формальный, Тибо; Пиворварски, Бенджамин; Лассанс, Карлос; Клиншан, Стефан (21 сентября 2021 г.). «SPLADE v2: разреженная лексика и модель расширения для поиска информации». arXiv : 2109.10086v1 [ cs.IR ].
  4. ^ Дай, Чжуюн; Каллан, Джейми (20 апреля 2020 г.). «Контекстно-зависимое взвешивание терминов документа для специального поиска» . Материалы веб-конференции 2020 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1897–1907. дои : 10.1145/3366423.3380258 . ISBN  9781450370233 . S2CID   218521094 .
  5. ^ Лин, Джимми; Ма, Сюэгуан (28 июня 2021 г.). «Несколько кратких заметок о DeepImpact, COIL и концептуальной основе методов поиска информации». arXiv : 2106.14807 [ cs.IR ].
  6. ^ МакЭвани, Шон; Нардини, Франко Мария; Перего, Рафаэле; Тонеллотто, Никола; Гоарян, Назли; Фридер, Офир (25 июля 2020 г.). «Расширение посредством прогнозирования важности с помощью контекстуализации» . Материалы 43-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1573–1576. arXiv : 2004.14245 . дои : 10.1145/3397271.3401262 . ISBN  978-1-4503-8016-4 . S2CID   216641912 .
  7. ^ Малья, Антонио; Хаттаб, Омар; Суэл, Торстен; Тонеллотто, Никола (11 июля 2021 г.). «Влияние прохождения обучения для инвертированных индексов» . Материалы 44-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1723–1727. arXiv : 2104.12016 . дои : 10.1145/3404835.3463030 . ISBN  978-1-4503-8037-9 . S2CID   233394068 .
  8. ^ Чжуан, Шэнъяо; Зуккон, Гвидо (13 сентября 2021 г.). «Быстрое переранжирование отрывков с контекстуальным точным сопоставлением терминов и эффективным расширением отрывков». arXiv : 2108.08513 [ cs.IR ].
  9. ^ Чжао, Тяньчэн; Лу, Сяопэн; Ли, Кюсон (28 сентября 2020 г.). «СПАРТА: эффективный ответ на вопросы в открытой области посредством поиска совпадений с разреженным трансформатором». arXiv : 2009.13013 [ cs.CL ].
  10. ^ Лассанс, Карлос; Клиншан, Стефан (07 июля 2022 г.). «Исследование эффективности моделей SPLADE» . Материалы 45-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '22. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2220–2226. arXiv : 2207.03834 . дои : 10.1145/3477495.3531833 . ISBN  978-1-4503-8732-3 . S2CID   250340284 .
  11. ^ «splade/LICENSE в главном · naver/splade» . Гитхаб . Проверено 25 августа 2023 г.
  12. ^ Тхакур, Нандан; Ван, Кексинь; Гуревич Ирина; Лин, Джимми (18 июля 2023 г.). «СПРИНТ: унифицированный набор инструментов для оценки и демистификации разреженного нейронного поиска с нулевым выстрелом» . Материалы 46-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2964–2974. arXiv : 2307.10488 . дои : 10.1145/3539618.3591902 . ISBN  978-1-4503-9408-6 . S2CID   259949923 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 75aaf7d707b7f47fb7838af20ce941c2__1713502680
URL1:https://arc.ask3.ru/arc/aa/75/c2/75aaf7d707b7f47fb7838af20ce941c2.html
Заголовок, (Title) документа по адресу, URL1:
Learned sparse retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)