Наученный разреженный поиск
Обученный разреженный поиск или разреженный нейронный поиск — это подход к текстовому поиску , который использует разреженное векторное представление запросов и документов. [ 1 ] Он заимствует методы как из лексического набора слов , так и из алгоритмов векторного встраивания , и, как утверждается, работает лучше, чем любой из них по отдельности. Самые известные системы разреженного нейронного поиска — SPLADE. [ 2 ] и его преемник SPLADE v2. [ 3 ] Другие включают DeepCT, [ 4 ] юникойл, [ 5 ] ЭПИК, [ 6 ] ДипИмпакт, [ 7 ] ТИЛЬДА и ТИЛЬДАv2, [ 8 ] Спарта, [ 9 ] SPLADE-max и DistilSPLADE-max. [ 3 ]
Некоторые реализации SPLADE имеют задержку, аналогичную лексическому поиску Okapi BM25 , но при этом дают такие же хорошие результаты, как и современные нейронные ранжеры для внутридоменных данных. [ 10 ]
Официальные веса модели SPLADE и код обучения выпущены под некоммерческой лицензией Creative Commons . [ 11 ] Но существуют и другие независимые реализации SPLADE++ (вариант моделей SPLADE), выпускаемые по разрешительным лицензиям.
SPRINT — это набор инструментов для оценки систем нейронного разреженного поиска. [ 12 ]
Внешние ссылки
[ редактировать ]Примечания
[ редактировать ]- ^ Нгуен, Тонг; МакЭвани, Шон; Йейтс, Эндрю (2023). «Единая структура для обучения разреженному поиску» . В Кампсе, Яап; Гурио, Лотарингия; Крестани, Фабио; Маистро, Мария; Джохо, Хидео; Дэвис, Брайан; Гуррин, Катал; Крушвиц, Удо; Капуто, Анналина (ред.). Достижения в области поиска информации . Конспекты лекций по информатике. Том. 13982. Чам: Springer Nature Switzerland. стр. 101–116. arXiv : 2303.13416 . дои : 10.1007/978-3-031-28241-6_7 . ISBN 978-3-031-28241-6 . S2CID 257585074 .
- ^ Формальный, Тибо; Пивоварски, Бенджамин; Клиншан, Стефан (11 июля 2021 г.). «SPLADE: разреженная лексика и модель расширения для ранжирования на первом этапе» . Материалы 44-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2288–2292. arXiv : 2107.05720 . дои : 10.1145/3404835.3463098 . ISBN 978-1-4503-8037-9 . S2CID 235792467 .
- ^ Jump up to: а б Формальный, Тибо; Пиворварски, Бенджамин; Лассанс, Карлос; Клиншан, Стефан (21 сентября 2021 г.). «SPLADE v2: разреженная лексика и модель расширения для поиска информации». arXiv : 2109.10086v1 [ cs.IR ].
- ^ Дай, Чжуюн; Каллан, Джейми (20 апреля 2020 г.). «Контекстно-зависимое взвешивание терминов документа для специального поиска» . Материалы веб-конференции 2020 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1897–1907. дои : 10.1145/3366423.3380258 . ISBN 9781450370233 . S2CID 218521094 .
- ^ Лин, Джимми; Ма, Сюэгуан (28 июня 2021 г.). «Несколько кратких заметок о DeepImpact, COIL и концептуальной основе методов поиска информации». arXiv : 2106.14807 [ cs.IR ].
- ^ МакЭвани, Шон; Нардини, Франко Мария; Перего, Рафаэле; Тонеллотто, Никола; Гоарян, Назли; Фридер, Офир (25 июля 2020 г.). «Расширение посредством прогнозирования важности с помощью контекстуализации» . Материалы 43-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1573–1576. arXiv : 2004.14245 . дои : 10.1145/3397271.3401262 . ISBN 978-1-4503-8016-4 . S2CID 216641912 .
- ^ Малья, Антонио; Хаттаб, Омар; Суэл, Торстен; Тонеллотто, Никола (11 июля 2021 г.). «Влияние прохождения обучения для инвертированных индексов» . Материалы 44-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1723–1727. arXiv : 2104.12016 . дои : 10.1145/3404835.3463030 . ISBN 978-1-4503-8037-9 . S2CID 233394068 .
- ^ Чжуан, Шэнъяо; Зуккон, Гвидо (13 сентября 2021 г.). «Быстрое переранжирование отрывков с контекстуальным точным сопоставлением терминов и эффективным расширением отрывков». arXiv : 2108.08513 [ cs.IR ].
- ^ Чжао, Тяньчэн; Лу, Сяопэн; Ли, Кюсон (28 сентября 2020 г.). «СПАРТА: эффективный ответ на вопросы в открытой области посредством поиска совпадений с разреженным трансформатором». arXiv : 2009.13013 [ cs.CL ].
- ^ Лассанс, Карлос; Клиншан, Стефан (07 июля 2022 г.). «Исследование эффективности моделей SPLADE» . Материалы 45-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '22. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2220–2226. arXiv : 2207.03834 . дои : 10.1145/3477495.3531833 . ISBN 978-1-4503-8732-3 . S2CID 250340284 .
- ^ «splade/LICENSE в главном · naver/splade» . Гитхаб . Проверено 25 августа 2023 г.
- ^ Тхакур, Нандан; Ван, Кексинь; Гуревич Ирина; Лин, Джимми (18 июля 2023 г.). «СПРИНТ: унифицированный набор инструментов для оценки и демистификации разреженного нейронного поиска с нулевым выстрелом» . Материалы 46-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2964–2974. arXiv : 2307.10488 . дои : 10.1145/3539618.3591902 . ISBN 978-1-4503-9408-6 . S2CID 259949923 .