Jump to content

База данных векторов

База данных векторов , хранилище векторов или поисковая система векторов — это база данных , которая может хранить векторы (списки чисел фиксированной длины) вместе с другими элементами данных. Векторные базы данных обычно реализуют один или несколько алгоритмов приближенного ближайшего соседа (ANN). [1] [2] так что можно выполнить поиск в базе данных с помощью вектора запроса для получения наиболее совпадающих записей базы данных.

Векторы — это математические представления данных в многомерном пространстве. В этом пространстве каждое измерение соответствует функции данных , причем количество измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве представляет его характеристики. Векторизовать можно слова, фразы или целые документы, а также изображения, аудио и другие типы данных. [3]

Эти векторы признаков могут быть вычислены на основе необработанных данных с использованием методов машинного обучения, таких как извлечения признаков алгоритмы , встраивания слов. [4] или сети глубокого обучения . Цель состоит в том, чтобы семантически схожие элементы данных получали векторы признаков, близкие друг к другу.

Векторные базы данных могут использоваться для поиска по сходству , семантического поиска , мультимодального поиска , механизмов рекомендаций , больших языковых моделей (LLM), обнаружения объектов и т. д. [5]

Векторные базы данных также часто используются для реализации генерации с расширенным поиском (RAG), метода улучшения специфичных для предметной области ответов больших языковых моделей. Поисковым компонентом RAG может быть любая поисковая система, но чаще всего она реализуется в виде векторной базы данных. Собираются текстовые документы, описывающие интересующую область, и для каждого документа или раздела документа вычисляется вектор признаков (известный как « встраивание »), обычно с использованием сети глубокого обучения, и сохраняется в базе данных векторов. По запросу пользователя вычисляется вектор признаков запроса и выполняется запрос к базе данных для получения наиболее релевантных документов. Затем они автоматически добавляются в контекстное окно большой языковой модели, и большая языковая модель приступает к созданию ответа на приглашение с учетом этого контекста. [6]

Наиболее важные методы поиска сходства в многомерных векторах включают:

и комбинации этих методов. [ нужна ссылка ]

В последних тестах реализации на базе HNSW показали одни из лучших результатов. [7] [8] На таких конференциях, как Международная конференция по поиску и применению сходства, SISAP и Конференция по нейронным системам обработки информации (NeurIPS), проводятся соревнования по векторному поиску в больших базах данных.

Реализации

[ редактировать ]
Имя Лицензия
Аэроспайк [9] [10] Собственный
АллегроГраф [11] [12] Собственный (управляемый сервис)
Апач Кассандра [13] [14] Лицензия Апач 2.0
цветность [15] [16] Лицензия Апач 2.0 [17]
Azure Космос БД [18] Собственный (управляемый сервис)
Коучбейс [19] [20] БСЛ 1.1 [21]
Эластичный поиск [22] Публичная лицензия на стороне сервера , эластичная лицензия [23]
HDF5 Индексирование запросов [24] BSD 3-пункт [25]
Фонарь [26] БСЛ 1.1 [27]
ЛамаИндекс [28] МОЯ лицензия [29]
МарияДБ [30] [31] Лицензия GPL v2 [32]
Воздушный змей [33] [34] Лицензия Апач 2.0
MongoDB Атлас [35] Публичная лицензия на стороне сервера (управляемая служба)
Neo4j [36] [37] GPL v3 (выпуск сообщества) [38]
ОбъектБокс [39] Лицензия Апач 2.0 [40]
Открытый поиск [41] [42] [43] Лицензия Апач 2.0 [44]
Оракул [45] Собственный (управляемая услуга или лицензия)
Сосновая шишка [46] Собственный (управляемый сервис)
Postgres с pgvector [47] Лицензия PostgreSQL [48]
Кдрант [49] Лицензия Апач 2.0 [50]
Redis Стек [51] [52] Доступная лицензия на исходный код Redis [53]
Снежинка [54] Собственный (управляемый сервис)
Сюрреалдб [55] БСЛ 1.1 [56]
Типсенс [57] GPL v3 (выпуск сообщества) [58]
Веспа [59] Лицензия Апач 2.0 [60]
Плетение [61] BSD 3-пункт [62]

См. также

[ редактировать ]
  1. ^ Рой Швабер-Коэн. «Что такое база данных векторов и как она работает» . Сосновая шишка . Проверено 18 ноября 2023 г.
  2. ^ «Что такое векторная база данных» . Эластичный . Проверено 18 ноября 2023 г.
  3. ^ «Векторная база данных» . Learn.microsoft.com . 26 декабря 2023 г. Проверено 11 января 2024 г.
  4. ^ Эван Чаки (31 июля 2023 г.). «Что такое векторная база данных?» . Майкрософт. База данных векторов — это тип базы данных, в которой данные хранятся в виде многомерных векторов, которые являются математическим представлением объектов или атрибутов.
  5. ^ «Векторная база данных» . Learn.microsoft.com . 26 декабря 2023 г. Проверено 11 января 2024 г.
  6. ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих (2020). «Поколение с расширенным поиском для наукоемких задач НЛП». Достижения в области нейронных систем обработки информации 33 : 9459–9474. arXiv : 2005.11401 .
  7. ^ Аумюллер, Мартин; Бернхардссон, Эрик; Фейтфулл, Александр (2017), Бикс, Кристиан; Борутта, Феликс; Крегер, Пер; Зайдль, Томас (ред.), «ANN-Benchmarks: инструмент сравнительного анализа приближенных алгоритмов ближайшего соседа» , «Поиск по сходству и приложения» , vol. 10609, Чам: Springer International Publishing, стр. 34–49, arXiv : 1807.05614 , doi : 10.1007/978-3-319-68474-1_3 , ISBN  978-3-319-68473-4 , получено 19 марта 2024 г.
  8. ^ Аумюллер, Мартин; Бернхардссон, Эрик; Верный, Александр (2017). «ANN-Benchmarks: инструмент сравнительного анализа приближенных алгоритмов ближайшего соседа» . В Биксе, Кристиан; Борутта, Феликс; Крегер, Пер; Зайдль, Томас (ред.). Поиск по сходству и его применение . Конспекты лекций по информатике. Том. 10609. Чам: Springer International Publishing. стр. 34–49. arXiv : 1807.05614 . дои : 10.1007/978-3-319-68474-1_3 . ISBN  978-3-319-68474-1 .
  9. ^ «Aerospike признан независимой исследовательской фирмой среди известных поставщиков в отчете о базах данных векторов» . Морнингстар . 07.05.2024 . Проверено 1 августа 2024 г.
  10. ^ «Aerospike привлекает 109 миллионов долларов для своей платформы баз данных в реальном времени, чтобы извлечь выгоду из бума искусственного интеллекта» . ТехКранч . 04.04.2024 . Проверено 1 августа 2024 г.
  11. ^ «АллегроГраф 8.0 включает в себя нейросимволический искусственный интеллект, путь к ОИИ» . Новый стек . 29 декабря 2023 г. Проверено 6 июня 2024 г.
  12. ^ «Franz Inc. представляет AllegroGraph Cloud: управляемый сервис для графов знаний нейросимволического ИИ» . Датанами . 18 января 2024 г. Проверено 6 июня 2024 г.
  13. ^ «5 сложных задач векторного поиска и как их решает Кассандра» . Новый стек . 22 сентября 2023 г. Проверено 22 сентября 2023 г.
  14. ^ «Краткое руководство по векторному поиску» . Проверено 21 ноября 2023 г.
  15. ^ Палаццоло, Стефани. «База данных Vector Chroma получила стартовое финансирование в размере 18 миллионов долларов при оценке в 75 миллионов долларов. Вот почему ее технология является ключом к помощи стартапам в области генеративного искусственного интеллекта» . Бизнес-инсайдер . Проверено 16 ноября 2023 г.
  16. ^ МСВ, Джанакирам (28 июля 2023 г.). «Изучение цветности: база данных векторов с открытым исходным кодом для студентов LLM» . Новый стек . Проверено 16 ноября 2023 г.
  17. ^ «цветность/ЛИЦЕНЗИЯ в основном · цветность-ядро/цветность» . Гитхаб .
  18. ^ «Векторная база данных» . Learn.microsoft.com . 26 декабря 2023 г. Проверено 10 января 2024 г.
  19. ^ «Целью Couchbase является повышение производительности баз данных разработчиков с помощью инструмента искусственного интеллекта Capella IQ» . ВенчурБит . 30 августа 2023 г.
  20. ^ «Презентация для инвесторов за третий квартал 2024 финансового года» . Couchbase по связям с инвесторами . 06.12.2023.
  21. ^ Андерсон, Скотт (26 марта 2021 г.). «Couchbase принимает лицензию BSL» . Блог Couchbase . Проверено 14 февраля 2024 г.
  22. ^ Кернер, Шон (23 мая 2023 г.). «Elasticsearch Relevance Engine привносит новые векторы в генеративный искусственный интеллект» . ВенчурБит . Проверено 18 ноября 2023 г.
  23. ^ «elasticsearch/LICENSE.txt в основном · elastic/elasticsearch» . Гитхаб .
  24. ^ «Индексирование запросов HDF5» . Гитхаб . 27 сентября 2019 г. Проверено 3 мая 2024 г.
  25. ^ «HDFGroup/КОПИРОВАНИЕ на мастере · HDFGroup/hdf5» . Гитхаб . Проверено 29 октября 2023 г.
  26. ^ «Фонарь» . 05.04.2024 . Проверено 5 апреля 2024 г.
  27. ^ «фонарь/ЛИЦЕНЗИЯ в главном /lanterndata/lantern» . Гитхаб . Проверено 10 апреля 2024 г.
  28. ^ Виггерс, Кайл (6 июня 2023 г.). «LlamaIndex добавляет частные данные в большие языковые модели» . ТехКранч . Проверено 29 октября 2023 г.
  29. ^ «llama_index/LICENSE в главном · run-llama/llama_index» . Гитхаб . Проверено 29 октября 2023 г.
  30. ^ «МарияДБ Вектор» . MariaDB.org . Проверено 30 июля 2024 г.
  31. ^ «Векторный поиск в старых и современных базах данных» . manticoresearch.com . Проверено 30 июля 2024 г.
  32. ^ «Часто задаваемые вопросы по лицензированию» . База знаний MariaDB . Проверено 30 июля 2024 г.
  33. ^ «База данных векторов с открытым исходным кодом – Milvus – LFAI & DATA» . Проверено 29 октября 2023 г.
  34. ^ Ляо, Ингрид Лунден и Рита (24 августа 2022 г.). «Зиллиз привлекает 60 миллионов долларов и переезжает в Сан-Франциско» . ТехКранч . Проверено 29 октября 2023 г.
  35. ^ «Представляем векторный поиск в атласе: создавайте интеллектуальные приложения с помощью семантического поиска и искусственного интеллекта для любых типов данных» . МонгоБД . 22 июня 2023 г.
  36. ^ «Neo4j расширяет свою базу данных графов с помощью векторного поиска» . этократко . 22 августа 2023 г.
  37. ^ «Векторные поисковые индексы» . нео4дж .
  38. ^ «Лицензирование Neo4j» .
  39. ^ «Пятнадцать лучших векторных баз данных» . db-engines.com . 03.07.2024 . Проверено 03 июля 2024 г.
  40. ^ «Лицензия ObjectBox Java» . гитхаб .
  41. ^ «Использование OpenSearch в качестве векторной базы данных» . OpenSearch.org . 2 августа 2023 г. Проверено 7 февраля 2024 г.
  42. ^ Пан, Джеймс Цзе; Ван, Цзяньго; Ли, Гуолян (21 октября 2023 г.), Обзор систем управления базами данных векторов , arXiv : 2310.14021
  43. ^ «AWS представляет новые инструменты управления и анализа данных на базе искусственного интеллекта» . КремниевыйУГОЛ . 26 июля 2023 г. Проверено 7 февраля 2024 г.
  44. ^ «Лицензия OpenSearch» . гитхаб .
  45. ^ Хук(1) и Приядарши(2), Дуг(1) и Ранджан(2) (2 мая 2024 г.). «Oracle объявляет о доступности векторного поиска ИИ в базе данных Oracle 23ai» . оракул . Проверено 9 июля 2024 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка ) CS1 maint: URL-статус ( ссылка )
  46. ^ «Сосновая шишка приводит к «взрыву» векторных баз данных для генеративного искусственного интеллекта» . ВенчурБит . 14 июля 2023 г. Проверено 29 октября 2023 г.
  47. ^ "pgvector" . Гитхаб . Проверено 27 ноября 2023 г.
  48. ^ "pgvector/Лицензия" . Гитхаб . Проверено 27 ноября 2023 г.
  49. ^ Сойерс, Пол (19 апреля 2023 г.). «Qdrant, стартап векторных баз данных с открытым исходным кодом, хочет помочь разработчикам ИИ использовать неструктурированные данные» . ТехКранч . Проверено 29 октября 2023 г.
  50. ^ «qdrant/LICENSE на мастере · qdrant/qdrant» . Гитхаб . Проверено 29 октября 2023 г.
  51. ^ «Использование Redis в качестве векторной базы данных с OpenAI | Рецепты OpenAI» . Cookbook.openai.com . Проверено 10 февраля 2024 г.
  52. ^ «Краткое руководство по использованию Redis как векторной базы данных» . Редис . Проверено 31 января 2024 г.
  53. ^ «Поиск и запрос» . Редис . Проверено 10 февраля 2024 г.
  54. ^ «Векторный тип данных и функции подобия векторов — Общая доступность» . Снежинка . 17 мая 2024 г. Проверено 17 мая 2024 г.
  55. ^ Виггерс, Кайл (4 января 2023 г.). «SurrealDB привлекает 6 миллионов долларов для своего предложения «база данных как услуга»» . ТехКранч . Проверено 19 января 2024 г.
  56. ^ «SurrealDB | Часто задаваемые вопросы по лицензиям | Лучшая многомодельная база данных» . СюрреалДБ . Проверено 14 февраля 2024 г.
  57. ^ Мартинес, Мигель (20 июня 2024 г.). «Домашняя страница Typesense» . Типсенс . Проверено 20 июня 2024 г.
  58. ^ «Лицензирование TypeSense» .
  59. ^ Райли, Дункан (4 октября 2023 г.). «Yahoo выделяет движок масштабирования искусственного интеллекта Vespa в независимую компанию» . кремнийУГОЛ . Проверено 18 ноября 2023 г.
  60. ^ «vespa/ЛИЦЕНЗИЯ у мастера · vespa-engine/vespa» . Гитхаб .
  61. ^ «Weaviate заработала 50 миллионов долларов на свою векторную базу данных, оптимизированную для искусственного интеллекта» . КремниевыйУГОЛ . 21 апреля 2023 г. Проверено 29 октября 2023 г.
  62. ^ «ткать/ЛИЦЕНЗИЯ у мастера · ткать/ткать» . Гитхаб . Проверено 29 октября 2023 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c5c19deb83878754bd54041258331967__1722559380
URL1:https://arc.ask3.ru/arc/aa/c5/67/c5c19deb83878754bd54041258331967.html
Заголовок, (Title) документа по адресу, URL1:
Vector database - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)