Систе́ма керува́ння ве́кторними ба́зами да́них (СКВБД, англ. vector database management system, VDBMS) або просто ве́кторна ба́за да́них (англ. vector database) чи ве́кторне схо́вище (англ. vector store) — це база даних, яка може зберігати вектори (списки чисел фіксованої довжини), разом з іншими елементами даних. Векторні бази даних зазвичай втілюють один або декілька алгоритмів наближено найближчих сусідів[en] (ННС, англ. Approximate Nearest Neighbor, ANN),[1][2], що дає можливість здійснювати пошук базою даних за допомогою вектора запиту, знаходячи найближчі відповідні записи бази даних.

Вектори є математичними поданнями даних у високовимірному просторі. У цьому просторі кожен вимір відповідає ознаці даних, і для подання складних даних можна використовувати десятки тисяч вимірів. Положення вектора в цьому просторі подає його характеристики. Векторизувати можливо слова, фрази, цілі документи, зображення, звуки та інші типи даних.[3]

Ці вектори ознак можна обчислювати з сирих даних за допомогою методів машинного навчання, таких як алгоритми виділяння ознак, вкладання слів[4] чи мережі глибокого навчання. Мета — щоби семантично подібні елементи даних отримували близькі один до одного вектори ознак.

Векторні бази даних можливо використовувати для пошуку за подібністю[en], мультимодального пошуку[en], рекомендаційних рушіїв, великих мовних моделей (ВММ) тощо.[5]

Векторні бази даних також використовують для втілювання доповненого пошуком породжування (англ. Retrieval-Augmented Generation, RAG), методу покращення залежних від предметної області відповідей великих мовних моделей. Збирають текстові документи, що описують предметну область, і для кожного документа обчислюють вектор ознак (відомий як «вкладення»), зазвичай за допомогою мережі глибокого навчання, та зберігають у векторній базі даних. На основі запиту користувача обчислюють вектор ознак запиту, і роблять запит до бази даних для отримання найвідповідніших документів. Відтак ці документи автоматично додають до контекстного вікна великої мовної моделі, і велика мовна модель створює відповідь на запит, враховуючи цей контекст.[6]

Перелік векторних баз даних ред.

назва ліцензія
Apache Cassandra[7][8] Apache License 2.0
Azure Cosmos DB[en] Vector Database Extension[9] н/д (керована послуга)
LlamaIndex[10] MIT License[11]
Milvus[12][13] Apache License 2.0
MongoDB Atlas[14] н/д (керована послуга)
Couchbase[15][16] невідома (попередній перегляд)
Pinecone[17] закритий первинний код
Redis Cloud[18] керована послуга, Redis Source Available License
Postgres з pgvector[19] PostgreSQL License[20]
Qdrant[21] Apache License 2.0[22]
Weaviate[23] BSD 3-Clause[24]
Chroma[25][26] Apache License 2.0[27]
Elasticsearch[28] Server Side Public License[en], Elastic License [29]
Vespa[30] Apache License 2.0[31]
SurrealDB[en][32] Business Source License[en] та Apache License (після 4 років)[33]

Примітки ред.

  1. Roie Schwaber-Cohen. What is a Vector Database & How Does it Work (англ.). Pinecone. Процитовано 18 листопада 2023.
  2. What is a vector database (англ.). Elastic[en]. Процитовано 18 листопада 2023.
  3. Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). 26 грудня 2023. Процитовано 11 січня 2024.
  4. Evan Chaki (31 липня 2023). What is a vector database?. Microsoft. Векторна база даних — це такий тип баз даних, у якому дані зберігаються у вигляді високовимірних векторів, що є математичними поданням ознак або атрибутів.
  5. Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). 26 грудня 2023. Процитовано 11 січня 2024.
  6. Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems 33 (англ.): 9459—9474. arXiv:2005.11401.
  7. 5 Hard Problems in Vector Search, and How Cassandra Solves Them. TheNewStack (амер.). 22 вересня 2023. Процитовано 22 вересня 2023.
  8. Vector Search quickstart (англ.). Процитовано 21 листопада 2023.
  9. Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). Процитовано 10 січня 2024.
  10. Wiggers, Kyle (6 червня 2023). LlamaIndex adds private data to large language models. TechCrunch (амер.). Процитовано 29 жовтня 2023.
  11. llama_index/LICENSE at main · run-llama/llama_index. GitHub (англ.). Процитовано 29 жовтня 2023.
  12. Open Source Vector Database – Milvus – LFAI & DATA (англ.). Процитовано 29 жовтня 2023.
  13. Liao, Ingrid Lunden and Rita (24 серпня 2022). Zilliz raises $60M, relocates to SF. TechCrunch (амер.). Процитовано 29 жовтня 2023.
  14. Introducing Atlas Vector Search: Build Intelligent Applications with Semantic Search and AI Over Any Type of Data. MongoDB (амер.). 22 червня 2023.
  15. Couchbase aims to boost developer database productivity with Capella IQ AI tool. VentureBeat (амер.). 30 серпня 2023.
  16. Investor Presentation Third Quarter Fiscal 2024. Couchbase Investor Relations (амер.). 6 грудня 2023.
  17. Pinecone leads 'explosion' in vector databases for generative AI. VentureBeat (амер.). 14 липня 2023. Процитовано 29 жовтня 2023.
  18. Redis as a vector database quick start guide. Redis (англ.). Процитовано 31 січня 2024.
  19. pgvector. GitHub (амер.). Процитовано 27 листопада 2023.
  20. pgvector/License. GitHub (амер.). Процитовано 27 листопада 2023.
  21. Sawers, Paul (19 квітня 2023). Qdrant, an open source vector database startup, wants to help AI developers leverage unstructured data. TechCrunch (амер.). Процитовано 29 жовтня 2023.
  22. qdrant/LICENSE at master · qdrant/qdrant. GitHub (англ.). Процитовано 29 жовтня 2023.
  23. Weaviate reels in $50M for its AI-optimized vector database. SiliconANGLE (амер.). 21 квітня 2023. Процитовано 29 жовтня 2023.
  24. weaviate/LICENSE at master · weaviate/weaviate. GitHub (англ.). Процитовано 29 жовтня 2023.
  25. Palazzolo, Stephanie. Vector database Chroma scored $18 million in seed funding at a $75 million valuation. Here's why its technology is key to helping generative AI startups. Business Insider (амер.). Процитовано 16 листопада 2023.
  26. MSV, Janakiram (28 липня 2023). Exploring Chroma: The Open Source Vector Database for LLMs. The New Stack (амер.). Процитовано 16 листопада 2023.
  27. chroma/LICENSE at main · chroma-core/chroma. GitHub (англ.).
  28. Kerner, Sean (23 травня 2023). Elasticsearch Relevance Engine brings new vectors to generative AI. VentureBeat (англ.). Процитовано 18 листопада 2023.
  29. elasticsearch/LICENSE.txt at main · elastic/elasticsearch. GitHub (англ.).
  30. Riley, Duncan (4 жовтня 2023). Yahoo spins off AI scaling engine Vespa as an independent company. siliconANGLE (англ.). Процитовано 18 листопада 2023.
  31. vespa/LICENSE at master · vespa-engine/vespa. GitHub (англ.).
  32. Wiggers, Kyle (4 січня 2023). SurrealDB raises $6M for its database-as-a-service offering. TechCrunch (амер.). Процитовано 19 січня 2024.
  33. SurrealDB | License FAQs | The ultimate multi-model database. SurrealDB (англ.). Процитовано 19 січня 2024.