向量数据库：PGVector

398 7个月前

一、PGVector 介绍

PGVector 是一个基于 PostgreSQL 的扩展插件，为用户提供了一套强大的向量存储和查询的功能：

精确和近似最近邻搜索
单精度（Single-precision）、半精度（Half-precision）、二进制（Binary）和稀疏向量（Sparse Vectors）
L2 距离（L2 Distance）、内积（Inner Product）、余弦距离（Cosine Distance）、L1 距离（L1 Distance）、汉明距离（Hamming Distance）和 Jaccard 距离（Jaccard Distance）
支持 ACID 事务、点时间恢复、JOIN 操作，以及 Postgres 所有的其他优秀特性

二、安装 PGVector

2.1 安装 PostgreSQL

PGVector是基于PostgreSQL的扩展插件，要使用PGVector需要先安装PostgreSQL(支持Postgres 12以上)，PostgreSQL具体安装操作可参考：PostgreSQL基本操作。

2.2 安装 PGVector

# 1.下载
git clone --branch v0.7.0 https://github.com/pgvector/pgvector.git
# 2.进入下载目录
cd pgvector
# 3.编译安装
make && make install

2.3 启用 PGVector

登录PostgreSQL数据库，执行以下命令启用PGVector：

CREATE EXTENSION IF NOT EXISTS vector;

向量数据库：PGVector

2.4 查看插件

#所有可用的扩展
SELECT * FROM pg_available_extensions;
#查看当前数据库实例中已安装和启用的扩展
SELECT * FROM pg_extension;

向量数据库：PGVector

三、PGVector 日常使用

3.1 存储数据

创建向量字段：

#建表时，创建向量字段
CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));
#已有表，新增向量字段
ALTER TABLE items ADD COLUMN embedding vector(3);

插入向量数据：

INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');

更新向量数据：

UPDATE items SET embedding = '[1,2,3]' WHERE id = 1;

删除向量数据：

DELETE FROM items WHERE id = 1;

3.2 查询数据

距离函数
操作符	函数	距离类型
<->	l2_distance	两个向量相减得到的新向量的长度
<#>	vector_negative_inner_product	两个向量内积的负值
<=>	cosine_distance	两个向量夹角的cos值
<+>

Get the nearest neighbors to a vector

SELECT * FROM items ORDER BY embedding <-> '[3,1,2]' LIMIT 5;

Get the nearest neighbors to a row

SELECT * FROM items WHERE id != 1 ORDER BY embedding <-> (SELECT embedding FROM items WHERE id = 1) LIMIT 5;

Get rows within a certain distance

SELECT * FROM items WHERE embedding <-> '[3,1,2]' < 5;

Get the distance

SELECT embedding <-> '[3,1,2]' AS distance FROM items;

For inner product, multiply by -1 (since <#> returns the negative inner product)

SELECT (embedding <#> '[3,1,2]') * -1 AS inner_product FROM items;

For cosine similarity, use 1 - cosine distance

SELECT 1 - (embedding <=> '[3,1,2]') AS cosine_similarity FROM items;

Average vectors

SELECT AVG(embedding) FROM items;

Average groups of vectors

SELECT category_id, AVG(embedding) FROM items GROUP BY category_id;

3.3 HNSW 索引

HNSW索引创建了一个多层图。在速度-召回权衡方面，它的查询性能优于IVFFlat，但构建时间较慢且占用更多内存。另外，由于没有像IVFFlat那样的训练步骤，可以在表中没有数据的情况下创建索引。

Supported types are:

vector - up to 2,000 dimensions
halfvec - up to 4,000 dimensions (added in 0.7.0)
bit - up to 64,000 dimensions (added in 0.7.0)
sparsevec - up to 1,000 non-zero elements (added in 0.7.0)

L2 distance

CREATE INDEX ON items USING hnsw (embedding vector_l2_ops);

Inner product

CREATE INDEX ON items USING hnsw (embedding vector_ip_ops);

Cosine distance

CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops);

L1 distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding vector_l1_ops);

Hamming distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding bit_hamming_ops);

Jaccard distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding bit_jaccard_ops);

3.4 IVFFlat 索引

IVFFlat索引将向量划分为列表，然后搜索最接近查询向量的那些列表的子集。它的构建时间比HNSW快，且占用更少内存，但查询性能（就速度-召回权衡而言）较低。

Supported types are:

vector - up to 2,000 dimensions
halfvec - up to 4,000 dimensions (added in 0.7.0)
bit - up to 64,000 dimensions (added in 0.7.0)

L2 distance

CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);

Inner product

CREATE INDEX ON items USING ivfflat (embedding vector_ip_ops) WITH (lists = 100);

Cosine distance

CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);

Hamming distance - added in 0.7.0

CREATE INDEX ON items USING ivfflat (embedding bit_hamming_ops) WITH (lists = 100);

向量数据库 PGVector

上一篇

MySQL大小写敏感、MySQL设置字段大小写敏感

下一篇

JSON百科全书：学习JSON看这一篇就够了

评论（0）条

提示：请勿发布广告垃圾评论，否则封号处理！！

相关推荐

Linux 在线yum安装： PostgreSQL 15.6数据库

Linux 在线yum安装： PostgreSQL 15.6数据库: 7个月前

数据库SQL入门教程(非常详细)，从零基础入门到精通，看完这一篇就够了

数据库SQL入门教程(非常详细)，从零基础入门到精通，看完这一篇就够了: 7个月前

Web期末复习指南（2w字总结）

Web期末复习指南（2w字总结）: 7个月前

vue3面试题：2024 最新前端 Vue 3

vue3面试题：2024 最新前端 Vue 3: 7个月前

2025年ide系列激活: 7个月前

2025 年不容错过的 25 款顶级 Web 应用构建开源工具

2025 年不容错过的 25 款顶级 Web 应用构建开源工具: 7个月前

2024最新WebStorm常用的小技巧汇总，Web开发上路必备

2024最新WebStorm常用的小技巧汇总，Web开发上路必备: 7个月前

学会Web UI框架--Bootstrap，快速搭建出漂亮的前端界面

学会Web UI框架--Bootstrap，快速搭建出漂亮的前端界面: 7个月前

深度解析Linux中的Vim的使用

深度解析Linux中的Vim的使用: 7个月前

WebStorm 安装配置（详细教程）

WebStorm 安装配置（详细教程）: 7个月前

猜你喜欢

【MySQL】用户管理

服务器/数据库 7个月前 7.61k

我们推荐使用普通用户对数据的访问。而root作为管理员可以对普通用户对应的权限进行设置和管理。如给张三和李四这样的普通用户权限设定后。就只能操作给你权限的库了。

Cursor Rules 让开发效率变成10倍速

Cursor Rules 让开发效率变成10倍速

服务器/数据库 7个月前 4.56k

在AI与编程的交汇点上，awesome-cursorrules项目犹如一座灯塔，指引着开发者们驶向更高效、更智能的编程未来。无论你是经验丰富的老手，还是刚入行的新人，这个项目都能为你的编程之旅增添一抹亮色。这些规则文件就像是你私人定制的AI助手，能够根据你的项目需求和个人偏好，精确地调教AI的行为。突然间，你会发现AI不仅能理解Next.js的最佳实践，还能自动应用TypeScript的类型检查，甚至主动提供Tailwind CSS的类名建议。探索新的应用场景，推动AI辅助编程的边界。

MySQL 的mysql_secure_installation安全脚本执行过程介绍

MySQL 的mysql_secure_installation安全脚本执行过程介绍

服务器/数据库 7个月前 4.18k

mysql_secure_installation 是 MySQL 提供的一个安全脚本，用于提高数据库服务器的安全性

探索Django 5: 从零开始，打造你的第一个Web应用

探索Django 5: 从零开始，打造你的第一个Web应用

服务器/数据库 7个月前 4.11k

Django 是一个开放源代码的 Web 应用程序框架，由 Python 写成。它遵循 MVT（Model-View-Template）的设计模式，旨在帮助开发者高效地构建复杂且功能丰富的 Web 应用程序。随着每个版本的升级，Django 不断演变，提供更多功能和改进，让开发变得更加便捷。《Django 5 Web应用开发实战》集Django架站基础、项目实践、开发经验于一体，是一本从零基础到精通Django Web企业级开发技术的实战指南《Django 5 Web应用开发实战》内容以。

【MySQL基础篇】概述及SQL指令：DDL及DML

【MySQL基础篇】概述及SQL指令：DDL及DML

服务器/数据库 7个月前 1.79k

数据库是长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库不仅仅是数据的简单堆积，而是遵循一定的规则和模式进行组织和管理的。数据库中的数据可以包括文本、数字、图像、音频等各种类型的信息。

Redis中的哨兵（Sentinel）

Redis中的哨兵（Sentinel）

服务器/数据库 7个月前 1.38k

上篇文章我们讲述了Redis中的主从复制（Redis分布式系统中的主从复制-CSDN博客），本篇文章针对主从复制中的问题引出Redis中的哨兵，希望本篇文章会对你有所帮助。

题解无忧- 助你网站腾飞

源码公司企业

Copyright © 2019 - 2025 powered by 题解无忧冀ICP备15003041号-4

本站所有作品均为会员提供或网上搜集，版权归原作者所有
如需商业用途或转载请与作者联系，网站所有内容仅供观摩学习交流之用，请勿用于商业用途

如果您发现本站内容侵犯的您的权益，请及时联系我们，我们会在第一时间处理