课程费用

6800.00 /人

课程时长

3

成为教练

课程简介

理解向量数据库的核心概念、架构和优势。
掌握向量数据库的关键技术,包括向量索引、相似度搜索、近似最近邻搜索 (ANN)。
学习如何在向量数据库中存储、索引和查询向量数据。
了解向量数据库的应用场景和最佳实践。
掌握主流向量数据库的使用方法和评估标准。
能够构建自己的向量数据库原型系统,并集成到AI应用中。

目标收益

培训对象

数据工程师、数据科学家、机器学习工程师、AI开发者、以及对向量数据库感兴趣的技术人员。

课程大纲

第一天:向量数据库基础与核心技术
模块 1:向量数据库概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
传统数据库在处理向量数据时的局限性
向量数据库的定义、目标和优势:高性能相似度搜索、高可扩展性、支持多种数据类型
向量数据库的应用场景:图像搜索、文本检索、推荐系统、异常检测、生物信息学
主流向量数据库介绍:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模块 2:向量索引技术 (上午) 向量索引的类型:基于树的索引、基于图的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各种索引算法的优缺点分析:搜索精度、搜索速度、内存消耗
动手实践:比较不同向量索引算法的性能
模块 3:相似度搜索 (下午) 相似度度量方法:欧氏距离 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 点积 (Dot Product), Jaccard相似度
相似度搜索的类型:精确搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精确搜索的局限性:性能瓶颈
近似搜索的优势:提高搜索效率
动手实践:使用不同的相似度度量方法计算向量之间的相似度
模块 4:近似最近邻搜索 (ANN) 技术 (下午) ANN的定义和目标:在可接受的精度损失下,实现快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘积量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分层可导航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能评估指标:召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
动手实践:使用ANN算法进行相似度搜索
第二天:向量数据库应用与最佳实践
模块 5:向量数据库选型与架构设计 (上午)
向量数据库选型的考量因素:数据规模、查询性能、易用性、成本、可扩展性
主流向量数据库的对比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量数据库的部署架构:单机部署、集群部署、云端部署
向量数据库与其他组件的集成:数据源、AI模型、应用服务
动手实践:选择适用于特定场景的向量数据库
模块 6:向量数据库的数据建模与索引构建 (上午) 选择合适的向量模型:根据应用场景选择合适的预训练模型或自定义训练模型
向量数据库的数据类型:向量类型、标量类型、元数据类型
创建向量数据库的Schema:定义向量维度、数据类型、索引参数
向量数据库的索引构建:选择合适的索引算法、调整索引参数
动态索引与增量索引
动手实践:设计向量数据库的Schema和索引
模块 7:向量数据库的应用开发 (下午) 使用向量数据库的API:插入数据、删除数据、查询数据
向量数据库的查询语句:相似度搜索、范围查询、过滤查询
向量数据库的客户端库:Python, Java, Go, REST API
向量数据库与AI模型的集成:embedding生成、模型推理
动手实践:构建一个简单的图像搜索应用
模块 8:向量数据库最佳实践与未来趋势 (下午) 性能优化:数据分区、缓存、查询优化
监控与报警:实时监控数据库状态、及时发现问题
数据安全:访问控制、数据加密、数据审计
向量数据库的未来趋势:
多模态数据支持:支持文本、图像、音频、视频等多种类型的数据
自动化索引构建:自动选择合适的索引算法和参数
可解释性:提供向量相似性的解释
云原生:在云平台上构建弹性伸缩的向量数据库
开放讨论:学员分享对向量数据库未来发展的看法
可选模块 (根据客户需求调整) 向量索引算法源码分析: 深入剖析HNSW、IVF等索引算法的源码实现
特定向量数据库平台的实践: 深入学习Milvus、Weaviate、Pinecone等平台的使用方法和高级特性
向量数据库与LLM的结合: 构建基于向量数据库的知识库、问答系统
工具与技术: 向量数据库:Milvus, Weaviate, Pinecone, Qdrant, FAISS
机器学习框架:TensorFlow, PyTorch
编程语言:Python, Java, Go
API调用:RESTful API
云平台:AWS, Azure, Google Cloud
第一天:向量数据库基础与核心技术
模块 1:向量数据库概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
传统数据库在处理向量数据时的局限性
向量数据库的定义、目标和优势:高性能相似度搜索、高可扩展性、支持多种数据类型
向量数据库的应用场景:图像搜索、文本检索、推荐系统、异常检测、生物信息学
主流向量数据库介绍:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模块 2:向量索引技术 (上午)
向量索引的类型:基于树的索引、基于图的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各种索引算法的优缺点分析:搜索精度、搜索速度、内存消耗
动手实践:比较不同向量索引算法的性能
模块 3:相似度搜索 (下午)
相似度度量方法:欧氏距离 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 点积 (Dot Product), Jaccard相似度
相似度搜索的类型:精确搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精确搜索的局限性:性能瓶颈
近似搜索的优势:提高搜索效率
动手实践:使用不同的相似度度量方法计算向量之间的相似度
模块 4:近似最近邻搜索 (ANN) 技术 (下午)
ANN的定义和目标:在可接受的精度损失下,实现快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘积量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分层可导航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能评估指标:召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
动手实践:使用ANN算法进行相似度搜索
第二天:向量数据库应用与最佳实践
模块 5:向量数据库选型与架构设计 (上午)
向量数据库选型的考量因素:数据规模、查询性能、易用性、成本、可扩展性
主流向量数据库的对比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量数据库的部署架构:单机部署、集群部署、云端部署
向量数据库与其他组件的集成:数据源、AI模型、应用服务
动手实践:选择适用于特定场景的向量数据库
模块 6:向量数据库的数据建模与索引构建 (上午)
选择合适的向量模型:根据应用场景选择合适的预训练模型或自定义训练模型
向量数据库的数据类型:向量类型、标量类型、元数据类型
创建向量数据库的Schema:定义向量维度、数据类型、索引参数
向量数据库的索引构建:选择合适的索引算法、调整索引参数
动态索引与增量索引
动手实践:设计向量数据库的Schema和索引
模块 7:向量数据库的应用开发 (下午)
使用向量数据库的API:插入数据、删除数据、查询数据
向量数据库的查询语句:相似度搜索、范围查询、过滤查询
向量数据库的客户端库:Python, Java, Go, REST API
向量数据库与AI模型的集成:embedding生成、模型推理
动手实践:构建一个简单的图像搜索应用
模块 8:向量数据库最佳实践与未来趋势 (下午)
性能优化:数据分区、缓存、查询优化
监控与报警:实时监控数据库状态、及时发现问题
数据安全:访问控制、数据加密、数据审计
向量数据库的未来趋势:
多模态数据支持:支持文本、图像、音频、视频等多种类型的数据
自动化索引构建:自动选择合适的索引算法和参数
可解释性:提供向量相似性的解释
云原生:在云平台上构建弹性伸缩的向量数据库
开放讨论:学员分享对向量数据库未来发展的看法
可选模块 (根据客户需求调整)
向量索引算法源码分析: 深入剖析HNSW、IVF等索引算法的源码实现
特定向量数据库平台的实践: 深入学习Milvus、Weaviate、Pinecone等平台的使用方法和高级特性
向量数据库与LLM的结合: 构建基于向量数据库的知识库、问答系统
工具与技术:
向量数据库:Milvus, Weaviate, Pinecone, Qdrant, FAISS
机器学习框架:TensorFlow, PyTorch
编程语言:Python, Java, Go
API调用:RESTful API
云平台:AWS, Azure, Google Cloud

课程费用

6800.00 /人

课程时长

3

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求