跳转到主要内容
← 返回首页
🤖

AI架构

人工智能系统架构设计

10 篇笔记

Prompt工程架构:模板管理、版本控制与评估

Prompt工程架构:模板管理、版本控制与评估 Prompt管理系统概述 随着LLM应用的普及,Prompt已成为一种重要的代码资产。Prompt管理系统需要支持模板化、版本控制、A/B测试、性能评估和协作开发,确保Prompt质量和可追溯性。 python Prompt管理系统核心 from da...

⏱ 7m Prompt工程模板管理版本控制LLM应用

Embedding与向量检索架构:ANN索引优化

Embedding与向量检索架构:ANN索引优化 向量检索系统概述 向量检索是将高维向量(如文本、图像的Embedding)进行相似度搜索的技术。传统精确搜索在高维空间中效率极低,需要使用近似最近邻(ANN)算法在精度和速度之间取得平衡。 python 向量检索引擎核心 from dataclass...

⏱ 6m Embedding向量检索ANN索引相似度搜索

MLOps架构:模型版本管理、AB测试与全链路监控

MLOps架构:模型版本管理、AB测试与全链路监控 MLOps平台架构 MLOps是将机器学习模型从实验阶段推向生产环境的工程实践,核心目标是实现模型开发、部署、监控的自动化和标准化。平台架构包括:实验管理、模型注册、自动化流水线、部署编排和生产监控。 python MLOps平台核心组件 from...

⏱ 7m MLOps模型版本AB测试模型监控

AI Agent架构:规划、记忆与多Agent协作

AI Agent架构:规划、记忆与多Agent协作 Agent核心架构 AI Agent是能够自主感知环境、制定计划并执行行动来完成复杂任务的智能系统。核心组件包括:感知模块(接收输入)、规划模块(制定行动方案)、记忆模块(存储经验和知识)、执行模块(调用工具完成任务)。 python Agent核...

⏱ 7m AI Agent任务规划记忆系统多Agent

RAG检索增强生成系统架构

RAG检索增强生成系统架构 RAG系统概述 RAG(Retrieval-Augmented Generation)通过结合检索和生成,让大语言模型能够访问外部知识库,减少幻觉并提供准确、有据可依的回答。RAG系统的核心流程包括:文档摄入与分块、向量化与索引、查询理解与检索、上下文组装与生成。 pyt...

⏱ 5m RAG检索增强向量数据库LLM应用

LLM推理架构:批处理、流式与KV Cache优化

LLM推理架构:批处理、流式与KV Cache优化 LLM推理的核心挑战 大语言模型推理面临独特挑战:自回归生成需要串行计算、KV Cache占用大量显存、长上下文增加计算复杂度、批处理效率影响服务吞吐量。推理优化需要在延迟、吞吐量和成本之间找到最佳平衡点。 python LLM推理请求管理 fro...

⏱ 5m LLM推理KV Cache批处理流式响应

模型服务架构:Triton、TensorFlow Serving与Seldon

模型服务架构:Triton、TensorFlow Serving与Seldon 模型服务核心挑战 模型服务需要在低延迟、高吞吐和资源利用率之间取得平衡。核心挑战包括:模型加载与切换、请求批处理、GPU资源调度、多模型并发服务、A/B测试与灰度发布。选择合适的推理引擎和部署架构是成功的关键。 pyth...

⏱ 4m 模型服务TritonTensorFlow Serving推理优化

特征存储架构:离线在线一致性与Feast实践

特征存储架构:离线在线一致性与Feast实践 特征存储的核心价值 特征存储解决机器学习中最常见但最容易被忽视的问题:训练和推理使用不一致的特征计算逻辑,导致模型性能下降(训练-服务偏差)。特征存储通过统一的特征定义、计算逻辑和服务接口,确保特征在离线训练和在线推理中保持完全一致。 python 特征...

⏱ 3m 特征存储Feast特征一致性在线推理

ML流水线架构:数据处理、训练、评估与部署

ML流水线架构:数据处理、训练、评估与部署 流水线架构设计原则 ML流水线的核心目标是将机器学习工作流从手动脚本转变为可重复、可追溯、可扩展的自动化流程。设计时需遵循原子性(每个步骤职责单一)、幂等性(重复执行结果一致)、可观测性(完整日志和指标)三大原则。 python ML流水线基类设计 fro...

⏱ 4m ML流水线数据处理模型训练自动化部署

AI系统架构:从训练到推理的完整流水线

AI系统架构:从训练到推理的完整流水线 AI系统分层架构 现代AI系统采用分层架构设计,每一层承担特定职责。基础设施层提供GPU/TPU计算资源和分布式存储;数据层负责数据采集、清洗和标注;特征层管理特征的离线计算与在线服务;模型层处理训练、评估和版本管理;服务层提供低延迟推理API。 python...

⏱ 3m AI架构训练推理特征工程