🤖 AI架构 — 第二大脑

10 篇笔记

Prompt工程架构：模板管理、版本控制与评估

Prompt工程架构：模板管理、版本控制与评估 Prompt管理系统概述随着LLM应用的普及，Prompt已成为一种重要的代码资产。Prompt管理系统需要支持模板化、版本控制、A/B测试、性能评估和协作开发，确保Prompt质量和可追溯性。 python Prompt管理系统核心 from da...

⏱ 7m Prompt工程模板管理版本控制LLM应用

Embedding与向量检索架构：ANN索引优化

Embedding与向量检索架构：ANN索引优化向量检索系统概述向量检索是将高维向量（如文本、图像的Embedding）进行相似度搜索的技术。传统精确搜索在高维空间中效率极低，需要使用近似最近邻（ANN）算法在精度和速度之间取得平衡。 python 向量检索引擎核心 from dataclass...

⏱ 6m Embedding向量检索ANN索引相似度搜索

MLOps架构：模型版本管理、AB测试与全链路监控

MLOps架构：模型版本管理、AB测试与全链路监控 MLOps平台架构 MLOps是将机器学习模型从实验阶段推向生产环境的工程实践，核心目标是实现模型开发、部署、监控的自动化和标准化。平台架构包括：实验管理、模型注册、自动化流水线、部署编排和生产监控。 python MLOps平台核心组件 from...

⏱ 7m MLOps模型版本AB测试模型监控

AI Agent架构：规划、记忆与多Agent协作

AI Agent架构：规划、记忆与多Agent协作 Agent核心架构 AI Agent是能够自主感知环境、制定计划并执行行动来完成复杂任务的智能系统。核心组件包括：感知模块（接收输入）、规划模块（制定行动方案）、记忆模块（存储经验和知识）、执行模块（调用工具完成任务）。 python Agent核...

⏱ 7m AI Agent任务规划记忆系统多Agent

RAG检索增强生成系统架构

RAG检索增强生成系统架构 RAG系统概述 RAG（Retrieval-Augmented Generation）通过结合检索和生成，让大语言模型能够访问外部知识库，减少幻觉并提供准确、有据可依的回答。RAG系统的核心流程包括：文档摄入与分块、向量化与索引、查询理解与检索、上下文组装与生成。 pyt...

⏱ 5m RAG检索增强向量数据库LLM应用

LLM推理架构：批处理、流式与KV Cache优化

LLM推理架构：批处理、流式与KV Cache优化 LLM推理的核心挑战大语言模型推理面临独特挑战：自回归生成需要串行计算、KV Cache占用大量显存、长上下文增加计算复杂度、批处理效率影响服务吞吐量。推理优化需要在延迟、吞吐量和成本之间找到最佳平衡点。 python LLM推理请求管理 fro...

⏱ 5m LLM推理KV Cache批处理流式响应

模型服务架构：Triton、TensorFlow Serving与Seldon

模型服务架构：Triton、TensorFlow Serving与Seldon 模型服务核心挑战模型服务需要在低延迟、高吞吐和资源利用率之间取得平衡。核心挑战包括：模型加载与切换、请求批处理、GPU资源调度、多模型并发服务、A/B测试与灰度发布。选择合适的推理引擎和部署架构是成功的关键。 pyth...

⏱ 4m 模型服务TritonTensorFlow Serving推理优化

特征存储架构：离线在线一致性与Feast实践

特征存储架构：离线在线一致性与Feast实践特征存储的核心价值特征存储解决机器学习中最常见但最容易被忽视的问题：训练和推理使用不一致的特征计算逻辑，导致模型性能下降（训练-服务偏差）。特征存储通过统一的特征定义、计算逻辑和服务接口，确保特征在离线训练和在线推理中保持完全一致。 python 特征...

⏱ 3m 特征存储Feast特征一致性在线推理

ML流水线架构：数据处理、训练、评估与部署

ML流水线架构：数据处理、训练、评估与部署流水线架构设计原则 ML流水线的核心目标是将机器学习工作流从手动脚本转变为可重复、可追溯、可扩展的自动化流程。设计时需遵循原子性（每个步骤职责单一）、幂等性（重复执行结果一致）、可观测性（完整日志和指标）三大原则。 python ML流水线基类设计 fro...

⏱ 4m ML流水线数据处理模型训练自动化部署

AI系统架构：从训练到推理的完整流水线

AI系统架构：从训练到推理的完整流水线 AI系统分层架构现代AI系统采用分层架构设计，每一层承担特定职责。基础设施层提供GPU/TPU计算资源和分布式存储；数据层负责数据采集、清洗和标注；特征层管理特征的离线计算与在线服务；模型层处理训练、评估和版本管理；服务层提供低延迟推理API。 python...

⏱ 3m AI架构训练推理特征工程