Noah Sun's Home

  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索

深度解析 vLLM:重新定义大模型推理的性能革命

发表于 2026-03-19 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言2025-2026 年,大模型推理已成为 AI 应用的”最后一公里”。无论是聊天机器人、代码助手,还是智能客服,都需要在低延迟、高吞吐、低成本的约束下提供优质服务。 然而,传统推理框架面临着严峻挑战: 1234❌ 显存利用率低(30-50%)❌ 批处理效率差(动态序列长度导致碎片化)❌ 延迟波动大(长序列阻塞短序列)❌ 成本高企(需要大量 GPU 支撑生产负载) vLLM 的出现,彻底改变了这一局面。 凭借创新的 PagedAttention 技术和一系列系统优化,vLLM 实现了: ✅ 24 倍吞吐提升(相比 HuggingFace Transformers) ✅ 零浪费显存管理(页 ...
阅读全文 »

深入理解大模型微调:从理论到实战的完整指南

发表于 2026-03-19 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言2025-2026 年,大语言模型(LLM)已从实验室走向生产环境。但直接使用通用模型往往无法满足特定场景的需求——医疗诊断需要专业术语、法律咨询需要严谨表述、客服系统需要品牌语调。 微调(Fine-tuning) 正是解决这一问题的关键技术。它让我们能够用相对少量的数据,将通用大模型”定制”成领域专家。 本文将从微调原理、技术演进、实战方法、最佳实践四个维度,系统梳理大模型微调的完整知识体系。无论你是想入门微调的新手,还是希望优化现有流程的工程师,都能从中获得启发。 什么是大模型微调?预训练 vs 微调理解微调之前,先厘清两个核心概念: 123456789101112131415┌─── ...
阅读全文 »

Milvus 向量数据库深度解析:从原理到实战

发表于 2026-03-18 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言在 AI 应用爆发的 2025-2026 年,向量数据库已成为大模型应用的”标配”基础设施。无论是 RAG(检索增强生成)、语义搜索、推荐系统,还是多模态应用,都离不开高效的向量存储与检索能力。 Milvus 作为全球最流行的开源向量数据库之一,以其高性能、可扩展性和易用性,成为了众多开发者的首选。本文将从架构原理、核心特性、实战应用三个维度,深度解析 Milvus 的技术实现。 什么是向量数据库?传统数据库 vs 向量数据库传统数据库(如 MySQL、PostgreSQL)擅长处理结构化数据,支持精确匹配和范围查询: 1SELECT * FROM users WHERE age > ...
阅读全文 »

MCP协议深度解析:Transport层实现全攻略

发表于 2026-03-04 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言在之前的文章中,我们介绍了MCP的整体架构。今天我们来深入MCP的核心——**传输层(Transport Layer)**实现。 MCP定义了两种标准传输机制: stdio:本地进程通信 Streamable HTTP:远程服务器通信(替代了旧版HTTP+SSE) 本文将从协议规范到完整代码,手把手带你实现MCP传输层。 MCP协议基础JSON-RPC 2.0消息格式MCP基于JSON-RPC 2.0,所有消息都是UTF-8编码的JSON: 123456789101112131415161718192021222324252627282930// Request{ &quo ...
阅读全文 »

Transformer架构深度解析:大模型的基石

发表于 2026-02-26 | 分类于 Technology , DeepLearning | 评论数: 0 | 阅读次数:
前言2017年,Google发表论文《Attention Is All You Need》,提出了Transformer架构。这篇论文彻底改变了NLP领域,成为GPT、BERT、LLaMA等大语言模型的共同基石。 本文将深入剖析Transformer的架构原理,从数学推导到代码实现,帮你彻底理解这个改变AI历史的设计。 为什么需要Transformer?RNN/LSTM的局限在Transformer之前,序列建模的主流方法是RNN和LSTM: 123h₁ → h₂ → h₃ → ... → hₙ ↓ ↓ ↓ ↓y₁ y₂ y₃ yₙ ...
阅读全文 »

OpenClaw Skill深度解析:与MCP的对比与选择

发表于 2026-02-24 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言在前几篇文章中,我们分别介绍了OpenClaw的整体架构、多Agent功能,以及Anthropic的MCP协议。今天我们来深入探讨OpenClaw的Skill系统,并将其与MCP进行详细对比。 这两个系统都试图解决同一个问题:如何扩展AI Agent的能力。但它们的设计理念和实现方式有着根本性的差异。 什么是Skill?在OpenClaw中,Skill(技能) 是一种轻量级的扩展机制,用于教会Agent如何使用工具完成任务。每个Skill本质上是一个包含SKILL.md文件的目录: 1234567skills/├── summarize/│ └── SKILL.md├── browse ...
阅读全文 »

OpenClaw多Agent实战教程:打造专属AI团队

发表于 2026-02-23 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言在上一篇文章中,我们介绍了OpenClaw的整体架构。今天我们深入探讨一个强大的功能:多Agent路由。 想象一下,你能否拥有: 一个”工作助手”,专注代码和技术问题 一个”生活助手”,处理日常事务 一个”家庭助手”,在家庭群聊中服务 OpenClaw的多Agent功能让这一切成为可能——一个Gateway,多个独立”大脑”。 什么是”一个Agent”?在OpenClaw中,一个Agent是一个完全独立的AI人格,拥有自己的: 组件 说明 Workspace 工作目录,包含AGENTS.md、SOUL.md等配置 AgentDir 状态目录,存储认证配置和模型设置 ...
阅读全文 »

MCP (Model Context Protocol) 技术实现深度解析

发表于 2026-02-23 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言2024年底,Anthropic开源了 Model Context Protocol (MCP) —— 一个连接AI应用与外部系统的开放标准。MCP就像AI应用的”USB-C接口”,提供了标准化的方式让AI模型访问数据源、调用工具、执行工作流。 本文将深入剖析MCP的技术架构和核心实现原理。 什么是MCP?MCP是一个开放协议,它定义了AI应用与外部系统之间的通信标准。通过MCP: AI应用(如Claude、ChatGPT)可以连接数据源(文件、数据库) 调用工具(搜索引擎、计算器) 执行工作流(特定提示模板) 123456789101112┌───────────────────── ...
阅读全文 »

OpenClaw技术架构深度解析:打造跨平台AI Agent网关

发表于 2026-02-23 | 分类于 Technology | 评论数: 0 | 阅读次数:
前言在AI Agent蓬勃发展的今天,如何让智能助手无缝接入我们的日常沟通渠道成为一个关键问题。OpenClaw 是一个开源的、自托管的AI Agent网关,它能将WhatsApp、Telegram、Discord、iMessage等多个聊天平台连接到你的AI助手,实现真正的跨平台智能对话。 本文将深入剖析OpenClaw的技术架构和核心原理。 核心设计理念OpenClaw的设计遵循几个核心原则: 自托管(Self-hosted):运行在你自己的硬件上,数据完全自主可控 多通道(Multi-channel):一个Gateway进程同时服务多个聊天平台 Agent原生(Agent-native ...
阅读全文 »

golang 调试分析方法

发表于 2022-04-10 | 更新于 2026-02-23 | 分类于 Technology | 评论数: 0 | 阅读次数:
断点调试Visual Studio Code创建配置VSCode IDE要运行或者调试golang程序之前,需要创建运行配置 launch.json ,方法如下: 打开菜单“运行”->“添加配置”,在创建的配置添加如下内容: 1234567891011121314151617{ // 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。 // 欲了解更多信息,请访问: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0 ...
阅读全文 »
123
Noah Sun

Noah Sun

Noah Sun's Blog.

27 日志
4 分类
53 标签
GitHub Facebook
© 2026 Noah Sun
由 Hexo 强力驱动 v6.3.0
|
主题 – NexT.Pisces v6.4.2