教学网站的设计wordpress修改链接
2026/4/17 9:23:20 网站建设 项目流程
教学网站的设计,wordpress修改链接,网站访问慢的原因,深圳就会制作本文详细介绍了两种主流大模型本地部署方案#xff1a;面向生产环境的高性能VLLM部署#xff08;支持Linux系统和高并发#xff09;和面向个人用户的轻量级Ollama部署#xff08;支持Windows系统#xff09;。文章提供了完整的实战步骤#xff0c;包括环境准备、模型下载…本文详细介绍了两种主流大模型本地部署方案面向生产环境的高性能VLLM部署支持Linux系统和高并发和面向个人用户的轻量级Ollama部署支持Windows系统。文章提供了完整的实战步骤包括环境准备、模型下载、服务启动和API调用并解释了模型量化原理。通过对比两种方案的特点和适用场景帮助读者在不同环境下快速搭建自己的大模型服务实现数据隐私保护、完全自主控制和长期成本可控的优势。一、本地部署大模型优势相信很多同学和我一样平时会直接使用 DeepSeek、通义千问等提供的 API 服务——这种方式确实方便快捷。既然云端调用如此便利为什么还要学习本地部署大模型呢与云端部署相比将大模型部署在本地通常具备以下几点优势数据隐私与安全可控许多企业会使用内部数据训练或微调大模型在这个过程中难免需要模型参与数据处理。为避免企业机密、个人隐私或受监管数据上传至第三方平台本地部署能更好地满足数据合规要求保障数据不出域。完全自主的控制权云端服务可能因厂商限速、服务中断或模型版本更新而导致调用失败或效果波动例如年初 DeepSeek 服务受攻击或平时忘记续费导致调用失败。本地部署则确保模型版本、服务稳定性完全由自己掌控避免因外部因素影响业务连续性。长期成本更可控虽然初期需要投入硬件与部署成本但长期使用边际成本极低尤其适合高频调用或规模化应用场景。这也避免了因供应商定价策略调整而带来的不确定性有利于长期项目规划。综上所述对于重视数据安全、需要稳定服务或长期成本控制的企业、科研团队及开发者来说掌握本地部署大模型的能力具有重要价值。它不仅是技术保障也逐渐成为一项核心竞争优势。接下来笔者将为大家分享两种实用的部署方案适合生产环境的高性能Vllm部署方案以及适合本地快速实验的Ollama部署方案。二、VLLM大模型部署方案2.1 认识VLLM虽然可以使用transformers库来完成大模型的调用和推理但在生产环境中往往需要更高的推理效率。为此专为高性能推理的vllm库应运而生。vLLM 是加州大学伯克利分校开发的一个 Python 库其核心优势在于创新的内存管理技术、高效的任务调度能力以及出色的易用性和兼容性。这使得它能在相同硬件上显著提升模型推理的吞吐量与并发处理能力。因此vLLM 非常适合需要快速响应、高并发的生产环境。值得注意的是vLLM 目前仅支持 Linux 系统在 Windows 下无法使用。如果大家使用的是 Windows 环境可以考虑下文将介绍的 Ollama 框架作为替代方案。vllm的核心优势总结主要有以下几点:极致的内存效率: 利用分页注意力机制和KV缓存 将显存利用率提高到90%极高的吞吐量与并发动态合并新请求到正在进行的批处理中持续“榨干”GPU算力吞吐量可达传统静态批处理的2.8倍开箱即用的易用性vllm与 HuggingFace无缝集成更是提供 OpenAI兼容的API无需复杂转换即可加载主流开源模型现有应用可无缝迁移极大降低部署门槛。2.2 VLLM大模型部署方案实战既然vllm部署有这么大的优点那接下来必然要学习一下vllm的部署方法了本次实验环境同样是在九章云极算力平台下进行部署大家可以通过扫描下方二维码 免费体验H100 GPU 6.5小时的算力。本系列所有实战教程均将在该平台上完成帮助大家低成本上手实践。1. 创建实例打开Lab4AI官网https://www.lab4ai.cn/home新建一个 VS Code 云实例。选择镜像在新建实例页面选择适合的镜像并完成创建。3. 检查环境点击 VS Code 中的 Terminal可以看到系统已预置名为lf的 Anaconda 虚拟环境其中已安装llamafactory库及其依赖包括 vLLM。执行pip show vllm可查看当前 vLLM 版本。大家也可以通过pip install vllmxxx安装指定版本但预置版本通常已足够新。4. 查看显存vLLM 对显存要求较高。执行nvidia-smi命令查看当前 GPU 资源。如图所示环境配备了一块 80G 显存的 H100 显卡。注意一个 32B 参数模型约需 66G 显存H100 单卡部署可能紧张。为便于演示笔者选用更轻量的Qwen3-4B模型。5. 下载模型:运行大模型第一步首先要下载大模型大家还记得大模型训练全流程实战指南基础篇二——大模型文件结构解读与原理解析 上一小节内容中教大家如何从modelscope处获得模型的方法吧访问 ModelScope 官网搜索Qwen3-4B模型。点击下载页面会显示下载命令。6. 执行下载:在终端执行以下命令modelscope download --model Qwen/Qwen3-4B --local_dir ./Qwen3-4B将Qwen3-4B模型下载到当前目录下的Qwen3-4B文件夹中。下载完成后情况如下7. 启动 vLLM 服务:模型就绪后执行以下命令启动兼容 OpenAI API 格式的推理服务器vllm serve ./Qwen3-4B/ --served-model-name Qwen3-4B --max-model-len 32768 --gpu-memory-utilization 0.9 --port 6666即可开启兼容OpenAI格式请求的服务器服务成功启动后终端会显示运行日志:8. 测试调用:在服务器根目录下新建test.py文件并写入以下测试代码因启动时未指定 API Key此处可任意填写。执行python test.py成功返回模型响应即表示部署成功。from openai import OpenAI client OpenAI(base_urlhttp://localhost:6666/v1, api_keyEMPTY) response client.chat.completions.create(modelQwen3-4B, messages[{role: user, content: 你好}]) print(response.choices[0].message.content)以上就是使用 vLLM 本地部署大模型的完整流程。掌握本地大模型服务的部署能力对于后续的数据治理、模型训练与部署都至关重要。2.3 VLLM常用部署参数详解上一节仅展示了部分命令行参数下表列出了更多生产中常用的参数及其说明参数推荐值作用说明--max-model-len32768设置模型的最大上下文长度Qwen3模型支持32K上下文。--gpu-memory-utilization0.8-0.95GPU显存利用率值越高预留空间越少。--tensor-parallel-sizeGPU数量张量并行大小必须等于使用的GPU数量默认单卡为1如果你使用两张卡这里就是2注意数目只能是2^n次。--max-num-seqs256同时处理的最大请求数影响并发能力。--enforce-eager(无值)在Ascend NPU上运行可能需要添加此参数以避免编译错误。--api-key如abc123设置API密钥增加基础安全性。--enable-function-calling(无值)启用工具功能之后笔者会讲解--pipeline-parallel-sizeGPU数量流水线并行大小流水线通过将模型层分布到多个GPU每个GPU顺序处理可与tensor-parallel-size参数合用--enable-expert-parallelTrue or False针对MoE模型的优化例如DeepSeek-V3等模型平衡不同MoE专家计算开销根据以上参数如果需要使用 4 张 GPU 来推理Qwen3-32B模型命令应如下所示vllm serve \ --model “Qwen3-32B模型所存位置” \ --tensor-parallel-size 4 \ --trust-remote-code \ --gpu-memory-utilization 0.8 \ --max-num-seqs 32 \ --max-model-len 8192 \ --port 8000参数组合清晰明了相信大家都已经学会啦2.4 VLLM优化技巧其实在实际生产环境中为了最大限度的压榨算力还有很多的vllm的优化技巧笔者常用的技巧有如下2点多实例负载均衡当有多个相同模型同时部署时例如 8 张卡每 2 张部署一个Qwen3-32B共 4 个实例可在前端使用Nginx 做负载均衡实现吞吐量的线性增长。如有需要笔者后续可专门分享此方案。超大模型部署策略部署参数量极大的模型时需要合理组合TP张量并行、PP流水线并行和EP专家并行策略。通常可以适当调大 TP 和 PP并将 EP 设为True以在多 GPU 同步开销与整体性能之间取得最佳平衡。三、Ollama大模型部署方案3.1 认识OllamaVLLM 部署方案虽然强大但它主要面向生产环境需要 Linux 系统和高性能显卡。如果大家想在个人电脑上快速体验模型或者在 Windows 系统中进行本地调用有什么更轻便的方案呢Ollama 正是为此而生。ollama是在llama.cpp基础上封装的简化的本地部署工具提供了一键运行功能非常适合大家非技术模型的快速验证。与vllm相比主要有如下三点优势部署极其简单开箱即用Ollama提供一键安装脚本和简单的命令行操作下载后即可快速运行模型非常适合个人快速体验。而vLLm通常需要配置Python环境、安装CUDA依赖并进行更多初始化设置门槛相对较高。对个人硬件更友好资源要求低Ollama专注于在消费级硬件包括苹果芯片、普通CPU和消费级GPU上运行。它通过高效的模型量化技术能用更少的内存或显存运行大模型不一定需要显卡内存也可以。内置模型库管理模型非常便捷Ollama内置了一个包含大量主流开源预量化模型的“应用商店”。大家可以像安装软件一样通过一条命令如ollama pull Qwen3:4b, 现在甚至不需要命令在界面也可以操作轻松拉取、运行和切换不同模型无需手动处理复杂的模型转换和优化步骤。3.2 ollama部署实战演示下面笔者以 Windows 系统为例演示如何安装和使用 Ollama 部署大模型。目前最新版本的 Ollama 已提供图形界面可方便地配置模型路径。若想了解更多细节或使用旧版本可参考笔者之前的文章人工智能大模型入门分享一——利用ollama搭建本地大模型服务DeepSeek-R1)1. 下载安装包访问 Ollama 官网https://ollama.com/点击右上角 “Download” 按钮选择 Windows 系统并下载安装包。2. 安装软件双击下载好的.exe文件点击 “Install” 完成安装默认安装至 C 盘。3. 修改模型存放路径安装完成后建议先打开软件设置将模型保存目录修改到非系统盘如 D 盘或 E 盘以避免占用过多系统空间。4. 查找模型在Ollama 官网https://ollama.com/ 的模型搜索页中搜索qwen3:5. 下载并运行模型进入 Qwen3 模型页面页面会显示运行命令ollama run qwen3默认下载 8B 版本。若想下载 4B 版本则执行以下命令6. 在 Ollama 界面中测试下载完成后可直接在 Ollama 自带的对话界面中输入问题进行测试。7. 通过 OpenAI 兼容 API 调用Ollama 同样提供兼容 OpenAI 格式的 API 服务默认端口为11434。可以通过以下 Python 代码进行调用若本地未安装openai库需先执行pip install openaifrom openai import OpenAI client OpenAI(base_urlhttp://localhost:11434/v1, api_keyEMPTY) #api_key随便填 response client.chat.completions.create(modelqwen3:4b, messages[{role: user, content: 你好}]) print(response.choices[0].message.content)8. 了解模型存储结构Ollama 下载的模型默认保存在你设置的目录下例如E:\Ollama\models。目录内主要包含两个文件夹blobs存放模型具体的二进制文件通常以sh开头的哈希文件命名。manifests存放模型的元数据信息用于定义哪些文件属于哪个模型。9. 更多配置:如需了解更详细的配置选项如修改端口、启用 GPU 等可参考笔者之前的文章 人工智能大模型入门分享一——利用ollama搭建本地大模型服务DeepSeek-R1)非常简单这里就不再赘述了~3.3 ollama与量化细心观察的大家会发现在 Ollama 中下载的 Qwen3-4B 模型只有约 2.5 GB而在 ModelScope 下载的原始模型却有 8.1 GB。Ollama 用了什么“魔法”让模型变得如此小巧这背后的关键技术就是模型量化。大模型训练全流程实战指南基础篇二——大模型文件结构解读与原理解析 文章中大家了解到大模型主要由结构和大量参数构成保存这些参数占用了绝大部分存储空间。这些参数的储存形式通常都是浮点数量化就是把浮点数的有效数字的位数进行缩小举个形象的例子圆周率可以用3.1415926535来表示然而默认3.14也可以表示圆周率存储3.1415926535要11位数字存储3.14只需要3位数字存储位数少了存储模型的大小也自然小了。在大模型上就是把FP16的格式量化为INT4格式将有效位数从16位降到4位。Ollama 是基于llama.cpp构建的llama.cpp是一个高性能的纯 C/C 大语言模型推理框架支持在 CPU 或 GPU 上高效运行并能够将原始模型进行量化显著减少模型体积。量化后的模型可以方便地发布和部署因此 Ollama 默认使用量化后的模型。进一步来说llama.cpp在转换模型时通常将其保存为GGUF格式。这是一种由llama.cpp创始人设计的二进制格式针对高效推理进行了优化。与 Transformer 原生使用的*.safetensors格式不同GGUF 格式通常将所有模型数据整合为单一文件。Ollama 原生支持该格式这也解释了为什么在 Ollama 后端文件中会有一个体积特别大的文件——它本质上就是整个量化后的模型。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询