2026/4/18 8:58:00
网站建设
项目流程
手机网站制作软件下载,wordpress页面如何排序,电影网站建设方案ppt模板下载,wordpress搭建完成后文章详细介绍如何使用开源模型nomic-embed-text搭建本地RAG知识库#xff0c;实现高效文档检索。内容包括模型基本信息、特性对比和应用场景#xff0c;以及完整搭建步骤#xff1a;下载模型、创建工作区、上传文档、向量化存储和检索测试。同时提供了两种使用方式#xff…文章详细介绍如何使用开源模型nomic-embed-text搭建本地RAG知识库实现高效文档检索。内容包括模型基本信息、特性对比和应用场景以及完整搭建步骤下载模型、创建工作区、上传文档、向量化存储和检索测试。同时提供了两种使用方式Hugging Face Transformers和Nomic官方API整个过程无需依赖闭源API新手也能轻松上手。有些努力虽然暂时看不见结果却在悄悄改变你。上一篇我们分享了如何在本地电脑搭建基础 RAG 系统支持调用本地或公有云大模型处理各类任务。这一次我们聚焦核心需求“创建专属自己的RAG知识库”让本地文档检索像搜索网页一样高效全程用开源模型 nomic-embed-text 搞定文档向量化新手也能轻松上手。nomic-embed-text 是 Nomic AI 发布的一款 开源文本嵌入模型text embedding model主要用于将自然语言文本转换为高维向量表示。这些向量可以用于搜索、聚类、语义匹配、推荐、知识图谱、LLM 检索增强RAG等任务。一、基本信息模型名称nomic-embed-text开发团队Nomic AI同样开发了 Atlas 可视化平台开源协议Apache 2.0发布平台Hugging Face / GitHub / Nomic 官方 API输入输出输入一段文本可长可短输出一个固定维度的向量embedding如 dim768 或更高二、主要特性开源可商用完全开源可自由部署在本地、云端或私有环境中。无需依赖 OpenAI 或其他闭源 API。高性能表现在多项语义相似度、检索任务上与 OpenAI 的 text-embedding-3-large 相媲美。支持多语言英语表现最佳也支持中文、法语等。长上下文支持支持较长输入文本如几千个 token方便处理文档类场景。优化的 embedding 空间通过对比学习contrastive learning训练使语义相关的句子在向量空间中更接近。三、性能对比(示例)模型维度是否开源平均语义相似度支持语音nomic-embed-text-v1768✅ 是0.82多语言OpenAI text-embedding-3-large3072❌ 否0.84多语言all-MiniLM-L6-v2384✅ 是0.78英语四、典型应用场景****语义搜索基于向量检索文档内容问答系统(RAG)为 LLM 提供上下文支持 聚类/分类分析文本语义相似度 知识图谱节点表示学习推荐系统基于内容的相似度推荐五、相关版本版本发布时间说明nomic-embed-text-v12014年首个主要版本通用文本嵌入模型nomic-embed-multilingual预计中多语言增强版计划支持更多语言六、资源链接HuggingFace模型页 https://huggingface.co/nomic-ai/nomic-embed-text-v1Nomic官网 https://www.nomic.ai/GitHub仓库 https://github.com/nomic-ai七、本地 RAG 知识库搭建步骤下载嵌入模型下载模型 https://ollama.com/library/nomic-embed-text首先我们复制要下载词嵌入模型名称来做RAG的文档向量化在本地命令行中输入ollama pull nomic-embed-text下载成功后会显示 success。创建工作区上传新建工作区命名为 “本地知识库”便于管理上传需要检索的文档支持 Word、PDF、TXT 等格式我上传了 PowerFlex 结合 VMware 的管理安装手册文档向量化 存储AI系统中可以使用不同的模型将文档切片做完向量化不同的切片对应不同的向量表示存储到向量数据库中就可以直接基于语义等相似性做检索了。❗️❗️❗️ 注真正的RAG是一个较复杂的系统后续文章中我们会用一张思维导图单独说明RAG中用的各种技术。下拉对话框选择Save and Embed等待处理完成即可。精准检索测试直接问AI关于PDF中的知识点AI先经过思考之后 检索向量数据库将参考PDF中向量后的内容给出答案。我的问题是VMware ESXi 升级前提条件是什么系统快速返回了核心答案对比官方手册后完全一致召回率满分确实和官方手册的文档一致说明搭建的RAG系统没问题。八、nomic-embed-text 其他使用方式除了搭配RAG系统还能通过两种方式单独使用满足不同开发需求 方式 1通过 Hugging Face Transformersfrom sentence_transformers import SentenceTransformer model SentenceTransformer(nomic-ai/nomic-embed-text-v1) embeddings model.encode([ 人工智能正在改变世界。, AI is transforming the world. ]) print(embeddings.shape) # 输出(2, 768)即2个文本每个生成768维向量方式 2通过 Nomic 官方 APIimport requests response requests.post( https://api-atlas.nomic.ai/v1/embedding/text, json{texts: [Hello world!, 你好世界]} ) print(response.json())如何学习AI大模型 “最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。1.大模型入门学习思维导图要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。对于从来没有接触过AI大模型的同学我们帮你准备了详细的学习成长路线图学习规划。可以说是最科学最系统的学习路线大家跟着这个大的方向学习准没问题。全套教程文末领取哈2.AGI大模型配套视频很多朋友都不喜欢晦涩的文字我也为大家准备了视频教程每个章节都是当前板块的精华浓缩。3.大模型实际应用报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。全套教程文末领取哈4.大模型实战项目项目源码光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战项目来学习。全套教程文末领取哈5.大模型经典学习电子书随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。全套教程文末领取哈6.大模型面试题答案截至目前大模型已经超过200个在大模型纵横的时代不仅大模型技术越来越卷就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道我总结了大模型常考的面试题。全套教程文末领取哈为什么分享这些资料?只要你是真心想学AI大模型我这份资料就可以无偿分享给你学习我国在这方面的相关人才比较紧缺大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击