石岛网站开发郑州管城建设网站-黔南布依族苗族自治州网站建设公司-Seo优化

石岛网站开发郑州管城建设网站

2026/6/20 3:18:50 网站建设项目流程

石岛网站开发,郑州管城建设网站,网页添加兼容性站点,江西省网站建设在处理海量数据时#xff0c;单条插入Elasticsearch#xff08;ES#xff09;就像用勺子舀水灌入大海#xff0c;效率极低。批量写入#xff08;Bulk API#xff09;才是我们需要的“消防水管”。最近在做数据迁移#xff0c;需要将现有数据从ES6.7同步到ES8.13.4…在处理海量数据时单条插入ElasticsearchES就像用勺子舀水灌入大海效率极低。批量写入Bulk API才是我们需要的“消防水管”。最近在做数据迁移需要将现有数据从ES6.7同步到ES8.13.4并将分词器从Jieba切换到IK。在这个过程中踩了一些关于版本兼容性的坑。今天就来分享一下ES8下如何高效进行批量写入以及新版Python客户端的代码适配技巧。一、为什么必须用批量写入简单算笔账单条写入每次写入都需要建立TCP连接 - 认证 - 解析请求 - 写入磁盘 - 返回响应。假设耗时10ms写入10万条数据需要1000秒约16分钟。批量写入将多条数据打包成一个请求减少了网络IO和握手开销。同样的数据可能只需10-30秒。性能提升不仅是倍数级的还能显著降低ES集群的CPU压力。二、 ES8.x 的重大变化告别_type如果你也是从ES6.7升级上来的最大的痛点在于Mapping Types 被彻底移除了。特性ES 6.7 及之前ES 7.x / 8.xURL结构/index/type/_doc/id/index/_doc/idMapping支持多种Type (如user,blog)整个索引只有一种隐含Type (_doc)Bulk Action需指定_type禁止指定_type这意味着旧代码里的_type: doc_type必须彻底删除否则ES8会直接报错MapperParsingException。三、实战代码适配ES8 IK分词批量写入下面是一套完整的生产级代码示例包含索引创建IK分词版和批量写入工具类。1. 索引创建切换为 IK 分词我们要创建一个支持IK分词、同义词和停用词的索引。注意settings和mappings的结构变化。fromelasticsearchimportElasticsearch# 连接ES8esElasticsearch(hosts[https://your-es-host:9200],basic_auth(user,password),verify_certsFalse# 如果是自签名证书)index_namemy_blog_index# 删除旧索引如果存在ifes.indices.exists(indexindex_name):es.indices.delete(indexindex_name)# 定义IK分词配置body{settings:{analysis:{filter:{ik_stop_filter:{type:stop,stopwords_path:analysis/ik/stopwords.txt# 需上传到ESconfig目录},ik_synonym_filter:{type:synonym,synonyms_path:analysis/ik/synonyms.txt# 需上传到ESconfig目录}},analyzer:{ik_index_analyzer:{tokenizer:ik_max_word,filter:[ik_stop_filter,ik_synonym_filter,lowercase]},ik_search_analyzer:{tokenizer:ik_smart,filter:[ik_stop_filter,ik_synonym_filter,lowercase]}}}},mappings:{properties:{# 注意这里直接是 properties没有 doc_typetitle:{type:text,analyzer:ik_index_analyzer,search_analyzer:ik_search_analyzer},content:{type:text,analyzer:ik_index_analyzer,search_analyzer:ik_search_analyzer},blog_id:{type:keyword}# ... 其他字段}}}es.indices.create(indexindex_name,bodybody)2. 批量写入工具类重点这是核心部分。我们封装一个类自动处理ID生成和错误重试。fromelasticsearchimporthelpersfromelasticsearch.exceptionsimportBulkIndexErrorclassESBulkWriter:def__init__(self,es_client):self.eses_clientdefbulk_insert(self,index_name,data_list,id_fieldNone): ES8 兼容的批量写入方法 :param index_name: 索引名 :param data_list: 数据列表 [{}, {}, ...] :param id_field: 指定作为文档ID的字段名如 blog_id若为None则由ES自动生成 actions[]fordataindata_list:# 1. 构建基础Actionaction{_index:index_name,_source:data# _type: _doc -- ES8 Python客户端会自动处理无需显式写出}# 2. 处理ID如果指定了id_field且数据中存在该字段则使用它作为文档IDifid_fieldandid_fieldindata:action[_id]str(data[id_field])# ES8建议ID转为字符串actions.append(action)# 3. 执行批量写入带基础错误统计try:success_count,failed_counthelpers.bulk(self.es,actions,stats_onlyTrue,# 只返回统计信息不抛异常raise_on_errorFalse,# 遇到错误继续执行request_timeout60)print(f写入完成: 成功{success_count}条, 失败{failed_count}条)# 如果需要详细错误信息可以设置 raise_on_errorTrue 或遍历失败项exceptBulkIndexErrorase:print(f批量写入发生严重错误:{e})# 这里可以添加逻辑记录失败的actions到日志文件以便重试exceptExceptionase:print(f发生未知异常:{e})# 使用示例writerESBulkWriter(es)my_data[{blog_id:1001,title:Elasticsearch 8.0 发布,content:...},{blog_id:1002,title:IK分词器使用指南,content:...}]# 使用 blog_id 作为文档ID避免重复writer.bulk_insert(my_blog_index,my_data,id_fieldblog_id)四、进阶技巧提升写入稳定性如果数据量达到百万级上面的基础版可能还不够。建议增加以下机制分块批量Chunking不要一次性把100万条数据丢进内存。每1000-5000条切分为一个Chunk进行写入。重试机制遇到ES集群繁忙如429 Too Many Requests或队列满时使用指数退避算法进行重试。刷新间隔在大量导入期间临时将index.refresh_interval设置为-1禁止刷新或30s导入完成后再改回5s能大幅减少段合并的压力。总结从ES6迁移到ES8批量写入的代码修改主要就是**“做减法”**减掉_type字段。减掉复杂的异常捕获helpers.bulk已经很强大。加上对id_field的灵活处理。掌握了这套模板无论是做数据迁移还是日常业务开发都能让你的数据写入效率飞起来如果觉得有帮助欢迎点赞收藏关于IK分词的配置文件细节我会在下一篇文章详细讲解。

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

太仓市建设招标网站淮阳住房和城乡建设局网站

微信wap网站用u盘做网站

建设网站费用多少钱自己制作网址收款

宁波网站优化方法东营网站建设方案

vs2010做网站前台c做项目的网站

电商网站的成本宣传片制作企业

文章分类

标签云

相关文章

怎么在阿里做网站sem账户托管

网站做镜像新闻报道最近

公司网站开发实例wordpress文章和博客的区别

需要专业的网站建设服务？