2026/4/18 14:02:40
网站建设
项目流程
网站建设 免费视频,qq刷赞网站如何做分站,工作作风方面存在的问题及整改措施2023,网页建站需要多少钱本文是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。支撑人工智能的基础设施正在被彻底重建。以下是哪些部分会改变#xff0c;哪些部分不会改变。每年我们都会看到关于 SQL 消亡、Lakehouse 架构崛起#xff0c;…本文是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。支撑人工智能的基础设施正在被彻底重建。以下是哪些部分会改变哪些部分不会改变。每年我们都会看到关于 SQL 消亡、Lakehouse 架构崛起或者某种将颠覆一切的新范式的预测。但大多数预测最终都落空了。但2026年的感觉截然不同。这并非因为炒作而是因为融合。多年来积蓄的力量终于达到了临界点开放表格格式已经成熟人工智能功能已可投入生产而集成50种工具的数据堆栈的成本已变得难以承受。以下是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。预测0基本功依然重要在进入激动人心的部分之前让我们先脚踏实地一些。架构变更仍然会破坏管道。NULL 值仍然会导致报告损坏。周末无人监控时仍然会出现流量异常。据 Gartner 估计数据质量差每年平均给企业造成 1290 万美元的损失。许多研究报告发现数据团队高达 40% 的时间都耗费在数据质量问题上而这些时间本可以用于战略性工作。“可能实现的”和“实际部署的”之间存在巨大差距。大多数团队仍在努力解决基本的容量和新鲜度检查问题。到2026年问题的关键不在于这些问题是否存在它们肯定存在。关键在于你是能在几分钟内还是几天内发现它们以及你是手动修复还是自动修复。这是贯穿接下来所有内容的共同主线。预测一开放式数据可观测胜出但元数据成为战场存储层之争已经结束。Iceberg、Delta Lake 和 Hudi 胜出。Parquet 已成为通用语言。“我的数据存储在哪里”这个问题有了明确的答案。但现在的情况是战争正在向上游转移。谁掌握了元数据层谁就掌握了情报层。元数据层将是下一场战斗的战场。看看发生了什么Snowflake推出了Polaris作为Iceberg的开放目录。Databricks正在推广Unity Catalog将其作为通用治理层。Apache Gravitino孵化中则将自身定位为厂商中立的替代方案。这为什么重要因为目录不再仅仅是一个技术组件它正在成为数据的操作系统。数据沿袭、质量规则、访问策略、业务上下文等等所有这些都存在于元数据层中。如果你的可观测性工具不能原生理解 Iceberg 表演变、时间旅行和分区元数据那么它就已经过时了。这意味着基于开放格式构建的数据可观测性将胜过那些将 Iceberg 视为事后补救措施的工具。原生集成并非一项功能而是基本要求。预测二50种工具的数据堆栈将简化为5个平台我们已经达到了工具疲劳的顶峰。平均而言企业数据团队管理着 15 到 30 种不同的工具。这些工具涵盖数据采集、转换、编排、质量控制、编目、治理、可视化等各个方面每种工具都有自己的供应商、自己的用户界面以及自己的一套思维方式。数据堆栈的整合正在加速进行。集成成本正在扼杀生产力。Fivetran 的研究表明数据工程师 40% 的时间都花在了集成工作上而不是创造价值。这种情况不可持续。2026年整合进程将加速Snowflake整合了更多功能——笔记本、流媒体和机器学习服务。Databricks则在治理和商业智能领域深耕。dbt Labs从一款工具发展成为一个平台拥有语义层和 dbt Cloud。而那些原本各自独立的解决方案要么被收购要么难以保持市场地位。如果你在 2026 年还在构建一个单一的解决方案那么你构建的将是一个收购目标而不是一家公司。最终的赢家将是那些能够通过单一元数据图谱实现从数据摄取到转换、再到服务、最后到可观测性的完整流程的平台。这并非因为捆绑式方案更好而是因为集成过程实在太痛苦了。预测3数据质量将成为一项业务职能而非一项工程任务我问每位数据负责人一个问题“当你的数据管道出现故障时会对收入造成什么影响”大多数人答不上来。他们能告诉我哪个表有空值哪个作业失败了服务水平协议 (SLA) 违约持续了多久。但他们无法将这些信息与首席财务官的仪表盘出错或机器学习模型给出错误建议联系起来。这种情况将在2026年发生改变。数据质量指标从工程指标转向业务成果。服务水平协议 (SLA) 也以业务术语来定义收入风险、受影响的客户、决策延迟。Gartner预测到2026年80%的组织将部署利用人工智能/机器学习功能的数据质量解决方案。但更大的转变在于组织架构首席数据官CDO不仅要负责数据工程团队还要负责与业务成果相关的可靠性。数据合同生产者和消费者之间关于数据模式、新鲜度和质量的正式协议正成为标准做法。这并非因为它们时髦而是因为没有它们就没有问责机制。如果你的质量工具无法回答“这次失败对收入的影响是什么”那么它就无法解决实际问题。在 Sifflet这是我们思考可观测性的核心。将技术异常与业务背景联系起来并非锦上添花而是关键所在。预测 4人工智能代理将取代仪表盘进行数据操作这是我最确信的预测。二十年来数据可观测性一直意味着仪表盘。一旦出现故障你会收到警报打开用户界面然后手动调查。也许一个小时就能找到根本原因也许要花上一整夜。这种模式已经失效了。从被动式仪表盘向自主代理的转变。2026年人工智能代理将承担运营重任能够理解业务上下文而非仅仅关注技术指标的检测能够自动追溯溯源、关联跨系统信号的调查能够应用修复方案、验证结果并从每次事件中吸取经验教训的解决机制。凌晨两点的作战室变成了一条 Slack 通知“收入渠道中检测到问题。根本原因CRM 同步中的上游架构更改。已应用修复。验证通过。”检测功能已经商品化。任何工具都能告诉你哪里出了问题。推理和行动才是新的护城河。这并非是在现有工具中添加聊天机器人而是要从根本上重新思考当人工智能能够承担调查工作时可观测性究竟意味着什么。预测5人工智能重塑数据基础设施格局对于业内一些人来说这是一个令人不舒服的事实数据栈最初是为了服务于仪表盘而构建的而不是为了服务于人工智能。但如今人工智能已成为许多组织的主要数据使用者。特征存储、嵌入管道、RAG架构、数据集微调这些都与我们之前优化的商业智能工作负载有着不同的需求。人工智能模型对错误数据的容忍度比人类解读数据面板时要低得多。人类可以识别异常值并忽略它但模型却会利用这些异常值进行训练。到 2026 年我们预计会出现两种类型的公司AI原生架构从零开始重建的基础设施专为服务AI工作负载而设计。写入时而非读取时进行质量验证。元数据内置丰富的语义信息。血缘关系不仅跟踪表还跟踪特征和嵌入。AI附加式传统数据堆栈AI功能只是事后添加的。仪表盘上的聊天机器人。能够生成SQL语句但无法理解业务上下文的辅助驾驶系统。到2026年所有数据工具都将具备人工智能层。但大多数工具将只是封装层而非原生层。这其中的区别至关重要。最终胜出的公司并非在现有产品中添加人工智能而是从零开始重新构建产品以适应人工智能。预测6语义层终于迎来了它的时刻多年来语义层一直被视为锦上添花的功能。一些技术精湛的团队会实施它但大多数团队却会忽略它。人工智能改变了计算方式。问题在于当你要求LLM生成“按地区划分的收入”查询时它需要知道“收入”在你组织中的具体含义。是总额还是净额是否包含退款哪些表包含规范定义如果没有语义层文本到 SQL 的转换就只是猜测。dbt 的语义层、Cube 和 AtScale 等解决方案解决了困扰分析团队数十年的“不同仪表盘显示不同数据”的问题。但对于人工智能应用场景而言这些解决方案已成为必不可少的工具而非可有可无的选择。语义层是业务逻辑以代码形式存在的地方而非经验知识的载体。人工智能代理需要这种上下文才能发挥作用。数据质量工具也需要它来验证哪些内容真正重要而不仅仅是哪些内容存在。语义层成为技术数据和业务意义之间的桥梁。没有它人工智能就无法跨越这座桥梁。共同点如果说这七项预测有一个共同的主题那就是数据基础设施正在从被动式向主动式转变。被动存储、转换、可视化等待人类发现问题。主动理解、推理、行动从每一次互动中学习。最终胜出的平台将是那些将智能技术融入到每一层架构中的平台而不是事后才添加智能技术的平台。这意味着• 能够理解业务上下文的元数据而不仅仅是技术模式• 质量要与收入影响挂钩而不仅仅是行数• 可观测性能够调查并解决问题而不仅仅是发出警报• 基础设施是为人工智能工作负载而构建的而非改造而来基本原理依然重要。架构变更仍然会导致问题。但如何检测、调查和解决这些问题才是制胜的关键。