AI 重塑云原生数据库:TDSQL-C 的 Serverless 智能弹性演进
导读腾讯云数据库 TDSQL-C 凭借 Serverless 架构与 AI 技术的双引擎驱动,有效解决了传统数据库在弹性伸缩、性能调优、成本控制及运维复杂度等方面的难题。本文深入解析其存算分离架构、预测式弹性机制、零抖动扩缩容技术,以及依托腾讯混元大模型打造的 AI 优化器与 Hermes Agent 智能运维体系。
1. 云原生数据库的智能化转型
2.Serverless 智能弹性伸缩
3.AI 自学习查询优化器
4.AI Navigator 智能数据库治理
5. 互动问答环节
分享嘉宾|陈昊 腾讯云数据库高级产品经理
内容校对|韩珊珊
出品社区|DataFun
01
云原生数据库的智能化转型
IDC 研究报告指出,预计至 2029 年中国数据库市场规模将触及 186 亿元,年复合增长率达 20.1%。66% 的企业正借助 AI 技术重构数据基座,然而 85% 的线上故障源于 SQL 问题,工单平均处理耗时 4.5 小时,SQL 调优占据了 50% 的人力成本。
传统数据库主要面临四大核心挑战。首先是弹性不足,电商大促期间流量可能瞬间激增 10 倍,扩容周期却需数小时。陈昊指出:"在 AI 时代,产品何时爆发难以预料。若待流量洪峰来袭后再扩容,往往为时已晚,无法抵御冲击。"其次是调优难度大,SaaS 业务可能涉及 21 万张表及 29 表关联,人工优化效率低下。第三是成本浪费,将所有数据存放于数据库导致高昂成本。最后是运维复杂度日益攀升。
TDSQL-C 提出两大破局策略:Serverless 化,实现数据库自动弹性伸缩;AI 驱动,将人力从运维释放至业务模型构建。产品定位明确:以 Serverless 架构为基石,AI 技术为动力,全面重构数据库的弹性能力、查询效率及管理体验。
传统数据库采用存算一体架构,一旦磁盘空间不足需扩容时,即便计算资源仅利用 20%,也必须整体扩容,造成资源闲置。传统云数据库主从同步依赖 Binlog,跨地域传输延迟显著。
TDSQL-C 基于存算分离架构,计算资源完全池化,存储采用三副本线性扩展机制。存储不足时仅扩存储,计算不足时仅扩计算。更为关键的是,TDSQL-C 摒弃 Binlog,全面采用物理日志 Redolog 进行同步,大幅提升复制效率,实现极低的主从延迟,支持秒级横向扩展。支持自动启停,无使用不收费,真正践行按量付费模式。
02
Serverless 智能弹性伸缩
1. 全链路 Serverless 架构:亚秒级弹性、极致成本优化
TDSQL-C 采用一主多从架构,顶层为 Proxy 层负责动态流量分发。整体架构具备两大核心弹性能力:垂直弹性基于数十种监控指标,在同机环境下实现亚秒级伸缩;横向弹性则支持秒级节点扩展。
计费模式采用 CCU(取 CPU 核数与内存大小一半中的较大值),支持秒级监控采样与秒级负载数据推送,实现精细化按量计费。
2. 预测式弹性:更契合业务需求的高精度伸缩
传统弹性多为事后响应,通常在 CPU 使用率达 80%、内存使用率达 90% 时才触发扩容,难以应对突发流量场景。TDSQL-C 引入 AI 技术实现预测式弹性,涵盖四个阶段。
事前决策分析:利用 80% 的历史监控负载数据作为训练集,20% 作为测试集,采用 DNN 算法进行预测,均方误差小于 5 即纳入预测队列。复合特征提取:抽取近 20 种特征构建分析向量。用户场景深度拟合:通过大模型对话方式提供外置增强插件,例如提前获知明日有重大节日或赛事,从而提前扩容。多模态对齐捕捉:通过权重控制时序预测模型集(如 LSTM、Transformer、Linear、DNN、ARIMA 等),预测准确率超 80%。
3. 实时弹性的稳定性保障
TDSQL-C 通过两项技术优化确保稳定性。
Proxy 防闪断能力:扩缩容涉及跨机操作时,Proxy 层负责流量兜底,底层节点切换期间所有流量由 Proxy Hold 住,针对不同语句实施续传,跨机扩容时链接保持率超 95%。
内核层面优化:缩容过程涉及内存 Buffer Pool 机制,传统 MySQL 方案需两次获取 Mutex 锁,TDSQL-C 改为频繁多次小锁,按地址遍历待回收 block。同时解决 IO 瓶颈(redo 存储层异步生成 Page,直接丢弃脏页)和全局锁瓶颈(异步延迟释放 chunks 并提前预分配 chunks),实现弹性过程零抖动,查询耗时控制在 100 毫秒以内。
4. 可释放存储:触发式冷数据压缩与访问
TDSQL-C 研发了可释放存储技术,将数据归档至二级存储(对象存储),释放一级存储资源。写请求通过 redo 日志持久化,读请求以 Page 形式加载。写延迟与命中读延迟在百微秒级别,非命中读延迟为百毫秒级别,导入速度平均超 5GB/s。
trigger 流程设计:"并非一次性拉取所有配置页,而是依据用户请求,优先拉取所需配置页。"采用异步机制,根据实际访问需求优先加载所需 Page。
5. 实战案例
某体育直播平台面临热点赛事突发性高的挑战。TDSQL-C Serverless 解决方案:AI 预测式弹性提前 30 分钟逐步扩容,波峰到来时容量可承载实际业务超 20%。开启 AI 自学习优化器后,平均性能提升超 30%,资源消耗占比降低 20%。
某证券平台面临周期性流量波动,TDSQL-C 采用一写八读架构,借助 Proxy 防闪断能力保障平滑变更。垂直弹性时,对 Buffer Pool 锁状态进行颗粒化 resize,过程无抖动,查询耗时小于 100ms,跨机扩容时链接不断,业务零受损。
03
AI 自学习查询优化器
在 POC 或投产验证阶段,性能 SQL 调优的人力投入占比高达 47%,成为规模化复制的瓶颈。线上工单分析显示,性能类问题平均处理时长为 4.5 小时/单,占总时长的 12.5%。
传统优化器面临三大局限:搜索空间爆炸(10 张表连接顺序约 360 万种);业务与系统资源动态变化,难以达到全局最优解;优化器模型需长期积累,Oracle 投入 40 年,代码量达百万级。
传统优化器存在四大根本缺陷:错误计划不感知、基数估计不准、代价模型不准、搜索空间不完备。TDSQL-C 的解决方案是基于 AI 的自学习优化器,从局部最优迈向全局最优。引入最优计划对比模型,通过执行时延反馈机制赋予学习与反思能力。训练领域大模型作为专家系统,依据经验生成候选计划。
技术架构涵盖负载收集、全计划空间训练、指令微调及强化学习微调(SFT/RL),生成腾讯混元优化器大模型。数据库内核依据训练结果直接选取最优执行计划,实例 1 训练出的全局最优计划可供实例 2 至实例 N 复用,实现性能规模化自治。
陈昊透露,该技术融合了腾讯内部微信、支付等业务的优化经验训练大模型。效果显著:线上 SQL 总耗时降低 52.8%,TPC-DS 测试中总时延降低 46%。已灰度覆盖 2000+ 实例,上线实例总数超 3000+。针对拥有 40TB+ 数据、21 万张表、10 万 + 慢 SQL 的 SaaS 业务,跑批时间从 6 小时以上缩短至 3.5 小时,效率提升 42%。
04
AI Navigator 智能数据库治理
AI Navigator 基于 Hermes Agent,推动数据库从"被动存数"向"主动赋能运营"转变。
六大技术特性:三层持久记忆(短期上下文、跨会话长期记忆、技能记忆库,利用 FTS5 全文检索);闭环自主学习(自动提炼经验,自动生成可复用操作技能);7×24 小时后台运行(Daemon 模式,实时感知异常,秒级预警);本地数据主权(本地 SQLite 存储,五级权限管控);20+ 模型支持(集成腾讯云 TokenHub);多平台消息网关(企业微信、微信等 IM 平台)。
四大应用场景:业务指标实时洞察(自动识别业务表,将 T+1 延迟报表转化为实时业务看板);智能用户分层与精准运营(自动输出高价值/流失风险/加购未付人群包,转化率提升 30% 以上);实时业务风控(毫秒级主动防御,拦截高频刷单、跨区异常登录);AI 内核双向增强(结合 AI 优化器消除慢查询,SQL 耗时降低 50% 以上)。
05
互动问答环节
Q1:AI 对 SQL 优化的具体策略是什么?是否包含预定义的知识和技能,以及动态调整?
陈昊:我们通过三个层面进行优化。第一是内置的 AI 优化器,在内核层改变执行计划,例如算子选择 Hash 或其他策略,优化复杂查询。第二是提供相关 skill,将数据库参数调优经验(如 buffer pool)封装成专属 skill,内置到 Hermes Agent。同时利用大模型进行业务 SQL 改写和联网搜索。我们结合了大模型、专属 Skill 和内核能力,构建完整的 SQL 优化体系。
Q2:AI 时代到来后,数据库的使用场景发生了哪些变化?
陈昊:变化巨大。国外 PG(PostgreSQL)用量已与 MySQL 持平,因为 PG 拥有众多插件化能力,对多模态支持良好。AI 处理的数据类型多样,包括图片、时序、向量等,AI 开发者希望后端能统一,支撑所有 AI 产品需求。例如构建 RAG(检索增强生成)底座,希望原生底座即可实现,无需迁移至专门的向量数据库。更重要的是角色转变,以前服务对象是 DBA 或业务人员,现在对象变成了 AI,需让 AI 更好地理解与调用数据库,并解决上下文长度和持有期等问题。
📢活动预告
5 月 29 日,腾讯云「数据库+AI」发布会将首次完整披露从"AI-In-Database"原生融合,到全面支撑 Agent 的演进路径与核心能力。
诚邀您见证"AI 原生重构数据库"的行业变革,共建下一代智能体应用的数据根基。
👇 扫码即刻报名!席位有限,先到先得!