MaxCompute:大数据平台迈向 AI 时代的演进之路
随着人工智能技术的突飞猛进,数据体量的膨胀与处理难度的激增,让传统数据仓库陷入了困境。当下,如何打造一个既能统一管控多模态数据,又能高效赋能 AI 全生命周期开发的计算平台,已成为行业焦点。本次分享里,阿里云智能集团产品专家刘洋,详细剖析了 MaxCompute 在 Data + AI 领域的核心升级与功能亮点,包括多模态数据存储、基于 Python 的分布式框架 MaxFrame、SQL AI 函数,以及模型训练、自动驾驶、具身智能等场景的实战经验。全方位展示了 MaxCompute 作为云原生数据仓库,如何通过技术融合,加速 AI 数据资产的开发与应用。
1.MaxCompute Data + AI 核心能力
2.MaxCompute 存储 For AI
3.MaxCompute 计算 For AI
4.MaxCompute Data + AI 场景与案例
分享嘉宾|刘洋 阿里云智能集团产品专家
出品社区|DataFun
01
作为阿里云核心的大数据计算平台,MaxCompute 在 AI 时代正围绕计算与存储两大维度加速演进。其技术架构自下而上划分为数据层、模型层、计算层和引擎层。
在数据层,MaxCompute 不仅管理自身存储的结构化及非结构化数据,还利用 BLOB 字段类型实现对音频、视频等多模态数据的统一管理。此外,借助 Object Table 和外部存储访问等功能,成功打通了与 OSS、Hologres 等存储引擎的连接。
在模型层,MaxCompute 托管了 XGBoost、LightGBM 等传统机器学习模型,以及千问、DeepSeek 等开源大模型,并支持调用百炼平台的商业旗舰模型,从而实现模型服务的统一管控。
在计算层,MaxCompute 提供了 CPU 与 GPU 的混合算力调度,用户能够通过声明式方式灵活指定所需资源,以满足多模态数据处理对异构算力的需求。
在引擎层,MaxCompute 面向不同用户提供了两种核心计算接口:一是 SQL 引擎,通过 SQL AI 函数直接调用大模型进行离线推理;二是 MaxFrame,一种原生 Python 接口的分布式计算框架,满足数据科学家和 AI 工程师对灵活性和复杂度的需求。
MaxCompute 在存储方面经历了从数据联邦、湖仓一体到面向 AI 的多模态数据管理的演变。当前,其核心能力聚焦于多模态数据的统一存储与管理。
MaxCompute 提供了一套完整的“湖仓多模态数据统一管理”架构。该架构支持在 MaxCompute 内表(通过 BLOB 类型)和外部存储(如 OSS)中统一存储图片、视频、音频等多种格式数据。通过统一的元数据服务(Max Meta)和 Storage API,用户无需移动数据即可实现跨存储引擎的元数据管理与数据访问。
MaxCompute 支持单表多模态数据的一行多列混合存储。例如,可以将音视频图文数据及其元数据、Prompt 统一存储在一张表中,数据类型包括 BLOB、JSON 等。这种设计极大地简化了 AI 推理和多模态 AIGC 应用的数据组织和管理工作。
MaxCompute 的计算引擎能力紧密围绕模型管理、AI Function 和异构计算展开。
在 MaxCompute 中,用户可以通过模型管理能力统一查看和管理平台上的各类模型,并支持上传自定义模型。
MaxFrame 拥有三大核心优势:
异构算力混合调度:支持在同一个作业中混合使用 CPU(CU)和 GPU(GU)资源,用户可通过编程接口灵活指定。
分布式数据处理算子:兼容 Pandas、XGBoost、LightGBM 等开源算法库,作业自动分布式执行,不受本地资源限制。
稳定便捷的开发体验:与 DataWorks 深度集成,提供交互式开发和调度功能;支持自定义镜像,简化环境配置;支持 OSS 挂载和 AI 助手,提高开发效率。
MaxFrame 的主要应用场景包括多模态数据处理(如汽车自动驾驶中的视频切帧、图片打标)和大模型离线推理(如文本翻译、数据打标、Embedding)。
本地开发环境:支持在 VS Code、Jupyter Notebook 中通过 pip install maxframe 直接安装使用。
DataWorks Notebook:深度集成,支持通过 Magic Command 快速启动和停止 MaxFrame Session。
DataWorks 数据开发:通过 PyODPS3 节点进行 MaxFrame 作业开发。
MaxCompute Notebook:内置 MaxFrame SDK,支持交互式开发。
MaxCompute Data + AI 能力已在多个行业落地,涵盖大模型、汽车自动驾驶、金融科技等领域。
某头部大模型公司在构建企业级数据处理工作流时,面临 PB 级数据存储、10 万核以上资源弹性、数据安全与权限管理、Pipeline 任务编排等核心需求。基于 MaxFrame,该公司实现了完整的数据预处理 Pipeline,其中 MinHash 算子性能提升了 50% 以上,单次任务稳定运行 300 万核时,弹性资源达到 16 万核,远超要求的 10 万核,将 PB 级数据处理周期大幅缩短。
整个技术架构基于 MaxCompute + DataWorks 构建。任务开发在 DataWorks Notebook 中完成,通过 Pipeline 编排后自动调度至 MaxCompute。MaxCompute 提供弹性资源调度和分布式处理能力,处理后的数据统一存储在 MaxCompute 内表,下游通过 DataWorks 数据地图进行查询和分发。
在汽车具身智能场景中,车端持续产生海量多模态数据(图片、音视频、雷达、GPS 等),通常以 ROS bag 文件存储。某客户面临开发环境配置复杂、计算资源调度不灵活、海量数据处理性能压力大、任务及数据管理复杂度高等问题。
基于 MaxFrame,客户实现了端到端的具身智能数据处理工作流。MaxFrame 提供的弹性计算资源能力有效应对了业务波峰波谷;其分布式处理能力相比传统单机方式,数据处理效率提升了 40% 以上。
MaxCompute 通过 Object Table 实现了对多模态数据的统一管理,支持直接检索文件路径、大小、更新时间等信息。MaxFrame 内置了 MinHash 等常用算子,并支持用户通过自定义镜像(如 yolo11n)管理模型和依赖。同时,MaxFrame 支持用户灵活设置并发度,大幅提升了作业处理效率。
某头部大模型公司:面临海量文本数据预处理挑战,初始采用本地化自建方案但存在资源管理、代码开发及性能优化痛点。MaxCompute 通过 MaxFrame 分布式处理实现 FastText 语言分类、MinHash 去重等操作,整个流程在 DataWorks 中调度并构建标准 CI/CD 流程,支持与云下代码仓库集成。
汽车自动驾驶与具身智能:数据采集不固定,