标签

MaxCompute大数据与AI融合平台的技术演进与实践应用

发布时间:2026-05-18 13:13来源:微信阅读:6

导语随着人工智能技术的飞速发展,数据规模与处理复杂度的爆发式增长,传统数据仓库正面临前所未有的严峻考验。如何构建一个能够统一管理多模态数据、高效支撑AI全流程开发的计算平台,成为业界关注的焦点问题。在本次分享中,阿里云智能集团产品专家刘洋,深入解读了MaxCompute在Data+AI方向的核心演进与产品能力,涵盖多模态数据存储管理、基于Python的分布式计算框架MaxFrame、SQL AI函数,以及在模型训练、汽车自动驾驶、具身智能等典型场景下的实践案例,全面展示了MaxCompute作为云原生数据仓库,如何通过技术与产品的深度融合,加速AI数据资产的构建与应用落地。

1.MaxCompute Data + AI核心能力概览

2.MaxCompute存储管理 For AI

3.MaxCompute计算引擎 For AI

4.MaxCompute Data + AI典型场景及案例

分享嘉宾|刘洋 阿里云智能集团产品专家

出品社区|DataFun

01

MaxCompute作为阿里云核心的大数据计算平台,在AI时代正围绕计算与存储两大方向进行重点演进。其技术架构自底向上可分为数据层、模型层、计算层与引擎层。

在数据层,MaxCompute不仅管理自身存储的结构化与非结构化数据,还通过BLOB字段类型支持音频、视频等多模态数据的统一存储。同时,通过Object Table、外部存储访问等能力,打通了与OSS、Hologres等存储引擎的连接。

在模型层,MaxCompute托管了包括XGBoost、LightGBM在内的传统机器学习模型,以及千问、DeepSeek等开源大模型,并支持调用百炼平台的商业化旗舰模型,实现模型服务的统一管理。

在计算层,MaxCompute提供CPU与GPU的混合算力调度,用户可通过声明式的方式灵活指定所需资源,以应对多模态数据处理对异构算力的强烈需求。

在引擎层,MaxCompute面向不同用户群体提供了两种核心计算接口:一是SQL引擎,通过SQL AI函数直接调用大模型进行离线推理;二是MaxFrame,一套原生Python接口的分布式计算框架,满足数据科学家与AI工程师对灵活性与复杂度的要求。

MaxCompute在存储方面经历了从数据联邦、湖仓一体到面向AI的多模态数据管理的演进。当前,其核心能力聚焦于多模态数据的统一存储与管理。

MaxCompute提供了一套完整的"湖仓多模态数据统一管理"架构。该架构支持在MaxCompute内表(通过BLOB类型)和外部存储(如OSS)中统一存放图片、视频、音频等多种格式的数据。通过统一的元数据服务(Max Meta)与Storage API,用户可以在不移动数据的情况下,实现跨存储引擎的元数据管理与数据访问。

MaxCompute支持单表多模态数据的一行多列混存。例如,可以将音视频图文数据与其对应的元数据、Prompt统一存储在同一个表中,数据类型包括BLOB、JSON等。这种设计极大地简化了AI推理和多模态AIGC应用的数据组织与管理复杂度。

MaxCompute的计算引擎能力,紧密围绕模型管理、AI Function和异构计算展开。

在MaxCompute中,用户可以通过模型管理能力,统一查看和管理平台上的各类模型,并支持自行上传自定义模型。

MaxFrame具备三大核心优势:

异构算力混合调度:支持在同一个作业中混合使用CPU(CU)与GPU(GU)资源,用户可通过编程接口灵活指定。

分布式数据处理算子:兼容Pandas、XGBoost、LightGBM等开源算法库,作业自动分布式执行,不受本地资源限制。

稳定便捷的开发体验:与DataWorks深度集成,提供交互式开发与调度能力;支持自定义镜像,简化环境配置;支持OSS挂载与AI助手,提升开发效率。

MaxFrame的主要应用场景包括多模态数据处理(如汽车自动驾驶中的视频切帧、图片打标)和大模型离线推理(如文本翻译、数据打标、Embedding)。

本地开发环境:支持在VS Code、Jupyter Notebook中通过pip install maxframe直接安装使用。

DataWorks Notebook:深度集成,支持通过Magic Command快速启停MaxFrame Session。

DataWorks数据开发:通过PyODPS3节点进行MaxFrame作业开发。

MaxCompute Notebook:内置MaxFrame SDK,支持交互式开发。

MaxCompute Data + AI能力已在多个行业落地,涵盖大模型、汽车自动驾驶、金融科技等方向。

某头部大模型公司,在构建企业级数据处理工作流时,面临PB级数据存储、10万核以上资源弹性、数据安全与权限管理、Pipeline任务编排等核心需求。基于MaxFrame,该公司实现了完整的数据预处理Pipeline,其中MinHash算子性能提升50%以上,单次任务稳定运行300万核时,弹性资源达到16万核,远超要求的10万核,将PB级数据处理周期大幅缩短。

整个技术架构基于MaxCompute + DataWorks构建。任务开发在DataWorks Notebook中完成,通过Pipeline编排后自动调度至MaxCompute。MaxCompute提供弹性资源调度与分布式处理能力,处理后的数据统一存储在MaxCompute内表,下游通过DataWorks数据地图进行查询与分发。

在汽车具身智能场景中,车端持续产生海量多模态数据(图片、音视频、雷达、GPS等),通常以ROS bag文件存储。某客户面临开发环境配置复杂、计算资源调度不灵活、海量数据处理性能压力大、任务及数据管理复杂度高等痛点。

基于MaxFrame,客户实现了端到端的具身智能数据处理工作流。MaxFrame提供的弹性计算资源能力,有效应对了业务波峰波谷;其分布式处理能力,相比传统单机方式,数据处理效率提升了40%以上。

MaxCompute通过Object Table实现了对多模态数据的统一管理,支持直接检索文件路径、大小、更新时间等信息。MaxFrame内置了MinHash等常用算子,并支持用户通过自定义镜像(如yolo11n)管理模型与依赖。同时,MaxFrame支持用户灵活设置并发度,大幅提升了作业处理效率。

某头部大模型公司:面临海量文本数据预处理挑战,初始采用本地化自建方案但存在资源管理、代码开发及性能优化痛点。MaxCompute通过MaxFrame分布式处理实现FastText语言分类、MinHash去重等操作,整个流程在DataWorks中调度并构建标准CI/CD流程,支持与云下代码仓库集成。

汽车自动驾驶与具身智能:数据采集不固定,