MaxCompute大数据与AI融合平台的技术演进与实践应用

发布时间：2026-05-18 13:13阅读：20

导语随着人工智能技术的飞速发展，数据规模与处理复杂度的爆发式增长，传统数据仓库正面临前所未有的严峻考验。如何构建一个能够统一管理多模态数据、高效支撑AI全流程开发的计算平台，成为业界关注的焦点问题。在本次分享中，阿里云智能集团产品专家刘洋，深入解读了MaxCompute在Data+AI方向的核心演进与产品能力，涵盖多模态数据存储管理、基于Python的分布式计算框架MaxFrame、SQL AI函数，以及在模型训练、汽车自动驾驶、具身智能等典型场景下的实践案例，全面展示了MaxCompute作为云原生数据仓库，如何通过技术与产品的深度融合，加速AI数据资产的构建与应用落地。

1.MaxCompute Data + AI核心能力概览

2.MaxCompute存储管理 For AI

3.MaxCompute计算引擎 For AI

4.MaxCompute Data + AI典型场景及案例

分享嘉宾｜刘洋阿里云智能集团产品专家

出品社区｜DataFun

MaxCompute作为阿里云核心的大数据计算平台，在AI时代正围绕计算与存储两大方向进行重点演进。其技术架构自底向上可分为数据层、模型层、计算层与引擎层。

在数据层，MaxCompute不仅管理自身存储的结构化与非结构化数据，还通过BLOB字段类型支持音频、视频等多模态数据的统一存储。同时，通过Object Table、外部存储访问等能力，打通了与OSS、Hologres等存储引擎的连接。

在模型层，MaxCompute托管了包括XGBoost、LightGBM在内的传统机器学习模型，以及千问、DeepSeek等开源大模型，并支持调用百炼平台的商业化旗舰模型，实现模型服务的统一管理。

在计算层，MaxCompute提供CPU与GPU的混合算力调度，用户可通过声明式的方式灵活指定所需资源，以应对多模态数据处理对异构算力的强烈需求。

在引擎层，MaxCompute面向不同用户群体提供了两种核心计算接口：一是SQL引擎，通过SQL AI函数直接调用大模型进行离线推理；二是MaxFrame，一套原生Python接口的分布式计算框架，满足数据科学家与AI工程师对灵活性与复杂度的要求。

MaxCompute在存储方面经历了从数据联邦、湖仓一体到面向AI的多模态数据管理的演进。当前，其核心能力聚焦于多模态数据的统一存储与管理。

MaxCompute提供了一套完整的"湖仓多模态数据统一管理"架构。该架构支持在MaxCompute内表（通过BLOB类型）和外部存储（如OSS）中统一存放图片、视频、音频等多种格式的数据。通过统一的元数据服务（Max Meta）与Storage API，用户可以在不移动数据的情况下，实现跨存储引擎的元数据管理与数据访问。

MaxCompute支持单表多模态数据的一行多列混存。例如，可以将音视频图文数据与其对应的元数据、Prompt统一存储在同一个表中，数据类型包括BLOB、JSON等。这种设计极大地简化了AI推理和多模态AIGC应用的数据组织与管理复杂度。

MaxCompute的计算引擎能力，紧密围绕模型管理、AI Function和异构计算展开。

在MaxCompute中，用户可以通过模型管理能力，统一查看和管理平台上的各类模型，并支持自行上传自定义模型。

MaxFrame具备三大核心优势：

异构算力混合调度：支持在同一个作业中混合使用CPU（CU）与GPU（GU）资源，用户可通过编程接口灵活指定。

分布式数据处理算子：兼容Pandas、XGBoost、LightGBM等开源算法库，作业自动分布式执行，不受本地资源限制。

稳定便捷的开发体验：与DataWorks深度集成，提供交互式开发与调度能力；支持自定义镜像，简化环境配置；支持OSS挂载与AI助手，提升开发效率。

MaxFrame的主要应用场景包括多模态数据处理（如汽车自动驾驶中的视频切帧、图片打标）和大模型离线推理（如文本翻译、数据打标、Embedding）。

本地开发环境：支持在VS Code、Jupyter Notebook中通过pip install maxframe直接安装使用。

DataWorks Notebook：深度集成，支持通过Magic Command快速启停MaxFrame Session。

DataWorks数据开发：通过PyODPS3节点进行MaxFrame作业开发。

MaxCompute Notebook：内置MaxFrame SDK，支持交互式开发。

MaxCompute Data + AI能力已在多个行业落地，涵盖大模型、汽车自动驾驶、金融科技等方向。

某头部大模型公司，在构建企业级数据处理工作流时，面临PB级数据存储、10万核以上资源弹性、数据安全与权限管理、Pipeline任务编排等核心需求。基于MaxFrame，该公司实现了完整的数据预处理Pipeline，其中MinHash算子性能提升50%以上，单次任务稳定运行300万核时，弹性资源达到16万核，远超要求的10万核，将PB级数据处理周期大幅缩短。

整个技术架构基于MaxCompute + DataWorks构建。任务开发在DataWorks Notebook中完成，通过Pipeline编排后自动调度至MaxCompute。MaxCompute提供弹性资源调度与分布式处理能力，处理后的数据统一存储在MaxCompute内表，下游通过DataWorks数据地图进行查询与分发。

在汽车具身智能场景中，车端持续产生海量多模态数据（图片、音视频、雷达、GPS等），通常以ROS bag文件存储。某客户面临开发环境配置复杂、计算资源调度不灵活、海量数据处理性能压力大、任务及数据管理复杂度高等痛点。

基于MaxFrame，客户实现了端到端的具身智能数据处理工作流。MaxFrame提供的弹性计算资源能力，有效应对了业务波峰波谷；其分布式处理能力，相比传统单机方式，数据处理效率提升了40%以上。

MaxCompute通过Object Table实现了对多模态数据的统一管理，支持直接检索文件路径、大小、更新时间等信息。MaxFrame内置了MinHash等常用算子，并支持用户通过自定义镜像（如yolo11n）管理模型与依赖。同时，MaxFrame支持用户灵活设置并发度，大幅提升了作业处理效率。

某头部大模型公司：面临海量文本数据预处理挑战，初始采用本地化自建方案但存在资源管理、代码开发及性能优化痛点。MaxCompute通过MaxFrame分布式处理实现FastText语言分类、MinHash去重等操作，整个流程在DataWorks中调度并构建标准CI/CD流程，支持与云下代码仓库集成。

汽车自动驾驶与具身智能：数据采集不固定，

← 上一篇：四款AI智能体集体亮相甘肃广播电视台荣膺甘肃省算法备案首家企业下一篇：2026中国机器人及人工智能大赛启动：教育部白名单赛事，7月截止 →