AI 为何出现“失语”现象?
本文借 MiniMax 模型无法准确拼写“马嘉祺”之名,剖析大模型一种新型缺陷——AI 失语(内知外不知):模型虽掌握答案、能侧面阐述,却难以直接输出正确结果,根源在于词元训练不足(under-trained tokens)。一、核心案例:马嘉祺风波• 提问:“时代少年团队长是谁?”→ 回答出现“马嘉轩”“马丝祺”等错别字。• 追问:“队长有哪些经历?”→ 可准确陈述出道历程及作品详情。• 结论:模型并非无知,而是无法表达。二、AI 三大常见故障1. 幻觉(Hallucination):严肃地编造虚假事实
AI如何理解人类语言?揭秘Token的作用
这篇文章用通俗易懂的语言剖析了大型语言模型(LLM)中至关重要的“Token”概念。文章说明了Token是AI处理文本的最小单元,讲解了分词器如何把人类语言变成Token序列,指出了Token数量直接关系到AI的计算成本和价格,还梳理了Llama系列模型分词器的发展历程。你是否有过这样的体验?读了不少关于大模型(LLM)的文章,却总觉得像雾里看花,看不真切?别焦虑,今天咱们抛开那些晦涩的理论,只谈一个最基础且核心的概念——Token。一旦弄明白了它,你对 AI 的认知会立刻通透一大截!坦白讲,直到我完全掌
美团开源原生多模态模型LongCat-Next
新浪科技讯 3月27日上午消息,美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件离散原生分辨率视觉分词器(dNaViT)。 该模型打破了当前大模型以“语言为中心”的传统拼凑式架构,将图像、语音与文本统一映射为同源的离散Token。通过纯粹的“下一个Token预测”(Next Token Prediction,NTP)范式,LongCat-Next让视觉与语音成为AI的“原生母语”。 据介绍,LongCat-Next实现了三项关键技术突破:一是离散原生自回归架构(DiNA)彻底打破模态