预训练_标签-酷阅新闻

Karpathy转身投向Anthropic！AI圈顶尖人才为何纷纷流向这家新贵？

一、他来了！5月19日下午，一条简洁的英文动态，在人工智能领域掀起了轩然大波：OpenAI创始人、前特斯拉AI总监，AI界传奇人物Karpathy正式宣布加入Anthropic。动态发布后，评论区瞬间炸开了锅。有人称这是2026年AI界最具冲击力的人才变动；也有人感慨OpenAI培养出的顶尖精英，几乎悉数被Anthropic收入囊中。图源Karpathy原帖评论区Anthropic随即发表官方声明，Karpathy已于本周正式入职，将在预训练团队负责人Nick Joseph的领导下，组建一支致力于利用Cl

2026-05-20 15:42:06 | 17 阅读

OpenAI创始团队仅剩两人，Anthropic加速崛起：企业AI市场版图生变

若贵司正使用ChatGPT开发内部应用，或刚与OpenAI签订API协议，这条消息值得重新审视——OpenAI最初11人创始团队中，第9位成员已离职，转投直接竞争对手Anthropic。Andrej Karpathy，OpenAI创始成员、前特斯拉AI总监，日前在X平台宣布加入Anthropic预训练团队。这是三年内第三位核心人物单向往Anthropic流动。与此同时，Claude在美国企业市场的使用率刚刚超越ChatGPT，新增AI采购中约65%的企业倾向于选择Anthropic。人才、资金、估值三条赛

2026-05-20 12:17:38 | 15 阅读

AI大牛Karpathy转投Anthropic，助力Claude预训练升级

导读：Karpathy将组建一支新团队，借助Claude自身来加速前沿模型开发中成本最高的环节。OpenAI联合创始人之一、全球顶尖AI专家Andrej Karpathy于本周一宣布加入Anthropic。对于Claude的开发商Anthropic来说，这无疑是一次关键的人才引进，有助于其在大型语言模型研发领域维持竞争优势。Karpathy将加入由Nick Joseph领导的Anthropic预训练团队，他将在那里创建一个全新团队，致力于一个引人关注的递归目标：借助Claude自身来加速预训练研究。预训练

2026-05-20 10:31:32 | 25 阅读

Nature子刊重磅研究:预训练数据构成如何影响视网膜基础模型的泛化与公平性

《Nature Communications》刊登了一篇研究论文《Understanding pre-training data effects in retinal foundation models using two large fundus cohorts》。该研究首次借助英国与中国上海的两大超大规模眼底影像队列（各含90余万张图像），全面分析了预训练数据的组成特征对视网膜AI基础模型泛化能力与公平性的影响；研究结果显示，虽然基于不同地区数据训练的模型均表现出色的跨中心泛化性能，但预训练数据中年龄

2026-05-18 10:12:53 | 16 阅读

大模型落地的关键：LLM对齐技术详解

在日常工作和开发过程中，很多人都遇到过大模型表现差异明显的情况：同样是大型语言模型，有的能准确理解"帮我整理一份1页的Q3项目进度表，把超支项标出来"这样的具体需求，直接输出可用的结果；有的却给你返回一篇3万字的行业综述，完全答非所问。很多人认为这是参数规模导致的差异，但实际上真正的差距在于是否做好了LLM对齐——这正是ChatGPT能够爆发的核心原因，也是当前大模型商业化落地最关键的工程环节。💡 核心定义LLM对齐指的是将大模型从"机械地预测下一个文字的工具"，训练成"能够理解人类意图、满足实际需求的智

2026-05-17 14:05:11 | 16 阅读

AI行业每日观察 2026年05月10日

今日汇总 20 项 AI 产业新闻 | 由「坤哥学AI」智能编辑1. 马斯克痛失华裔核心人才，xAI Grok 预训练主管庄钧堂正式离职原标题：《xAI 痛失华裔骨干：预训练主管宣布离职，马斯克再度遭遇人才流失》xAI 再度失去一位华裔核心成员，预训练主管庄钧堂昨日公开宣布离职决定。在此之前，庄钧堂已在 xAI 任职达两年之久。任职期间，他全面负责 Grok 系列模型的预训练工作，并承担 Grok 在 X 平台和 Tesla 车载系统的语音模型预训练任务...

2026-05-10 20:04:21 | 14 阅读

AI回复像拆盲盒？掌握生成原理就能稳住

你在用AI的时候，有没有冒出过这样的疑问：为什么有时它给出的回答又准又精彩？为什么有时却像是在“正确”地胡说？聊天窗口后面，究竟在不停运转着什么流程？这篇文章想带你一段路，用一个形象比喻把AI大模型讲清楚。等你下次再跟AI聊，就知道怎么把它用对，不必再像拆盲盒那样碰运气。01 一句话介绍假设你手里有一台机器，它最擅长的只有一件事：接龙。你说一句，它就接下一句。理解AI大模型，我们同样从这一步开始：把它当作一台超强的“词语接龙器”。02 一个比喻：词语接龙机器想让这台机器读得懂人话、能答题、还能帮你把事办成

2026-05-05 15:01:32 | 20 阅读

大模型的本质：统计预测如何涌现智能

"用统计模式替代逻辑推导，用关联性替代因果关系"——这句话几乎概括了大模型的底层逻辑。你是否也有过这种体验：向 AI 提出一个问题，它给出的答案看起来格外机灵。你不免会想："它真的在思考吗？"随后你又会看到另一种说法："它不过是在做概率预估，压根不知道自己在说什么。"那这两种观点，究竟谁更接近真相？结论是：两者都沾边，但都不完整。要真正看懂大模型，我们必须深入它的技术底层，弄清这个由数千亿参数拼成的"数字大脑"究竟怎样工作。先从一个最基本的问

2026-04-27 10:17:35 | 10 阅读

Momenta曹旭东：预训练模型存驾驶隐患，需后训练修正

新浪科技4月25日晚间报道，正值2026北京车展举办之际，Momenta举办了名为“Momenta R7，物理AI序章”的分享活动。活动结束后，Momenta董事长兼CEO曹旭东接受了新浪科技等媒体的联合采访。在谈到“Momenta如何利用海量用户数据”时，曹旭东透露，流程主要分为预训练和后训练两个环节。预训练阶段主要依托于80万辆量产车提供的海量数据，这些数据包含大量长尾场景，通过World Model进行预训练。他进一步解释说，经过预训练的模型虽然具备了物理常识，但这并不等同于能成为一名好司机。由

2026-04-25 22:51:36 | 8 阅读

AI训练数据即将见底

当前主流人工智能技术大多依托机器学习与深度学习架构，其本质在于从海量数据中提取隐藏的模式与规律。缺少训练数据，模型将无法完成学习，人工智能的智能属性也就无从谈起，正因如此，数据常被视为人工智能的“能量来源”。步入大模型时代，采用自监督学习的预训练策略显著降低了对人工标注数据的依赖，使模型能够以更低成本、更高效率处理大规模数据集，推动了数据、模型参数与计算资源三者的协同发展。基于此，业界归纳出著名的规模定律：大语言模型的能力与模型参数量、训练数据规模、计算资源之间呈现平滑的幂律关系，简言之，就是模型规模越大

2026-04-23 18:35:34 | 9 阅读

人工智能学习机制的演变

第三章：AI中的学习我们之前探讨过AI中的知识本质——简单来说就是人类语言的空间结构和规律特征。AI通过压缩与提炼过程，从互联网海量文本中捕捉到人类语言的空间结构与常见规律。我之前提到生成式AI的训练分为预训练和后训练两个阶段，真正决定AI能力上限的是预训练阶段。预训练看似复杂，其实质就是完形填空。通过对互联网数据进行大规模的完形填空训练，AI掌握了人类语言的空间结构和内在逻辑，这正是AI能够根据你的开头续写全文的原因。由于编程语言属于人类广义语言的子集，AI因此能够生成代码。只要你使用的术语和编码属于人

2026-04-20 21:26:47 | 21 阅读

AI关键技术快速参考指南

1️⃣预训练（Pre-training）🔵核心定位：AI的「通识能力奠基」 📝通俗解释：模型部署前，通过海量通用信息（文字、常识、逻辑规则）习得基本技能，类似儿童学习语数外等基础学科。 ✨关键特点：计算资源需求巨大、训练周期漫长、主要由科技巨头主导；奠定AI的基础认知与表达水平。 💡一句话记忆：预训练=夯基石，构建通用技能根基2️⃣微调（Fine-tuning）🟢核心定位：AI的「领域专精训练」 📝通俗解释：采用特定领域数据（如医疗、法务、客服等）对已具备通用能力的AI进行定向优化，使其从"多面手"转型为

2026-04-15 12:10:16 | 8 阅读

AI如何读懂你的话语：技术原理解析

先抛出一个问题。你是否想过，当对ChatGPT或Claude输入一句话并发送后，另一端究竟发生了什么？它如何"领会"你的意思？它是否真的"理解"你？亦或只是在进行一场我们无法察觉的、极其精密的——文字猜测游戏？本期内容，我不探讨AI的使用技巧，而是深入AI本身。将带你进入那个黑箱，探究"理解"在机器世界中究竟是怎样的形态。无需任何技术基础。听完本期，你将对AI产生截然不同的认知——而且我保证，这种认知将直接影响你今后与AI的交互方式。第一部分：先澄清一个误解让我们从一个根深蒂固的误解说起。许多人认为，AI

2026-04-14 16:08:05 | 21 阅读

人工智能核心概念指南

1. Token概念阐释Token是大语言模型处理文本时的最小计算单位，可以理解为AI系统中的"文字基本粒子"。模型按Token进行计数、计费、限制长度。典型案例大约会被拆成8～10个Token这是 AI 里的文字原子。为什么说"养龙虾"？因为 AI 动脑子是要烧钱的。喂它国产 Token 还是进口 Token，你喂给它的 Token 就是口粮，喂得越多，这只龙虾就越有劲儿！就像给员工发工资，算力成本全看它。2. API概念阐释API（Application Programming Interface），

2026-04-13 15:29:58 | 9 阅读

AI幻觉揭秘：智能助手的认知陷阱

当下，公众愈发依赖AI答疑解惑，人工智能总能提供表面合理的回应，然而其输出中常夹杂着看似可靠实则虚构的"AI幻觉"现象。OpenAI联合佐治亚理工的2025年研究指出，AI幻觉并非单纯源于数据瑕疵，而是根植于系统内部的固有缺陷。这种现象根植于预训练及后训练双重环节。某些数据模式过于复杂，难以通过基础模型精准判别，即使信息本身准确，AI仍可能产生误判；低频、冷门知识因学习样本匮乏，更易遭AI张冠李戴或凭空杜撰。同时，现行AI评分体系仅对正确回答给予激励，承认"不知道"和给出错误答案同样得分低迷，倒逼AI为获

2026-04-10 21:32:09 | 19 阅读