标签

小模型大智慧:Qwen3-0.6B实战入门

发布时间:2026-06-09 02:27来源:微信阅读:3

如果只是抽象地聊大模型,往往让人摸不着头脑。

很多入门文章开篇就堆砌各种比喻、类比,结果越看越迷糊——你接下来也会遇到这种情况。

表面上似乎明白了,实际上更加困惑,什么都没记住。

不如直接上手安装一个最轻量的大语言模型,Qwen3-0.6B,边运行边观察,到底是什么原理。

它体积极小,性能也比较弱,任何一台电脑都能流畅运行。

虽然小巧,但功能完备,大模型的核心要素它一样不缺,最适合用来入门学习。

如果你手边有电脑,再配合Claude Code、codex这类能直接操控电脑的AI agent,就能跟着我的步骤一起操作。这里我就用Claude Code(以下简称cc)作为演示。

新建一个文件夹,我准备学习AI基础知识。你先下载安装ollama,然后装上Qwen3-0.6B,确保能在我的电脑上跑起来。告诉我具体下载了哪些文件,每个文件分别有什么用途。

(ollama是一款能本地一键运行开源大模型的工具,可以理解为模型的「应用商店+播放器」。)

其实这篇文章到这里基本上就可以结束了。

接下来的cc就是你最棒的老师。任何看不懂的地方,都可以让它给你详细讲解。

因为我的电脑装了两种模型,所以一共十个文件:

一个大模型,实际上就是由这么几部分组成的:

其余的都是辅助文件。真正占用显存、包含「智能」部分的,就是那个权重大文件。

接下来让它按文件大小,从小到大逐一拆解讲解给我听。

120B和68B这两个文件里装的是什么?你帮我打开看看。

(这里的B是字节的意思。120B=120个字节,非常小。)

cc告诉我:120B里是一些默认参数,68B那个其实就是一条系统提示词。

params默认参数(120B那个),这些参数分别代表什么含义?

它先给我讲了一个底层原理——这部分刚好和上篇《token》衔接上了:

模型并不是「想好答案」,而是一个字一个字地推测。每生成一个字,它内部都会计算一张概率表;至于「具体选哪个字」,就由下面这几个参数决定:

忍不住吐槽一下,我现在真的很反感AI动不动就给的「一句话总结」「一句话比喻」……真的太傻了

这部分(参数)比较复杂,我们后面再深入研究。先看看对话模板那块,里面都包含哪些内容。

听完cc这番讲解,发现一个挺有趣的现象——

我们平时用Claude Code、GPT,看到里面那些复杂的「模式」切换,通常会下意识觉得:背后肯定加了一大堆繁琐的设定。

但实际上往前端传给大模型的时候,核心就是加了一个/think指令。

说白了就是让它「多思考一下」。

就这么简洁。但这一点,太厉害了。

明天继续研究这些文件里具体是什么,

Y1D18 · 2026-06-09 10年后再见