表情符号(emoji)来表示 token

为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下 让模型知道自己擅长什么、不擅长什么是一个很重要的问题。 还记得这些天大模型被揪出来的低级错误吗? 不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。 嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么? 大家普遍认为,是 Token 化(Tokenization)的锅。 在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 to...