表情符号(emoji)来表示 token
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。
还记得这些天大模型被揪出来的低级错误吗?
不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。
嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?
大家普遍认为,是 Token 化(Tokenization)的锅。
在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 to...