最近火了一个叫龙虾的APP,大家好像都在养这个虚拟宠物。我也是最近在朋友圈看到的,好多人都在晒自己的龙虾。这种虚拟宠物其实是AI的小工具,你可以和它聊天、喂食,它也会回应。据说这个App的下载量一周内就突破了百万,虽然具体数据来源不确定,不过看榜单也差不多。 我昨晚试了试,和龙虾聊了几句,结果就提示我Token不足了。我刚开始不懂Token是啥意思,后来才知道它是用来计量文字的小块单元。比如说我跟龙虾说:“龙虾,今天天气真好,咱们去海边玩吧。”它回复:“主人,我是虚拟的,海边太危险了,咱们在家跳舞吧!”就这么几句话,系统就说消耗了15个Token。 其实这个Token就是把文字切成小块,每一块就是一个Token。它不是按字数来精确计算的,而是AI模型的消化单位。就好比做菜一样,你要把食材切成小块才能下锅吃。 AI底层的技术就是这样的,比如Transformer模型就是这样的设计。为了统一输入和输出的计量方式,OpenAI他们发明了这套东西。就好比去超市买菜一样,不是按克数算钱而是按份卖。 产业链上的博弈也在这里体现得淋漓尽致:模型训练成本很高,上游公司靠卖Token服务赚钱,下游的App开发者就得买API额度。我之前做项目的时候也碰到过这种情况,Token价格波动很大,一天就能变10%。 比如ChatGPT免费版有一个每天限制Token的数量,个人体验下来聊几轮就没了。大概100个Token等于75个汉字左右。如果是1000个Token,大概可以写一篇短文700字左右。 如果要写个报告或者长文章的话,万级别的Token就够了。不过实际使用和传统的编辑软件还是不一样的。Word里你是按字符来算字数的;而AI这里是考虑语义和上下文来拆分的。 中文和英文在这个方面也有区别:英文一个词就是一个Token;而中文有时候要拆成子词来计算。所以英文的效率比较高;中文则相对低一些。我试过同一个问题中英文版本对比一下:英文版用800个Token;而中文版则翻了一倍到1600个。 有一次我和一个工程师朋友聊天提到这个问题他说:“Token不是bug而是模型的呼吸节奏,你得适应它。” 你也可以想象一下养龙虾这事其实是跟花钱挂钩的。一天聊10轮左右每轮20个Token总共有200个左右按0.01元一个粗略算下来一天2块钱一个月60块钱也不贵。 但如果全民都养这种虚拟宠物产业链的总流水就很可观了吧?推测一下百万用户每天平均消耗100个Token总量达到亿级别的时候上游公司肯定笑醒了。 再比如使用场景:我有个同事小李上周开始养龙虾上班时间也偷玩他午休时候戳屏幕叫龙虾帮忙写封邮件给老板请假结果回复说:“假条得诚恳我帮你起草”小李复制粘贴结果Token爆了他就嘀咕说:“这宠物比真猫还费钱” 还有一个技术迭代的事情:Token体系从GPT-3开始流行到现在4o版本优化了压缩率提高了10%个人体验用新版之后消耗减少了15%左右。 不过现在竞争很激烈比如竞争对手Claude他们定价低5%所以同价位下Claude的Token更节俭长对话也不卡断因为他们的算法切块更细致更准确生活中比喻就像切葱花有人粗砍有人精细。 我觉得使用AI时最烦人就是不确定性你发一段长文不知道会消耗多少Token需要先估算一下以后可能会有免费的池子靠广告补贴之类的不过这是我脑洞大开瞎想的啦。 最后想起来一个细节去年我测试类似AI宠物的时候发现一场完整互动平均消耗50到80个Token左右视复杂程度而定容易忽略的是图片输入也会转换成Token比如一张龙虾照片额外消耗30个左右产业链解释是上游训练数据贵需要靠计量保障利润下游开发者就得教用户节省Token比如短句聊天。 互动一下吧:你在养龙虾的时候遇到过Token提示跳出来的情况吗?那天我续费后龙虾说:“谢谢你的Token爱咱们继续冒险”然后屏幕上它眨眨眼还有海浪声背景不过我关了APP想着下次得算好额度别半路停了半途而废就不好玩了。