无需编写代码,轻松打造最简单BabyGPT模型
Andrej Karpathy作为特斯拉前AI总监和OpenAI的一员,近日介绍了一种最简版GPT模型的玩法。相比于OpenAI的GPT系列,这种模型需要的算力和体积更小,更容易应用于研究中。该模型仅包含两个token和上下文长度为3,可视为有限状态马尔可夫链。在序列「11110」上进行50次迭代后,模型已经可以通过概率转移确定性地将一个状态转换为另一个状态。这种玩法让更多的人能够深入了解GPT模型背后的技术,也有助于加速研究的进展。
下载地址
用户评论