未来的 CNC 也许不是一团越来越大的连续表征,而会更像一套可路由、可组合、局部更容易检查的机器底座。
这一观点挑战了当前AI模型向更大规模发展的主流趋势。作者提出神经计算机可能更接近离散、稀疏、局部可验证的结构,这暗示了AI发展可能存在与当前大模型路线完全不同的方向,具有颠覆性意义。
未来的 CNC 也许不是一团越来越大的连续表征,而会更像一套可路由、可组合、局部更容易检查的机器底座。
这一观点挑战了当前AI模型向更大规模发展的主流趋势。作者提出神经计算机可能更接近离散、稀疏、局部可验证的结构,这暗示了AI发展可能存在与当前大模型路线完全不同的方向,具有颠覆性意义。
A transformer starts with a token embedding, followed by a series of “residual blocks”, and finally a token unembedding. Each residual block consists of an attention layer, followed by an MLP layer. Both the attention and MLP layers each “read” their input from the residual stream (by performing a linear projection), and then “write” their result to the residual stream by adding a linear projection back in. Each attention layer consists of multiple heads, which operate in parallel.