实打实的。
Bajic 还透露,Taalas 能用单个晶体管同时存储 4-bit 模型参数并完成乘法运算。他拒绝透露更多,但确认计算仍然是全数字的。如果属实,这意味着 Taalas 在电路层面实现了一种极为高效的存内计算(Compute-in-Memory)机制,虽然不同于学术界讨论较多的模拟存内计算方案,但目标一致:让数据就地参与运算,不再搬来搬去。
硬接线芯片还带来了一个意想不到的副产品:软件栈的极度简化。Bajic 说“软件作为一个东西基本消失了”,公司只有一个工程师负责软件栈,而且这人还兼顾其他工作。对比当前 GPU 推理系统中 vLLM、TensorRT-LLM、PagedAttention 等复杂软件优化层的工程投入,这种简化几乎是降维式的。当然,这种简化是以极端硬件专用化为前提的,不具有一般性。
Bajic 在博客中用 ENIAC 到晶体管的演化做类比,暗示当前以 GPU 数据中心为核心的 AI 基础设施可能只是早期的“笨重原型”,未来终将被更高效的方案取代。这个类比有一定道理,但也不宜过度引申。GPU 数据中心的“暴力”不仅仅是硬件层面的,它背后是整个 CUDA 软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易,颠覆生态难。Taalas 的芯片或许在特定场景下拥有压倒性的性能和成本优势,但要成为主流路线的替代方案,需要的远不止一颗跑得快的芯片。
不过,Taalas 可能也从未打算成为“替代方案”。Kharya 表示:“模型最优硅片不会取代满是 GPU 的大型数据中心,但它会适合某些应用。”
参考资料:
1.https://taalas.com/the-path-to-ubiquitous-ai/
2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

