5001拉斯维加斯-24人团队挑战英伟达？Taalas HC1横空出世：将大模型直接“刻”进硬件

24人团队挑战英伟达？Taalas HC1横空出生避世：将年夜模子直接“刻”进硬件

发布时间：2026-02-25 来历：转载责任编纂：lily

【导读】由前AMD集成电路总监、Tenstorrent开创人柳比萨·巴吉克（Ljubisa Bajic）领衔，Taalas在2026年2月正式浮出水面，公布完成超2亿美元融资并推出首款将模子权重直接固化在硬件的HC1平台。这款仅由24人团队耗时两年打造的芯片，传播鼓吹能将Meta Llama 3.1 8B模子的推理速率晋升至每一秒17000个token，成本仅为传统GPU方案的几十分之一，甚至有望让年夜模子推理进入“亚毫秒级”时代。

一晚上之间，Taalas的产物刷屏硅谷，社交平台网友纷纷开启实测，并称其机能惊人、将给英伟达GPU带来巨年夜挑战。HC1采用台积电6nm制程，芯单方面积与英伟达H100芯片相称，为815平方毫米。HC1芯片可以将整个8B版本的Llama 3.1模子集成到单颗芯片上。Taalas还有模仿了DeepSeek R1-671B的多芯片解决方案，其存储整个671B模子采用了约莫30颗定制芯片，模仿成果注解，DeepSeek R1-671B每一用户每一秒可天生约12000个token；Llama 3.1单个用户的天生速率可达17000 token/秒，速率靠近Cerebras推理平台的10倍，英伟达H200的73倍、B200的48倍，构建成本为Cerebras现有方案的1/20、功耗仅为1/10。

Taalas开创人兼CEO柳比萨·巴吉克（Ljubisa Bajic）曾经任职AMD集成电路设计与架构总监、英伟达高级架构师。他2016年创建AI芯片公司Tenstorrent，2023年将其交代给吉姆·凯勒（Jim Keller）后，又开办了Taalas。Taalas的别的两位开创人是巴吉克的老婆、曾经于AMD担当体系工程高级司理的莱拉·巴吉克（Lejla Bajic）以和曾经于AMD担当高级设计工程师、于Tenstorrent担当工程师的德拉贡·伊格（Drago Ignjatovic）。不外于社交平台上，有不罕用户吐槽：Taalas的产物确凿快，但过错率太高。芯工具发问了“9.9及9.11比巨细”以和经典的鸡兔同笼标题问题，该模子别离于0.001秒、0.017秒内给出了过错谜底。

巴吉克称，Taalas的极度方案可能很合适某些特定运用，素质是找到寻求经济效益及速率而捐躯矫捷性的要领。

Taalas还有吐露了下一步规划，他们将基在HC1为第二款中等范围的推理模子打造芯片，该模子估计在本年春天于试验室完成流片，并很快集成至其推理办事中；随后，该公司将基在第二代芯片平台HC2推出新年夜语言模子，HC2将提供更高的算力密度与更快的履行速率，规划于本年冬日正式部署。

01.极致性价比30颗芯片模仿部署DeepSeek R1

2月20日，Taalas正式推出首款芯片平台HC1，该平台已经集成Meta Llama 3.1 8B模子，用在谈天呆板人演示与推理API办事。其官方博客提到，基在HC1，Llama 3.1单个用户的天生速率可达17000个token/秒，速率靠近Cerebras推理平台的10倍，构建成本为Cerebras现有方案的1/20，功耗为1/10。Taalas发布了HC1集成Llama 3.1 8B的免费试用链接。芯工具提出的需求是“请具体提供1960年至1972年阿波罗规划逐年的完备汗青，包括使命方针、技能挑战、焦点职员、飞行里程碑与科学发明。”Llama 3.1仅0.078秒就输出了谜底，每一秒可输出15694个token，其输出内容对于要害分类举行了罗列。

按照Taalas发布的成本与延迟对于比数据，基在Taalas的芯片方案，Llama 3.1 8B的推理查询成本为每一百万token 0.75美分（约合人平易近币0.052元），DeepSeek R1的成本为每一百万token 7.6美分（约合人平易近币0.53元）。比拟之下，Llama 3.1 8B于GPU吞吐量优化方案上的成本为每一百万token 3.79美分（约合人平易近币0.26元），DeepSeek R1为20.2美分（约合人平易近币1.4元），延迟优化方案中，Llama 3.1 8B的成本为28.61美分（约合人平易近币2元），DeepSeek R1为49美分（约合人平易近币3.37元）。

可以看出，Taalas于token天生成本、延迟上相较英伟达GPU效果都更好，特别于参数范围更小的模子上更是实现了数目级的领先。该公司的第一代芯片平台HC1采用了自界说的3位基础数据类型，这是由于他们于举行研发设计时，低精度参数格局还没有形成尺度。集成Llama时，Taalas还有采用了激进的量化方案，混淆利用3位与6位参数，相较在GPU基准测试，会带来必然的精度丧失。Taalas的收入来历将分为两块，推理即办事、HC硬件。于官宣博客中，Taalas将基在Llama 3.1 8B的HC1称作测试版办事，其目的是闪开发者体验年夜模子推理实现亚毫秒级速率、且成本近乎为零的同时，摸索更多新运用。这一办事估计不会孕育发生显著收入。

02.遵照三年夜原则2个月内完成芯片定制

一般而言，对于在更新的模子，Taalas能于不到两个月内完成芯片定制。巴吉克对于此的注释是，因为Taalas的芯片高度专业化，其设计比英伟达的同类产物更简朴，是以出产速率更快。例如一块Taalas芯片就能容纳一个完备的年夜语言模子，将模子和其权重硬编码到HC1中，然后将整个模子嵌入到定制的专用芯片中，而无需像英伟达及其他公司那样依靠外部高带宽内存。这一历程中，该公司遵照三个原则。第一是彻底定制化（Total specialization）：其团队认为，于计较机成长史上，深度专业化一直是让要害事情负载以极高效率运行的最靠得住路子之一。是以，Taalas会为每一个零丁的模子出产最好芯片，也就是将特定的模子神经收集映照到芯片自己，从而针对于每一个模子优化基础举措措施。第二是实现存储与计较交融：此前，AI推理芯片架构设计入彀算与存储彼此分散，且两者运行速率存于显著差异，这直接致使当前AI推理硬件架构日益繁杂。体系不仅需要依靠进步前辈封装、HBM仓库与超高I/O带宽，再加之单芯片功耗爬升，有时必需依赖液冷方案才能不变运行。其博客提到，Taalas的冲破性就于在，将存储及计较同一于单个芯片上，并到达DRAM级另外密度，以此来解决此前计较及内存分炊的痛点。第三是极致简化（Radical simplification）：于交融存储与计较，并针对于每一个模子定制芯片的基础上，Taalas可以从底子上从头设计整个硬件仓库。其终极获得的体系不依靠在繁杂或者非凡的技能，不需要HBM、进步前辈封装、3D重叠、液冷等。HC于设计时还有进一步降低了AI部署中的能耗及成本。HC体系每一个机架的能耗为12-15千瓦，GPU每一个机架的能耗则高达120-600千瓦。再加之Taalas的机架可采用风冷散热，从而进一步降低数据中央的革新成本。此外，Taalas HC1 PCIe卡险些可以安装于任何办事器中，并撑持英特尔及AMD的CPU。

03.业界好评与担心并存缺少矫捷性、机架寿命短引热议

依附HC1的机能及极低成本，Taalas近期得到了不少存眷，但业界仍提出了否决定见。其上风显而易见。即便云办事商每一次模子更新时都要改换数千颗加快芯片，于四年的可比利用周期内，Taalas方案的本钱支出（CAPEX）仍能比其他AI加快方案节省60%–75%，同时还有能为用户提供全世界最快的AI推理办事。企业担心的要害之一于在，Taalas的方案缺少矫捷性。利用其方案的企业将不能不持久适配统一固化模子的多个迭代版本，同时还有要部署差别的芯片版原来运行各别的模子。云云繁多的版本，会加剧数据中央的运营繁杂度。但《福布斯》认为，即便云云这套方案依然很是划算。由于假如一派别据中央只有少数几个模子，却占用了出产情况中绝年夜部门AI推理算力，那用这类专用芯片的性价比会很高。企业担忧的另外一个点是Taalas机架的利用寿命较短。今朝，英伟达及AMD的更新周期都因此年为单元，但Taalas的模式就象征着，每一个模子都要随着更新。年夜模子基本1～1.5年就会迭代一次，而新一代芯片的研发凡是需要2～3年。针对于这一隐忧，Taalas的应答计谋是，经由过程对于两层金属层举行改动来进级基础逻辑层，无需完全从头设计。《福布斯》预计，Taalas极可能让台积电预先存储未完成的晶圆，以便添加这两层金属互连层，从而实此刻两个月内完成交付。

总结

Taalas的横空出生避世无疑为AI基础举措措施范畴提供了一种极具倾覆性的新思绪：经由过程“存储计较交融”与“模子硬件固化”，它乐成打破了传统冯·诺依曼架构中内存墙的限定，于特定模子的推理速率与能效比上实现了对于英伟达等通用GPU方案的代际逾越。其提出的“两个月定制芯片”模式和极致的成本节制，证实了于寻求经济效益及极速相应的垂直场景中，专用ASIC架构拥有巨年夜的运用潜力。

-5001拉斯维加斯

下一篇【产品推荐】超小型高频同轴连接器u.fl系列

分享到: 1210

新闻动态

5001拉斯维加斯-24人团队挑战英伟达？Taalas HC1横空出世：将大模型直接“刻”进硬件