搜索
搜 索
首页
探索
综合
焦点
知识
休闲
娱乐
时尚
热点
百科
当前位置:
首页
>
焦点
>
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
发表于
2025-03-11 01:23:43
来源:
邻家书波网
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的更好更强
硬件功能