首页 > 专栏 > 科学空间|Scientific Spaces 科学空间|Scientific Spaces 共 35 条资讯 MoE环游记:6、最优分配促均衡 2026-01-31 20:28:15 MuP之上:2. 线性层与最速下降 2026-01-31 20:28:15 Adam优化器的最优超参数是β1=β2 ? 2026-01-31 20:28:15 一行代码将arXiv论文翻译成中文版 2026-01-31 20:28:15 DeltaNet的核心逆矩阵的元素总是在[-1, 1]内 2026-01-31 20:28:15 Muon优化器指南:快速上手与关键细节 2026-01-31 20:28:15 生成扩散模型漫谈(三十一):预测数据而非噪声 2026-01-31 20:28:15 滑动平均视角下的权重衰减和学习率 2026-01-31 20:28:15 让炼丹更科学一些(二):将结论推广到无界域 2026-01-31 20:28:15 让炼丹更科学一些(三):SGD的终点损失收敛 2026-01-31 20:28:15 为什么DeltaNet要加L2 Normalize? 2026-01-31 20:28:15 让炼丹更科学一些(四):新恒等式,新学习率 2026-01-31 20:28:15 让炼丹更科学一些(五):基于梯度精调学习率 2026-01-31 20:28:15 让炼丹更科学一些(六):自上而下的精妙构造 2026-01-31 20:28:15 为什么我们偏爱各向同性?基于最速下降的理解 2026-01-31 20:28:15 « 上一页12 相关分类 #!/slash/note #UNTAG (B)(F)uzzing on my world (Hi)story (IN)SECURE Magazine Notification (gdb) break *0x972 - 带鱼博客 BeltfishBlog - ./kwaa.dev .NET Blog .Trash /home/rook1e 00's Adventure 0kami's Blog 0x41414141 in ?? () 0x7f Blog 0xRick Owned Root ! 0xd00's blog 1 Byte 1A23 Blog 1A23 Studio 1Link.Fun 1stwebdesigner 251 2BAB 的工程博客 2ch中文网 360 CERT 360 Netlab Blog - Network Securi 38号车评中心 3o米的微博 404 Media