残差连接:为什么深层网络必须留一条直路
从 ResNet 的核心思想出发,讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法,而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么
聚焦AI人工智能 · 前沿技术动态 · 深度行业解读
从 ResNet 的核心思想出发,讲清 Transformer 里残差连接真正解决的不是“信息保留”这种空泛说法,而是优化路径、梯度传播和迭代修正。顺带说明为什么 pre-norm 能训得更深、为什么
在我此前的两篇文章中已经介绍了AGE的基本理论概念以及它和Spec-Driven开发以及Harness Engineering的区别。 为了便于实际落地AGE的实践,我新建了一个新的模板项目attra
本文深度解析Jeepay支付系统重构实践:通过消除循环依赖、优化包体积、重构前端集成,实现54%包体积缩减与启动加速。揭秘Spring Boot 3.x严格模式下的架构优化策略,为高并发系统提供可复用
本文选择用 REST API 手写工具定义和 HTTP 调用,而不是直接使用 MCP Server,有一个明确的理由:Function Calling 让你看到工具的完整封装过程。
本文精炼解析MCP(Model Context Protocol):它不是新模型,而是让AI Agent运行时动态增删工具的协议。
SenseNova Skills Studio:为商汤SenseNova U1打造的本地办公技能包 过去两年,大模型能力的竞争焦点从「能不能答对一题」转向「能不能把一件事做完」。在真实办公场景里,用户
Skill 可以理解成 AI 的“专业能力模块”。 它不是临时 prompt,也不一定要联网调用外部工具。 更准确地说,它是一个文件夹,把某类任务里的经验、规则、操作流程和注意事项都收进去,后面反复用
本文介绍TRAE搭配火山引擎Supabase的组合方案,破解AI应用后端开发难题。依托TRAE生成前端与AI逻辑,借助Supabase提供后端服务。
你在调试一个前端工程问题,页面表现异常。你让 AI 用浏览器工具帮你打开页面,检查控制台有没有报错。AI 打开页面,扫了一圈,告诉你:控制台干干净净,没有任何错误。你将信将疑
上周我们团队改了一个用于客服摘要的 prompt,当时用 10 个样本手动测了一下,"感觉更好",就直接推了。 三天后数据反馈:用户满意度下降了 4 个百分点,原因是新 prompt 对某类投诉话术的
阿里云PAI团队针对Qwen3.5等模型对大Head Dimension的训练需求,设计并实现了面向large head dimension场景的专用FA4 Kernel,有效支撑了千卡规模训练。
Pi是开源coding agent harness项目,本文从源码出发,逐层拆解其四层架构,带你理解极简主义 agent 的设计哲学与实现细节。