GE GenerateTask 流程分析 GE GenerateTask 流程分析一、场景化问题引入:为什么需要 GenerateTask?1.1 核心问题:从”图”到”可执行指令”的鸿沟GE 的图编译流程已经完成了: IR恢复:推导节点的 IR 兼容性策略 动态图拆分:将动静节点分离到不同 Cluster 引擎分区:将同引擎节点聚合到同一子图 但此时,图中只有”节点”(Node)和”算子描述”(OpDesc),没有可执行的指令。运行 2026-05-08 GE图引擎 #深度学习 #图引擎
GE 图引擎分引擎模块分析 GE 图引擎分引擎模块分析一、问题背景:为什么需要引擎分区?GE 图引擎面临一个根本性的架构挑战:如何在一张图中同时处理不同引擎的算子? 1.1 具体场景典型问题场景: 用户模型中包含多种引擎的算子: AiCore引擎:高性能计算算子(如 Conv2D、MatMul) AiVector引擎:向量计算算子(如 Add、Mul) Host CPU引擎:Host端计算算子(如 Dynamic算子) C 2026-05-08 GE图引擎 #深度学习 #图引擎
GE 图引擎动态图拆分模块分析 GE 图引擎动态图拆分模块分析一、问题背景:为什么需要动态图拆分?GE 图引擎面临一个根本性的架构挑战:如何在一张图中同时处理静态 shape 算子和动态 shape 算子? 1.1 具体场景典型问题场景: 用户模型中包含动态 shape 算子(如 Reshape、Broadcast),其输入/输出 shape 在编译时未知(dim=-1) 同时模型中也有大量静态 shape 2026-05-07 GE图引擎 #深度学习 #图引擎
GE 图引擎 IR 恢复流程分析 GE 图引擎 IR 恢复流程分析一、问题背景:为什么需要 IR 恢复?GE 图引擎面临一个独特的版本兼容性挑战:直构图时的算子 IR 定义与运行环境的 IR 定义可能不一致。 1.1 具体场景 用户在 CANN 8.0.RC1 环境下构图,模型中使用了 Add 算子的 3 个输入 模型部署到 CANN 8.0.RC2 环境,Add 算子新增了第 4 个可选输入 bias 如果不恢复 IR,运行环境 2026-05-05 GE图引擎 #深度学习 #图引擎
理解 PT2 模型归档格式 理解 PT2 模型归档格式这篇文章想回答什么torch.export 是 PyTorch 2.x 引入的模型导出 API,它会把 nn.Module 捕获为一个可序列化的 ExportedProgram 对象。这个对象同时保存计算图、参数、缓冲区、常量和调用约束。导出的 .pt2 文件本质上是一个 ZIP 归档:其中一部分文件负责描述图结构,另一部分文件负责保存张量数据和归档元信息。 本文基于 P 2026-04-19 学习笔记 #PyTorch #深度学习
cpp知识点小结-第二部分 C++基础篇 C++基础简述智能指针智能指针其作用是管理一个指针,避免申请的空间在函数或对象生命周期结束时忘记释放,造成内存泄漏。智能指针即是C++ RAII的一种应用,可用于动态资源管理,资源即对象的管理策略。使用智能指针可以很大程度上的内存泄漏的问题,因为智能指针就是一个类,当超出了类的作用域是,类会自动调用析构函数,析构函数会自动释放资源。在C++11开始,提供了unique_ptr,sh 2022-08-09 学习笔记 #cpp
从小爱刷题! 从小爱刷题!✅ 完成 ❌ 未完成,置于标题前,补卡后变成🔺,🌀啊啊啊,没见过,非常规套路,技巧 ⭐ 收藏 🟢 简单 🟠 中等 🟣 困难 🔵 其它 剑指Offer 第二版 本章参考《剑指Offer》第二版。 2022年03月题目编号 🟠[ 2. 两数相加、24. 两两交换链表中的节点];🟢[ 21. 合并两个有序链表 ];🟣[ 10. 正则表达式匹配 ]🟠[ 50. Po 2022-05-21 学习笔记 #算法
排序算法 排序算法稳定性常用排序稳定性我暂时还没具体分析锦标赛排序为什么是不稳定的。 Stable Sorting Algorithms: Insertion Sort、Merge Sort、Bubble Sort、Tim Sort、Counting Sort、Block Sort、Quadsort、Library Sort、Cocktail shaker Sort、Gnome Sort、Odd–ev 2022-05-18 学习笔记 #算法
C++知识点小结 C++基础知识(第一部分:定义为主) C++必备知识点C++中指针常量和常量指针的区别[ 参考链接 ] 指向常量的指针常量就是一个常量,且它指向的对象也是一个常量。 常量指针 又叫常指针,可以理解为常量的指针,也即这个是指针,但指向的是个常量,这个常量是指针的值(地址),而不是地址指向的值。 指针常量 本质是一个常量,而用指针修饰它。指针常量的值是指针,这个值因为是常量,所以是只读的,指向 2022-04-22 学习笔记 #cpp
图神经网络论文清单 论文清单:GNN的分布式加速 GNN的分布式训练 [USENIX ATC 19, Linxiao Ma] Neugraph: Parallel Deep Neural Network Computation on Large Graphs 概述:设计了一个支持muti-GPUs的分布式GNN训练框架,提出SAGA-NN的抽象模型,对于符合SAGA-NN的GNN都可以得到支持。 核心技术:图转换 2021-06-30 学习笔记