第一章:导论;1.1半导体芯片技术概论;;1.1半导体芯片技术概论;1.2集成半导体器件技术;1.3工艺技术与设计规划;1.3工艺技术与设计规划;1.3工艺技术与设计规划;习题1;;
第二章:数字集成电路设计;2.1 CMOS电路设计;2.1 CMOS电路设计;2.1 CMOS电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;2.2时序逻辑电路设计;;2.2时序逻辑电路设计;2.2时序逻辑电路设计;;2.2时序逻辑电路设计;习题2;;
第三章:数字集成电路系统设计;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.1数字芯片设计策略;3.2互连线互连参数——电容、电阻和电感;3.2.2互连参数——电容、电阻和电感;3.2.2互连参数——电容、电阻和电感;3.2.2互连参数——电容、电阻和电感;3.2.2互连参数——电容、电阻和电感;3.2.2互连参数——电容、电阻和电感;3.2.3互连线互连线互连线互连线互连线互连线系统中的时序问题;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.1基本时序概念;3.3.2时序路径;3.3.2时序路径;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.3时序约束;3.3.4静态时序分析;3.3.4静态时序分析;3.3.4静态时序分析;3.3.4静态时序分析;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;3.4运算功能块设计;;
第六章:人工智能芯片的数据流设计;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;6.1卷积神经网络模型分析;问题总结
庞大的参数规模需要大量的存储空间,在运算过程中需要将参数搬运到处理器片上缓存,这对硬件平台的传输带宽要求极大;
浮点运算的复杂度要远高于定点运算,反映在实际应用中就是浮点运算任务在处理器上运行时的能量消耗和资源占用量要远超定点运算。例如,通过实验发现,在FPGA中,1个16位的4阶浮点乘法器要消耗2个DSP(数字信号处理器)、51个LUT(查找表)和95个FF(触发器),最大工作频率约为219MHz;而一个16位的定点乘法器仅需要1个DSP,且可以轻松达到300MHz的工作频率。
;6.2块浮点数设计;?;?;6.2块浮点数设计;6.2块浮点数设计;6.2块浮点数设计;6.2.3无偏差溢出数据处理
块浮点算法中的精度损失主要来自于浮点数与块浮点数间的转换,在尾数部分的移位操作过程中,即式(6-7),不可避免的会有一部分比特位无法完整保留下来,这部分比特数据称为溢出数据。
截断操作,直接舍弃掉溢出数据,但会引入较大的向下偏差且会在卷积层间累积,最终产生明显偏差
由于尾数位宽有限,所以浮点数能精确表达的数值也有限,在两个相邻的浮点数之间,一定有无数个不能用浮点数精确表达的实数,IEEE754标准中,对于这些不能被精确表达的数字,用最接近它们取值的浮点数近似表示,即舍入。
表6-3以实例的形式展示了四种舍入方式的计算规则(仅保留整数部分),可以发现后三种模式都保持有向上或向下的偏差,容易在卷积神经网络中逐层累积,造成层间累积误差,而RN模式则不会,是一种无偏差的舍AG真人国际入模式。
在RN模式下,会根据需要保留的最后一位的奇偶情况决定是进位或是舍弃,以保证舍入后的数据为偶数。从统计意义上考虑,须保留的最后一位为奇数或偶数的概率相当,向下和向上的偏差相互抵消。
;191;?;为了评估这两种块格式化方案的精确度,基于ImageNet图像分类数据集在VGGNet-16上进行了测试。
实验结果显示,等式(6-11)的块格式化方案相比等式(6-9),Top-1和Top-5准确率分别高出1.59%和0.68%,因此最终选择等式(6-11)方案。;6.3.2低比特块浮点数设计;为选择最短尾数位宽的块浮点格式,基于Caffe平台进行了一系列实验,测试VGGNet-16、GoogLeNet和ResNet-50三种经典网络,使用ImageNet数据集对9组不同尾数位宽组合进行评估。
实验将输入特征图和权值进行块格式化,进行矩阵乘法后输出特征图再转化为浮点数。
结果表明,当尾数位宽为8时,分类准确率下降不超过0.12%,模型精度几乎无损,特别是GoogLeNet在未重新训练下损失最小。
;6.3.3面向硬件加速器的块浮点数据流结构;6.3.4四阶误差分析模型
第一阶段;第二阶段;6.4卷积神经网络稀疏化算法;?;6.4卷积神经网络稀疏化算法;?;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;6.4卷积神经网络稀疏化算法;3.参数微调
由于掩码层的参数只是接近于0,这些卷积核的被剔除之后依然会对网络的预测精度产生一定的影响。在大多数情况下,一般会在完成卷积核的稀疏化之后对网络进行甚于参数进行微调。
注:在大多数情况下,一般会在完成卷积核的稀疏化之后对网络进行参数微调。由于在稀疏化工作中使用稀疏化正则项进行约束,使得参数产生约束效果,但参数微调的过程中,不需要剩余卷积核参数产生稀疏化效果。因此,在此处本章遵循原始网络训练效果,使用原始网络训练的正则化约束项。
第七章:人工智能芯片架构设计;7.1卷积神经网络加速器整体设计;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.1加速器设计分析;7.1.2加速器系统架构;7.1.2加速器系统架构;7.1.3硬件架构运行机理;259;7.2加速器系统控制策略;7.2.1基于循环分块的卷积运算策略;7.2.1基于循环分块的卷积运算策略;7.2.2存算并行与流水控制;7.2.2存算并行与流水控制;7.2.2存算并行与流水控制;7.3卷积层加速器设计;7.3.1卷积加速器整体设计;7.3.2混合计算分析;7.3.2混合计算分析;7.3.3混合算术卷积引擎设计;7.3.3混合算术卷积引擎设计;7.3.3混合算术卷积引擎设计;7.3.4片上存储系统设计;7.3.4片上存储系统设计;7.3.5稀疏化卷积计算调度系统;7.3.5稀疏化卷积计算调度系统;7.4全连接层加速器设计;7.4.1全连接层存储方案;7.4.2计算单元设计;7.5存储管理单元;7.5存储管理单元;7.5.1存储管理单元的重要性;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.2存储管理单元架构设计;7.5.3系统带宽需求分析;7.5.4缓存设计和其他模块的协调工作;7.5.4缓存设计和其他模块的协调工作;7.5.5缓存设计比较;7.5.5缓存设计比较;7.5.5缓存设计比较;7.5.5缓存设计比较;7.5.5缓存设计比较;参考文献;习题7;习题7;
巨星传奇-港股公司首次覆盖报告把握健康生活红利焕新明星IP价值加速进击-24081529页.pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者