| 成果名称: | 可敏捷定制的智能视觉处理器及系统应用 |
| 完成单位: | 中国科学院深圳先进技术研究院,中山大学,中国科学院长春光学精密机械与物理研究所,芯动微电子科技(珠海)有限公司,深圳市辰卓科技有限公司,中国科学院计算技术研究所 |
| 主要人员: | 喻之斌,王峥,敖海,陈世峰,谢晓华,范艳根,聂海涛,班章,王潇逸,杨岳航,魏花,毛鸣明,李伟,赵刚东,沈健,唐亮 等61人 |
| 介绍: | 课题来源与背景: 人工智能算力底座是制约我国科技与经济发展的瓶颈,也是美国一系列出口管理条例对我国封锁的关键技术与产品。当今AI主要在云服务器上以微服务形式运行,目前面临算力分配困难、通讯能耗高、安全性差等因素,导致AI算力正逐渐从云向端侧迁移,以端补云,端云协同,是未来AI算力发展的趋势。本项目研发端侧AI计算体系结构并基于国产SMIC 40nm不受美国卡脖子的工艺完成流片、封装、测试及板卡开发,顺应技术发展趋势与国内外形式。 技术原理及性能指标: 团队自研了“多权重多线程”人工智能计算体系结构技术,进行可重构智能处理器集成电路设计并基于SMIC 40nm工艺完成智能芯片流片,完成BGA225封装,完成板卡设计与测试,研制了边缘智能视觉模组技术方案以及智能相机原型机,开发了敏捷定制智能处理器的工具链,在航天地面目标识别与工业缺陷检测场景完成应用示范。 架构与芯片主要性能指标: 1. 多权重多线程(Multiple-Weights-Multiple-Threads,MWMT)深度学习推理架构; 2. 将卷积算法在六维度并行,架构最高支持32(行)×64(列)×16(节点内MAC)=32,768 MAC乘加单元,架构峰值算力20TOPS; 3. 已流片芯片支持32×8×16=4,096 MAC,峰值算力2.5TOPS; 4. SMIC 40nm工艺流片,芯片规格5700μm×4737.6μm,主频300MHz,采用40nm,10层金属,2层顶部金属,CMOS低漏电流工艺(LL),核心电压1.1V,IO电压2.5V,DDR3速率1.2GT/s; 5. FC-BGA封装,封装规格16mm×16mm,225 ball,ball pitch 1.0mm,ball size 0.5mm; 6. 架构支持INT4, INT8, INT16, FP32多位宽模式; 7. 架构支持算子类型: a) NPU:常规卷积、点卷积、通道卷积、空洞卷积、池化、全局池化、全连接、矩阵乘、残差、ReLU/LeakyReLU/ReLU6; b) vFPU:浮点四则运算、Sigmoid、Tanh、Exp、Log、Softmax、Mish、Swish、SiLU等; c) TMU:Rearrange、Img2Col、Boxcal、Concat、Rot90、转置、Pixelshuffle、Pixelunshuffle、Upsample、Split; d) 其他:NMS、YUV2RGB、Resize、量化/反量化、定浮点转换。 主要技术创新点及先进性: 1. 多权重多线程执行模型 项目自研MWMT执行模型结合谷歌TPU张量处理器的高阵列密度与英伟达GPGPU处理器的编程灵活性,采用输出稳定机制,即深度学习计算的部分和在节点内累加。多计算线程之间具有锁步机制,空间相邻节点在单行内共享权重,在单列内共享数据。基础MWMT框架支持64×32的PE计算节点阵列,算力提升后扩展架构支持64×32×16的MAC计算节点阵列,为本项目ASIC的架构模板。 2. 仿存特征驱动的区域缓冲技术 项目研发的CNN-DMA技术针对当前GPGPU、NPU处理器引入多级缓存导致的访问竞争、长服务延时的痛点,挖掘CNN算子仿存特征,并基于特征构建可动态配置的CNN-DMA引擎,其可将DRAM数据流直接搬运至并行一级缓冲区,降低了缓冲时间与数据重复读取的概率,同时完全避免了二级缓冲区的引用,大幅度节省了芯片面积与功耗。 3. 时空数据复用与重组的存算优化 视觉神经网络所处理的图像、视频数据具备大量空间相似性与时间相似性。团队研发基于数据相似性分析的视频帧内与帧间计算复用技术,在数据缓冲完成时即可对待运算的滑动窗口数据相似性进行评估,从而剔除掉具有高相似性的滑动窗口,从而从宏观上降低了无效计算批次,提升了性能。同时对于多帧数据采用视频流重组技术,将五帧连续图像拼接成一个总线数据包,在芯片中一次性处理,大幅度降低了权重反复缓冲的开销。 4. 基于弱监督学习的图像分割方法 项目侧重发展弱监督学习处理方法,在弱监督学习图像增强、物体检测、物体分割等多个方面获得创新。包括:提出了基于弱监督的单张图像增强深度学习模型;提出基于图像显著性和轮廓交互编解码的显著物体检测方法;提出了一种新的轮廓损失函数,利用物体轮廓来引导模型感知显著物体的边界;提出一个利用无监督预训练深度网络激活图生成高质量显著性伪标签的无监督显著性物体检测方法;提出了一种基于自监督图像特定原型探索的弱监督语义分割方法。 5. 全粒度网络模型压缩与量化 采用全粒度网络模型与量化方法,从网络模型结构优化,到运算层和神经元节点裁剪,进一步细化到神经元连接裁剪及参数量化,逐步对神经网络模型进行压缩,能够最大化网络模型的压缩率。在网络裁剪方面,创新地提出网络通道及网络节点之间的联合影响量化模型,在网络量化方面,提出创新的动态最优值域方法,引入基于操作层的贪婪策略,避免了网络重训练收敛点的塌陷。 技术成熟度、适用范围与安全性: 技术成熟度(TRL)被工信部电子五所评定为7级,端侧智能技术与芯片适用于智能制造、军民融合、智能驾驶、智慧医疗等场景,安全性方面成果不涉及各类生化实验,用标准SMIC 40nm工艺完成芯片生产,具有高安全性。 应用情况及问题: 本项目成果端侧智能视觉模组应用于中国科学院长春光机所,端云协同系统应用于深圳市辰卓科技有限公司,芯片架构方案转化深圳市中科元物芯科技有限公司。在问题方面,该产品的目标应用市场定位仍需清晰化,产品尚需在实际生产环境中验证使用效果,从而对架构及各项指标进行迭代。 历年获奖情况: 广东省自然科学二等奖(2021) 第九届中国电子信息博览会金奖(2021) 广东省电子信息行业科技进步二等奖(2022) 第四届IAIC中国芯应用设计大赛特等奖(2022) 中国高交会优秀产品奖(2020) 中国高交会优秀产品奖(2022)。
|
| 批准登记号: | |
| 登记日期: | 2024-09-03 |
| 研究起止时间: | 2020-01-01至2023-06-30 |
| 所属行业: | 科学研究和技术服务业 |
| 所属高新技术类别: | 电子信息 |
| 评价单位名称: | 广东省科学技术厅 |
| 评价日期: | 2024-03-14 |
