一、基于流水光总线阵列的快速矩阵运算(论文文献综述)
陈晟[1](2021)在《基于载波测距与脉冲压缩技术的伪随机编码谐波雷达设计与实现》文中研究表明谐波雷达是一种对目标进行探测、识别和判断的装置,军事上常用于探测隐形飞机、隐形舰船等目标,通过接收并处理非线性目标散射的谐波信号,达到探测非线性目标的目的。由于谐波雷达对半导体和金属结极其敏感,从而能够高效、准确地探测出藏匿的通信终端、针孔摄像头和微型起爆器等设备,因此,谐波雷达民用化的意义越来越重大。本文针对现有的民用谐波雷达在近场探测时无法完成测距的痛点,融合了载波测距方案和二相编码脉冲压缩雷达方案设计了一种小型数字化低成本手持式近场谐波雷达系统,并完成了该系统的波形设计、架构设计和各子系统的数字化实现。为解决硬件资源不足的问题,本文基于脉动阵列架构,通过C/C++和Verilog混合编程的方式自主设计了一个完备的复用型硬件加速网络,自定义了Valid-Ready握手协议用于解决多模块对网络调度时的冲突问题。通过将不同模块需要计算的数据时分调度至该网络上进行运算,提升了系统的实时信号处理能力,同时极大幅度压缩了硬件资源消耗。本系统的发射机子系统实现了基于CORDIC算法的基带波形生成,设计了交互逻辑和控制逻辑,并完成了对外围芯片的驱动;载波跟踪、同步子系统重构了传统载波跟踪环,用调制信号跟踪回波并通过镜像NCO输出载波,为目标检测子系统和载波测距子系统提供相位与回波信号的载波相位相同的平稳载波信号;目标检测子系统采用二相编码脉冲压缩雷达接收机方案,利用分布式算法和硬件加速网络在FPGA中进行数字化实现;载波测距子系统利用CORDIC算法构建了高精度二象限鉴相器,在FPGA中实现了高精度测距。此外,本文利用前人在非线性结点小信号建模领域的相关成果简化了非线性结点在稳态下的回波模型。通过该模型可以模拟出不同噪声环境下谐波雷达的回波信号,这弥补了实测数据不易覆盖不同使用场景的缺陷,生成的仿真数据可以作为实测数据的补充。本文通过实测数据和仿真数据对各子系统进行了验证,结果表明各子系统均能有效地实现预期的功能。
陈文杰[2](2021)在《高速高精度矩阵求逆器的设计与实现》文中研究表明随着技术的发展和应用需求的提升,神经网络、数字信号处理、无线通信技术等领域中涉及到大量高精度浮点数运算。而矩阵运算作为信号处理的基础运算在各个领域中得到广泛应用。求逆运算是矩阵运算中最复杂的运算。传统的求逆算法由于运算复杂度过高,过程复杂不利于硬件实现。因此,国内外大量研究团队提出了一系列矩阵求逆的方法,并在硬件上进行验证和实现。矩阵求逆运算的运算复杂度与阶数三次方成正比,现有的矩阵求逆器的面向对象大多数为一些基于定点数的特殊矩阵或者定规模矩阵。因此,设计一款面向高精度高维度的硬件矩阵求逆器具有十分重要架构探索意义和工程实用价值。综上所述,本文在深入研究了现有矩阵求逆算法和硬件实现架构,开展了以下主要工作:(1)对现有矩阵求逆算法进行分析和探究,根据算法本身的运算复杂度,硬件实现复杂度和数值稳定性等特点,选取基于按列Givens旋转的矩阵分解算法,并在其基础上综合使用原位替换的并行Column-wise Givens Rotation(CGR)分解方法,和分块求逆的上三角矩阵求逆方法,充分发挥算法并行特性,确保实际电路性能。(2)根据CGR算法的特性,设计了矩阵求逆运算的硬件加速器,用于加速双精度浮点方阵的求逆。在矩阵的QR分解过程中,优化二维脉冲阵列结构,设计了一维线性结构,该结构充分发挥了CGR算法的流水化计算过程特征,压缩了分解过程中的运算周期。(3)按照标准ASCI流程完成了仿真验证、综合实现、后端优化以及版图实现,最后在Xlinx XC7V440T FPGA平台上搭建验证环境并验证。实验结果表明,本文设计的矩阵求逆器可支持任意2-32阶的双精度浮点数矩阵求逆运算,在TSMC28nm工艺下,该求逆器支持工作频率为700MHz,芯片面积为1.08mm2,可在14123个周期内完成32阶双精度浮点矩阵求逆运算,计算结果与MATLAB的平均相对误差在10-8以下,频率归一后其性能是AMD Ryzen 5 3500U CPU的40倍,面积归一后性能是NVIDIA RTX3070 GPU的118倍。
周钰致[3](2020)在《边缘计算环境中低时延高可信显示芯片的研究与设计》文中研究指明随着5G网络技术的发展,接入网络的设备数量以及网络边缘设备中产生的数据量迅速增加,这给移动网络基础设施带来了不小的负担。在这种发展趋势下,基于云计算的服务模式很难稳定地保持对网络边缘设备请求处理的实时性。一种新提出的边缘计算模型采取了将部分计算处理的过程迁移至终端设备或者网络链路中的方法,通过这种方法降低了终端设备的数据处理响应的延迟。人机交互系统的性能对用户体验的影响尤为重要,而显示设备又是人机交互的重要桥梁。因此低时延高可靠的显示系统对于边缘计算来说非常重要。本文重点针对边缘计算设备中人机交互显示系统的实时性、低功耗、可靠性三个方面的关键技术展开研究,通过算法、架构、系统、芯片四个层次协同优化的设计方法,最终实现了低时延、低功耗、高可靠的边缘计算显示芯片。本文主要的研究工作和创新点如下:(1)针对实时性需求,提出了一种适用于边缘计算的异构图形运算系统的架构,通过均衡流水线不同阶段的运算负载及顶点片元异构加速器架构设计实现了高能效的图形处理。通过自研的芯片开发板在常温室内条件下对芯片中的图形处理核进行了测试,测试过程中关闭了其他运算单元模块,图形处理核最高频率能达到200MHz。通过选取典型的边缘计算的界面进行测试,最高处理速率为152MPixels/s,性能功耗比相比于面向低成本显示系统的ARM架构微处理器芯片 STM32L476 提升了 5.8 倍。(2)针对功耗及内存带宽的限制,提出了一种基于块的实时帧缓存压缩算法,设计了压缩器的架构。通过在帧像素点产生的过程中同步进行压缩的方法,在不影响系统性能的前提下降低了运算单元的带宽需求。在基于Kintex-7 FPGA的测试平台上移植了图形处理系统和帧缓存压缩器并运行典型界面进行测试,压缩后系统功耗节省的效果相比于采用JPEG格式的帧缓存压缩方法提升了 2.3倍。(3)针对可靠性需求,提出了一种多周期累加冗余信息的脉动阵列容错算法,设计了容错脉动阵列架构。通过软件仿真注入错误验证错误恢复率,实验结果表明错误恢复率能达到99%,错误恢复情况优于时间空间冗余算法,能满足面向深度学习应用的脉动阵列的需求。采用Synopsys公司的综合工具进行综合并对比面积,在乘法器精度为32bit的情况下,冗余面积为61.5%,对比双模冗余架构节省了 38.5%的冗余面积,相比于错误迁移方法可以实现软错误的错误检测及错误恢复。(4)设计并流片了一款基于RISC-V扩展指令集的高能效显示芯片。在常温常压条件下,对芯片进行了测试。测试结果表明芯片系统的运行功耗为65mW,相比于学术界中统一着色器架构的图形处理器芯片的研究成果功耗降低了 3倍。通过面向边缘计算的典型场景进行测试,性能功耗比相比于主流基于ARM的微处理器芯片STM32L476提升了 1.49倍。通过算法、架构、系统多个层面进行了软硬件协同优化设计,并在芯片设计层面上采用了低功耗的设计方法,本文最终实现了面向边缘计算的高能效、高可靠显示芯片。
沈俊忠[4](2020)在《面向大数据处理的异构融合可重构数据流加速器研究》文中指出近年来,人工智能技术迅猛发展,在全球范围内受到了广泛关注。以卷积经网络(Convolutional Neural Networks)、图卷积神经网络(Graph Convolutional Neural Networks)为代表的深度学习算法的不断更新迭代对计算机系统的计算性能与能耗要求急剧提高。然而,由于近年来摩尔定律发展的停滞以及冯诺伊曼结构限制,现有的数据中心架构无法高效地实现深度学习与大数据相结合的应用加速。以FPGA为代表的定制化硬件为解决上述问题提供了新思路,一方面,FPGA特有的可重构特性使其能够适应算法的快速发展变化,克服了ASIC解决方案对新兴算法适应性差的的问题;另一方面,FPGA在加速深度学习算法体现出的高能效特性也让其备受研究人员的青睐。随着国内外各大科技公司纷纷在数据中心部署FPGA设备构建异构计算加速集群,CPU+FPGA体系结构在处理大数据应用方面的优势逐渐得到肯定,CPU+FPGA异构计算体现出非常好的发展前景。本文基于CPU-多FPGA异构融合体系结构,面向深度学习与大数据相结合的典型应用,围绕加速器体系结构、算法到硬件映射方案、数据流加速器、性能模型、分布式加速方案等关键技术进行分析研究。本文的研究内容及创新点如下:·研究三维卷积神经网络的FPGA加速技术。本文提出了一种面向二维/三维卷积神经网络加速的模板化体系结构和设计方法。首先,为了减少卷积神经网络的算法复杂度,我们对Winograd快速算法进行扩展使其能运用到三维卷积神经网络中。其次,我们从二维/三维卷积神经网络中抽取了公共算子,并基于此设计了一系列可重构计算模板。最后,我们采用高层次综合语言对计算模板进行实现,并基于这些计算模板构建了加速引擎,实现了模板化加速器的快速生成。由于二维、三维卷积神经网络算法复杂度的差异,先前的工作针对二维卷积神经网络加速器提出的设计空间探索方法对于三维卷积神经网络加速器可能不再适用。针对该问题,我们提出了一种统一的性能分析模型,实现了对二维/三维卷积神经网络加速器的设计空间探索并给出了最优设计参数的搜索方法。实验结果表明针对VGG和C3D网络,我们的加速器在较低的计算资源开销下获得了与目前先进的神经网络加速器相当的性能。在计算吞吐方面,C3D网络加速器获得了13倍于CPU的性能提升;在计算能效方面,C3D网络加速器相对于CPU和GPU分别获得了60倍和30倍的提升。·研究完整的二维/三维卷积神经网络到FPGA硬件的映射方案。本文提出了一种将完整的二维/三维卷积神经网络高效映射到流水化多加速器结构的方案。为了解决网络层规模差异而导致加速器计算效率降低的问题,我们在第一项研究内容的基础上进一步提出了一种流水化多加速器方案,该方案最主要的特点是将所有的层间数据存于片上,从而增加了层间数据复用率,有效降低了片外访存开销,与之前的工作相比,我们进一步提升了加速器的吞吐和效能。为了降低层间数据的片上存储开销,我们首先提出了一种层融合确定算法,通过改变融合层(相邻的两个卷积层)中的循环顺序,实现了层间分块数据的有效利用。其次,为了实现网络层到多个加速器的高效映射,我们基于K-means聚类思想提出了一种层聚类方法,将分块参数接近的网络层进行聚类并映射到同一个加速器。此外,为了解决加速器之间的负载不均衡状况,我们还提出了一种简单而高效的负载均衡调度,进一步提升加速器整体的计算效率。实验结果表明,相比于之前提出的加速器方案,本文提出的流水化多加速器方案获得了最高2.3倍性能提升,在计算效能方面,我们相比于CPU、GPU分别提升了64倍和5倍。·研究以三维卷积神经网络为核心的医疗影像识别应用的并行加速方案。深度学习算法已成功运用到医疗影像分析应用中,然而,应用性能提升的同时,其算法的计算、存储开销也不可避免地增加,导致了应用处理延迟开销的增大。为了解决上述问题,我们以基于三维卷积神经网络的肺结节检测应用为例展开研究,提出了一套基于CPU-多FPGA异构计算平台的肺结节检测加速方案。我们首先对算法并行性进行了深入的分析,提取了核心计算负载——两种三维卷积神经网络:LNS-net和LNC-net,并针对两种网络的不同特征,分别提出了“模型并行”以及“数据并行”的映射方案。其次,我们在第二章提出的三维卷积神经网络加速器基础上进行了改进,节省了硬件资源,提高加速器资源利用率。此外,我们在FPGA节点间设计了两种互连类型——常规通路和快速通路:满足了算法映射方案对FPGA节点间通信的需求。最后,我们采用依托项目开发的定制FPGA加速板卡进行测试,实验结果表明,本文提出的异构系统具有良好的扩展性,并且面向LNS-net和LNC-net的加速方案都获得了高于CPU、GPU的计算吞吐和能效比。与此同时,系统还达到了世界先进水平检测精度。·研究面向深度图卷积神经网络的并行加速方案。我们提出了一种面向深度图卷积神经网络的分布式并行加速方案。我们选取了一个典型的深度图卷积神经网络算法——DAGCN作为主要研究对象,从算法的计算特征、稀疏性等方面对其进行了分析,并通过实验验证了网络层精度与网络深度之间存在正相关关系。我们提出了一种高效的网络映射方案,CPU负责网络层结果的聚合操作,而FPGA则对主要的计算负载——图卷积层进行加速。与前面提到的流水化并行加速方案类似,我们在每个FPGA节点内实现了多个图卷积层加速引擎,以实现多个图卷积层的并行加速。我们将所有节点内的加速引擎组织成横跨所有FPGA节点的长流水线,旨在提高FPGA节点的计算吞吐。为了找到最优设计参数,实现加速器性能最大化,我们建立了数学模型评估加速器的性能与FPGA资源开销。实验结果表明,我们在六加速节点配置下可达到2.6 TFLOPS的实测性能;我们与当前最先进的基于FPGA的图卷积神经网络加速器工作进行对比,进一步表明了我们的加速器方案在计算吞吐和计算效率方面都达到了先进的水平。
邱俊豪[5](2020)在《高速高精度矩阵运算器的设计与实现》文中研究表明随着大数据时代的到来,人工智能、云计算等新兴技术被广泛使用,现代数字信号处理系统需要实时处理高维度、高精度以及高带宽的复杂信号。矩阵运算作为信号处理系统的重要基础运算,有着广泛的应用。其中矩阵求逆是最复杂也是应用最广的运算之一,受到国内外学者重点关注,提出了大量有效的矩阵求逆算法,并通过不同的硬件平台进行了验证与实现。矩阵求逆的运算量随矩阵规模的增大呈指数增大,而硬件实现的资源有限。故常见的矩阵求逆多以特殊矩阵或者小规模矩阵为对象,用于大规模任意矩阵求逆的方法及其硬件实现的研究较为少见。在当今时代背景下,大规模非奇异矩阵求逆是数字信号处理中极具挑战且不可避免的课题之一,具有重要的现实意义与工程价值。针对上述问题,本文对矩阵求逆算法以及其硬件架构设计进行了深入研究。主要内容如下:(1)分析研究矩阵求逆的各类算法,根据数值稳定性、运算复杂度以及硬件实现难度等因素,选定基于Givens-QR分解的矩阵求逆算法。然后,根据算法的运行特性,设计了基于原位替换的混合粒度并行Givens-QR分解算法和上三角矩阵求逆的分块递归算法,充分挖掘算法的运算并行度。(2)根据优化的求逆算法,设计了以矩阵求逆为核心的矩阵运算硬件加速器。论文在二维脉动阵列结构的基础上设计了一种一维线性流水结构,有效压缩运算资源。运算器可以直接加速2-32阶双精度浮点矩阵求逆,兼容了线性矩阵运算、矩阵阵乘以及矩阵转置操作。(3)完成矩阵运算器的全部前后端设计工作,并在Xilinx XC7V2000T型FPGA平台上搭建验证环境并完成验证。结果表明,本文设计的矩阵运算器在TSMC28nm工艺下,工作主频700MHz,芯片面积为2.25mm2,能够完成全部预定矩阵运算功能,其中32阶双精度浮点矩阵求逆耗时14910个周期内,计算精度达到10-15,其速度是NVIDIA RTX2070 GPU的140倍。
余振波[6](2020)在《基于SystemC的粗粒度可重构通用浮点处理器设计》文中提出可重构系统通常由可重构阵列和通用处理器两部分构成,在运行时程序中的计算密集型代码块在可重构阵列上执行,程序中的其余部分在通用处理器上执行,因而可重构系统兼有专用计算的高性能和通用计算的灵活性,是新型计算的一个重要发展方向。在设计一个可重构系统的过程中,往往涉及粒度、拓扑结构、内存系统和编程模型等诸多方面的平衡考量,这使得可重构系统的设计非常复杂,设计人员需要在设计进入RTL级之前寻找用于评估系统性能和探索架构的方法。解决这个问题,可以使用SytemC语言进行事务级建模(Transaction Level Modeling,TLM)。TLM是一种基于高抽象层次的快速建模方法,当目标系统十分复杂时,利用SystemC事务级模型,在体系架构阶段就可以对系统进行验证,加快仿真速度,缩短设计周期。本文设计了一款可重构通用浮点处理器(Reconfigurable General-purpose Floating-point Processor,RGFP),可用作多核系统的可重构运算节点以提供更高的算力支持。为了能够在设计早期对RGFP进行功能仿真和性能模拟,本文采用SystemC建模语言,基于事务级建模思想,对RGFP进行事务级建模。建模工作分为两个部分:一是搭建以通用处理器为核心的SoC系统平台;二是设计使用动态调度方案的可重构硬件子系统。首先,SoC系统平台的搭建包括RISC-V内核、总线、中断控制器以及外设适配接口的建模。本文的RISC-V内核实现了RV32IMAC指令集,SoC系统平台内各个模块之间的通信均符合TLM2.0规范;其次,在可重构硬件子系统设计部分,采用一维阵列的形式将各种浮点运算单元组织成可重构阵列,提出一种基于两级配置信息的动态调度方案,使用动态调度的方法将计算任务映射到可重构阵列。在建模工作完成之后,采用两种测试方案对RGFP进行测试:一是在SoC系统平台(TLM模型)和PULPino平台(RTL模型)上运行基准测试程序,通过对比仿真速度证明SystemC事务级模型在功能仿真和性能模拟方面的高效性。二是在可重构系统上运行多种浮点计算任务来验证RGFP的数据路径动态重构特性,并行计算能力以及算法适应能力。最后通过实验得出,可重构系统的事务级模型在仿真速度上相比于传统的RTL模型提高2~3个数量级,本文的可重构通用浮点处理器对浮点计算任务有良好的加速效果。
汪杨[7](2020)在《基于NoC多核系统的矩阵乘法实现》文中研究表明随着阵列信号规模的急剧扩大,数字信号系统对大规模数据运算的性能要求不断提升,实现一个高性能的并行计算系统具有重要的现实意义和工程价值。在密集型计算中,传统单核处理系统已经难以满足运算性能的要求,因此,利用多核技术和并行算法协同处理的方法来实现密集型计算是时代背景下必须解决的课题之一。矩阵运算是密集型计算的核心问题之一。本文研究了矩阵运算中并行算法和多核系统的关系,对多核系统的设计方法进行了初步探索,并以大维度的矩阵为研究对象,分析矩阵乘法的并行算法在同构多核系统中数据的分配、传输和运算形式,实现了矩阵乘法在多核系统中的任务调度和资源分配,充分发挥了多核系统的并行计算能力。论文的主要工作如下:首先分析了多种矩阵乘并行算法,根据算法的并行度和硬件实现的可行性选定了基于Systolic阵列算法作为矩阵乘法的并行计算方法,并对多核系统的存储方式、数据传输以及运算方式进行抽象模型的搭建。其次根据矩阵乘并行算法的存储、通信及运算模型设计了2D-Mesh NoC同构多核系统,通过三层网络实现了系统控制层和数据传输层的分离,提高了系统整体的通信效率,同时通过流、脉动、存储三种运算模式使得运算系统具有良好的灵活性。最后在有限的带宽资源和运算资源下实现了不同维度矩阵乘法在NoC多核系统中的算法映射,针对各个算法在系统中的运算结果进行验证、对比、分析和总结,并提出了进一步的优化方向。
张磊磊[8](2020)在《大点数FFT加速IP设计与验证》文中进行了进一步梳理现代数字信号处理技术所面对的是大规模复杂的实时图像处理、高密度大体量的语音信号处理、雷达信号技术等数据流量频繁交互的工作场景,每个领域均对系统高效率、低延迟的实时性处理能力提出要求,且对于硬件性能提升的需求永不止步;随着芯片设计规模的不断增加,设计难度不断提升,所面临的各种挑战层出不穷,上市时间的期限又相对缩短,在鼓励So C设计的IP核可集成的同时,大规模So C不可避免地对IP复用性、专业性和快速集成性提出了更高的要求,这就对应用于各种不同专业场景的IP内核开发带来了巨大的需求。快速傅里叶变换作为数字信号处理领域里一种不可或缺的处理手段,相比于软件实现的方式,专用的硬件加速IP设计能够提高系统的处理效率、降低设备的功耗、减少系统的延时等待时间,因此研究高性能、高精度、低延迟且易于工程快速实现的FFT加速IP核的工作变得极具市场应用价值。本文首先通过深入探讨目前较为常用地实现FFT运算的各种算法原理和特点,针对经典CTA算法的几种固定基-2n实现原理进行深入分析,总结了一维固定基-2算法、一维固定基-4算法的各级运算规律;结合项目的具体要求,选定CTA算法中的一维固定基-2/8蝶形运算作为FFT求解的关键步骤;研究了目前较为常用的FFT运算硬件架构:基于流水线结构、基于存储器结构以及基于并行、阵列结构等,详细分析了一维固定基-2算法SDF/MDC流水结构的运算特征;充分考虑加速器运算性能、占用资源等因素,选定基于存储器、地址无冲突设计的硬件复用结构进行实现;然后对运算实现的关键部分:存储控制模块、蝶形运算模块、操作数/结果数地址无冲突存储规律、基于旋转因子压缩算法的存储模块、操作数/结果数/旋转因子的地址生成模块、IFFT运算实现等原理进行了详细地设计说明;最后完成了对RTL代码的测试验证工作:在工作频率为400Mhz条件下,软件仿真的结果表明最大32K点的运行时间为51.63μs,在误差允许的范围内功能正确;同时借助FPGA进行软硬件联合验证,实验数据表明硬件实际执行周期数与软件结果一致,确保了设计结果的可靠性、准确性。通过对1K、2K、4K、8K、16K、32K点FFT运算进行可灵活配置的设计,完全满足在工作频率为400MHz条件下,80μs内完成一次32K点FFT/IFFT运算的要求,为运算IP的高效复用、缩短处理器的研发周期,帮助解决信号与信息处理等领域的硬件加速问题奠定了基础。
刘斌[9](2020)在《一种基于IEEE-754标准的浮点运算加速器的设计及性能优化》文中研究指明近年来,继理论科学和实验科学之后,高性能计算成为人类科学研究的第三大范式。浮点矩阵运算作为高性能嵌入式系统中的基础运算也备受关注,因而针对浮点矩阵运算的硬件加速器的设计实现是当代高新技术领域的研究热点和难点。针对运算、访存和数据密集型矩阵运算,设计专用的ASIC芯片以及对大型矩阵运算进行细颗粒度的运算拆分提高资源的利用率是实现大规模矩阵运算加速的有效方案之一。论文在深入研究了32位RISC通用主处理器及通用浮点运算加速器的基础上,设计实现了基于RISC+SIMD架构的向量浮点运算加速器,能够实现满足IEEE-754标准的单/双精度浮点矩阵加法、减法、乘法、负乘、乘加、乘减、负乘加和负乘减的运算。论文的主要研究工作及成果包含以下几个方面:1.设计实现了基于RISC+SIMD架构的向量浮点运算加速器。其内部设计了16个FMAC并发单元和48个64位寄存器,FMAC结构排布参考二维矩阵式脉动阵列结构并进行了结构优化,在保留原系统功耗低、响应快等特点的基础上,解决了单一的通用浮点运算加速器在取数据和执行并行度上的瓶颈,向量浮点运算加速器有效的解决了数据密集型运算所面临的“算力”问题。2.专门开辟了向量浮点运算加速器与主处理器片内SRAM的高位宽快捷访问通道,数据直接从片内SRAM取;同时向量浮点运算加速器还设计了AHB的master接口可以访问总线上的存储数据,只有少量的控制指令走协处理器通道,有效解决了数据密集型运算所面临的“数据吞吐效率”问题。3.根据向量浮点运算加速器的硬件结构,借鉴Goto-BLAS函数库的思想,设计并优化了通用GEMM汇编函数库,能够实现对任意维度矩阵的运算拆分。测试结果显示向量浮点运算加速器采用汇编函数库实现浮点矩阵运算的性能是采用C语言函数库性能的1044倍;通用浮点运算加速器采用汇编函数库实现浮点矩阵运算的性能是采用C语言函数库性能的210倍。4.论文对单/双精度浮点矩阵加/减法运算、转置运算以及乘法运算进行了详细的性能测试对比分析,结果显示向量浮点运算加速器的性能分别是通用浮点运算加速器性能的3.13.5倍、2.52.9倍以及6.17.6倍数,实现了良好的浮点矩阵运算加速。5.最后,对论文设计的向量浮点运算加速器使用SMIC40nm CMOS工艺库进行综合,其综合的面积为1.1100863088mm2,工作频率达到600MHz,总功耗为719.3m W,其浮点矩阵运算性能能够达到2000MFLOPS以上。
林洪训[10](2020)在《基于FPGA组织运动快速计算方法研究》文中研究表明超声弹性成像技术可以定量地计算组织的运动场,进而获取定量、可视化的病变区组织弹性信息。超声弹性成像技术自从被提出以来就得到了迅速的发展,目前超声弹性成像被广泛用于人体软组织病变的诊断,对人体软组织癌症肿瘤等病变的临床诊断意义重大。组织运动场的计算是弹性成像算法的核心,选择准确的运动模型和高并行算法以及高性能的处理平台对组织运动快速计算具有十分重要的意义。将仿射运动模型和光流法结合,不但从根源上解决了组织运动描述不精确的问题,而且从一定程度上提高了算法的并行性,进一步提高了组织运动估计的速度。不过,目前上述算法的最大问题是在通用的串行处理器上计算仍然比较耗时,速度慢,其主要原因是每帧超声回波数据量大以及算法涉及大量矩阵运算,导致仿射光流算法在软件串行下运算速度下降很快,从而限制了其在实际系统中的应用。通用的串行处理器无法满足组织运动快速计算的需求。FPGA细粒度并行、可重构的灵活特性,使得基于FPGA的嵌入式应用系统被广泛关注。首先理论分析,使用前沿的HLS高级综合语言设计实现了仿射光流组织运动计算硬件加速器;并从软硬协同设计角度,实现了基于ZYNQ异构加速平台的仿射光流硬件加速器的系统级封装和测试,验证了仿射光流IP的移植性和通用性。本文最后通过综合实验可知,当处理的两帧压缩前后RF数据大小为1625*449时,并在选取的压缩前后ROI块上做一次仿射光流计算相比软件串行,速度提高了一个数量级。通过系统级的测试,整个组织运动计算系统完成所有块上的仿射光流计算,从原始数据到生成组织位移和应变图像(插值前)的速度比软件串行提高了4倍。
二、基于流水光总线阵列的快速矩阵运算(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于流水光总线阵列的快速矩阵运算(论文提纲范文)
(1)基于载波测距与脉冲压缩技术的伪随机编码谐波雷达设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 课题研究背景及意义 |
§1.2 国内外研究现状及进展 |
§1.3 论文的主要内容与创新点 |
第二章 非线性结点谐波再辐射模型建模与环路验证 |
§2.1 非线性目标等效模型与谐波再辐射原理分析 |
§2.2 非线性结点的小信号模型与简化 |
§2.2.1 半导体PN结的小信号模型分析与简化 |
§2.2.2 金属结点的小信号模型分析 |
§2.3 非线性结点稳态下的回波仿真模型 |
§2.4 本章小结 |
第三章 谐波雷达总体设计方案 |
§3.1 传统脉冲压缩雷达方案的局限性 |
§3.1.1 脉冲压缩雷达在谐波探测场景下的数学建模 |
§3.1.2 脉冲压缩雷达在近场探测时的局限性分析 |
§3.2 一种新型的近场谐波雷达设计方案 |
§3.2.1 谐波雷达系统发射波形设计 |
§3.2.2 谐波雷达系统整体设计 |
§3.3 本章小结 |
第四章 发射机子系统设计与数字化实现 |
§4.1 发射机子系统总体方案设计 |
§4.2 波形生成模块设计与实现 |
§4.2.1 CORDIC Mode NCO设计与实现 |
§4.2.2 伪随机编码生成器设计与实现 |
§4.2.3 无乘法器的测试波形生成模块设计与实现 |
§4.2.4 无乘法器的工作波形生成模块设计与实现 |
§4.3 交互设计 |
§4.3.1 交互接口设计 |
§4.3.2 专用寄存器设计 |
§4.4 驱动设计 |
§4.4.1 AD9117 时序优化 |
§4.4.2 ADF4351 时序优化 |
§4.5 发射机子系统的板级验证 |
§4.5.1 发射机子系统射频测试 |
§4.5.2 发射机子系统环路测试 |
§4.6 本章小结 |
第五章 载波跟踪、同步子系统环路建模与数字化实现 |
§5.1 载波跟踪、同步子系统总体方案设计 |
§5.2 载波跟踪、同步子系统环路建模与核心参数计算 |
§5.3 载波跟踪、同步子系统核心模块数字化实现 |
§5.3.1 基于脉动阵列架构的相干积分器设计 |
§5.3.2 环路滤波器设计 |
§5.4 载波跟踪、同步子系统数字化实现和测试 |
§5.5 本章小结 |
第六章 基于脉动阵列的目标检测子系统设计与数字化实现 |
§6.1 目标检测子系统总体方案设计 |
§6.1.1 子系统总体设计导论 |
§6.1.2 子系统设计方案 |
§6.2 基于双缓冲积分器的抽取滤波器设计 |
§6.2.1 模块有效性的理论推导与仿真验证 |
§6.2.2 模块的数字化实现 |
§6.2.3 相较传统的CIC抽取滤波器的优势 |
§6.3 基于复用型硬件加速网络的数字匹配滤波模块设计 |
§6.3.1 二相编码谐波雷达匹配滤波器权系数序列的理论推导 |
§6.3.2 基于复用型硬件加速网络的数字匹配滤波调度设计 |
§6.3.3 本方案相较传统方案的增益 |
§6.4 基于复用型硬件加速网络和分布式结构的CFAR模块设计 |
§6.4.1基于复用型硬件加速网络的CA-CFAR模块的优势和设计方案 |
§6.4.2基于分布式结构实现位拓展的CA-CFAR模块理论推导 |
§6.4.3基于复用型硬件加速网络的CA-CFAR矩阵运算调度设计 |
§6.4.4 CA-CFAR独占子模块的数字化实现 |
§6.5 基于脉动阵列的512 阶全流水复用型硬件加速网络设计和实现 |
§6.5.1 复用型硬件加速网络胞元结构设计 |
§6.5.2 复用型硬件加速网络结构设计 |
§6.5.3 复用型硬件加速网络数据交互设计 |
§6.6 基于复用型硬件加速网络的目标检测子系统数字化实现与测试 |
§6.6.1 目标检测子系统状态机设计 |
§6.6.2 目标检测子系统测试和结果分析 |
§6.7 本章小结 |
第七章 载波测距子系统建模与数字化实现 |
§7.1 载波测距子系统总体方案设计 |
§7.2 载波测距子系统的数学建模 |
§7.3 载波测距子系统的数字化实现 |
§7.3.1基于CORDIC算法的高精度二象限鉴相器设计 |
§7.3.2 载波测距子系统顶层模块设计和测试 |
§7.4 本章小结 |
第八章 工作总结与展望 |
§8.1 工作总结 |
§8.2 展望 |
致谢 |
攻读硕士期间主要研究成果 |
参考文献 |
附录 |
(2)高速高精度矩阵求逆器的设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 课题来源 |
1.4 主要工作内容 |
1.5 论文结构 |
第二章 矩阵求逆介绍 |
2.1 矩阵求逆运算 |
2.1.1 矩阵求逆方法介绍 |
2.1.2 矩阵求逆方法对比 |
2.1.3 三角矩阵求逆方法 |
2.2 矩阵求逆算法优化 |
2.2.1 基于CGR(Column-wise Givens Rotation)翻转的QR算法 |
2.2.2 上三角矩阵求逆算法优化 |
2.2.3 矩阵乘优化 |
2.2.4 优化分析 |
2.3 线性矩阵求逆分析 |
2.3.1 线性矩阵分析 |
2.4 本章小结 |
第三章 高速高精度矩阵求逆器的硬件实现 |
3.1 矩阵求逆器硬件实现介绍 |
3.2 矩阵求逆器的硬件架构和工作流程 |
3.2.1 硬件架构 |
3.2.2 矩阵求逆器的工作流程 |
3.3 控制逻辑单元设计 |
3.4 不可逆矩阵判断单元设计 |
3.4.1 线性矩阵判断 |
3.5 CGR分解单元设计 |
3.5.1 细粒度并行结构介绍 |
3.5.2 基于Givens-QRD算法的二维脉动阵列分解结构介绍 |
3.5.3 基于CGR-RD算法的一维分解结构介绍 |
3.6 矩阵乘和三角矩阵求逆设计 |
3.7 存储单元及存储规则设计 |
3.8 地址生成单元及地址规则设计 |
3.8.1 源矩阵存储地址规则 |
3.8.2 CGR-QR分解地址规则 |
3.8.3 上三角矩阵求逆地址规则 |
3.8.4 矩阵阵乘地址规则 |
3.9 交叉开关设计 |
第四章 矩阵求逆器的验证与性能分析 |
4.1 验证方案 |
4.2 MATLAB算法验证 |
4.3 UVM验证 |
4.3.1 UVM简介 |
4.3.2 验证平台框架 |
4.3.3 验证平台搭建 |
4.3.4 代码覆盖率收集 |
4.4 硬件验证 |
4.4.1 ASIC验证版图 |
4.4.2 硬件资源分析 |
4.4.3 不可逆矩阵测试 |
4.4.4 误差分析 |
4.4.5 运算周期分析 |
4.5 性能分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(3)边缘计算环境中低时延高可信显示芯片的研究与设计(论文提纲范文)
摘要 |
abstract |
符号说明 |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 边缘计算的发展概述 |
1.1.2 边缘计算的研究价值 |
1.1.3 边缘计算中的人机交互系统面临的挑战 |
1.1.4 论文的研究方法 |
1.2 关键技术及研究现状 |
1.2.1 图形运算加速技术 |
1.2.2 缓存压缩技术 |
1.2.3 容错技术 |
1.3 本文研究成果及文章结构 |
第2章 面向边缘计算的图形处理技术研究 |
2.1 相关技术概述 |
2.1.1 基于嵌入式CPU的图形绘制技术 |
2.1.2 移动GPU的图形绘制流水线概述 |
2.1.3 IMR与TBR渲染模式 |
2.1.4 降低图形运算功耗的研究 |
2.2 面向边缘计算的图形处理算法研究 |
2.2.1 边缘计算图形化界面需求分析 |
2.2.2 面向边缘计算的图形处理流水线设计 |
2.2.3 模型描述 |
2.2.4 顶点处理流程 |
2.2.5 像素着色流程 |
2.3 面向边缘计算的图形处理IP核设计 |
2.3.1 流水线瓶颈分析 |
2.3.2 基于TBR的GPU整体架构设计 |
2.3.3 顶点处理器架构设计 |
2.3.4 像素着色引擎架构设计 |
2.4 实验结果与分析 |
2.4.1 软件模型与流水线测试 |
2.4.2 IP综合与分析 |
2.5 本章小结 |
第3章 帧缓存压缩技术研究 |
3.1 相关技术概述 |
3.1.1 无损帧缓存压缩技术 |
3.1.2 GPU系统中帧缓存压缩需求 |
3.1.3 基于块的纹理压缩技术 |
3.1.4 基于频域的压缩技术 |
3.2 实时帧缓存压缩算法研究 |
3.2.1 场景分析 |
3.2.2 算法设计 |
3.3 帧缓存压缩IP核设计 |
3.3.1 帧缓存压缩器整体设计 |
3.3.2 子模块设计 |
3.4 实验结果与分析 |
3.4.1 压缩算法评估 |
3.4.2 带宽压缩及性能提升 |
3.4.3 功耗评估 |
3.4.4 IP综合及评估 |
3.5 本章小结 |
第4章 脉动阵列容错技术研究 |
4.1 面向脉动阵列的容错技术研究现状 |
4.1.1 面向硬错误的容错架构 |
4.1.2 面向软错误的容错架构 |
4.2 脉动阵列容错架构设计 |
4.2.1 背景描述 |
4.2.2 容错算法 |
4.2.3 容错架构设计 |
4.2.4 系统分块冗余架构设计 |
4.3 实验结果与分析 |
4.3.1 实验方法 |
4.3.2 错误恢复率 |
4.3.3 额外面积消耗 |
4.4 本章小结 |
第5章 面向边缘计算的高能效显示芯片系统的研究与设计 |
5.1 显示芯片中微处理器指令集研究 |
5.1.1 微处理器指令集概述 |
5.1.2 指令集选择的研究 |
5.1.3 指令集扩展的研究 |
5.1.4 RISC-V处理器IP核设计 |
5.2 显示芯片存储系统架构研究 |
5.2.1 边缘计算中数据处理瓶颈分析 |
5.2.2 分层存储系统架构设计 |
5.3 显示芯片总线系统架构研究 |
5.3.1 片上总线概述 |
5.3.2 设备互联与仲裁研究 |
5.3.3 系统互联架构设计 |
5.4 显示芯片整体系统架构设计 |
5.5 本章小结 |
第6章 面向边缘计算的高能效显示芯片的实现与验证 |
6.1 显示芯片低功耗设计 |
6.1.1 功耗来源分析 |
6.1.2 门控时钟 |
6.1.3 多电压设计 |
6.2 显示芯片综合与实现 |
6.2.1 逻辑综合 |
6.2.2 后端设计及流片 |
6.3 显示芯片的测试与验证 |
6.3.1 综合及版图设计 |
6.3.2 测试平台介绍 |
6.3.3 边缘计算场景测试 |
6.3.4 显示芯片性能测试 |
6.3.5 性能对比 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)面向大数据处理的异构融合可重构数据流加速器研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 相关研究 |
1.2.1 新兴异构系统结构 |
1.2.2 卷积神经网络及其加速方法相关研究 |
1.2.3 图神经网络研究 |
1.2.4 高级综合工具 |
1.3 本文主要研究内容及创新点 |
1.4 论文组织结构 |
第二章 面向二维/三维卷积神经网络的可重构模板化加速器研究 |
2.1 引言 |
2.2 三维卷积神经网络算法分析 |
2.3 Winograd算法扩展 |
2.4 模板化设计方法 |
2.4.1 算法考量 |
2.4.2 提取公共算子 |
2.4.3 可重构模板设计 |
2.4.4 模板化加速器 |
2.4.5 基于高级综合工具的优化方法 |
2.5 加速器设计空间探索 |
2.5.1 天花板模型 |
2.5.2 性能模型 |
2.5.3 资源模型 |
2.6 实验评估 |
2.6.1 实验设置 |
2.6.2 评估结果 |
2.7 相关工作 |
2.8 本章小节 |
第三章 支持全网络并行加速的多加速器流水线设计 |
3.1 引言 |
3.2 神经网络加速器工作方式 |
3.3 层融合技术概述 |
3.4 网络映射方案 |
3.4.1 CNN网络层间数据重用方式分析 |
3.4.2 融合层的确定算法 |
3.4.3 网络层聚类 |
3.4.4 负载均衡调度方案 |
3.5 加速器设计空间探索 |
3.5.1 性能模型 |
3.5.2 资源模型 |
3.6 实验评估 |
3.6.1 实验设置 |
3.6.2 性能分析 |
3.6.3 相关工作 |
3.7 本章小节 |
第四章 基于CPU-FPGA异构平台的医疗影像识别加速方案 |
4.1 引言 |
4.2 肺结节检测 |
4.2.1 算法概述 |
4.2.2 算法分析 |
4.3 稀疏三维Winograd算法 |
4.4 CPU-多 FPGA异构并行加速系统 |
4.4.1 系统总览 |
4.4.2 三维反卷积层加速器 |
4.4.3 网络接口模块 |
4.4.4 网络模型映射方案 |
4.4.5 节点通信优化 |
4.5 实验评估 |
4.5.1 实验设置 |
4.5.2 实验结果 |
4.6 相关工作 |
4.7 本章小节 |
第五章 面向深度图卷积神经网络的分布式并行加速研究 |
5.1 引言 |
5.2 图卷积神经网络变体模型 |
5.2.1 图卷积神经网络的稀疏性分析 |
5.2.2 网络精度与网络深度的关系 |
5.3 稀疏矩阵压缩方法 |
5.4 矩阵乘并行分块算法 |
5.5 分布式并行加速方案 |
5.5.1 系统结构 |
5.5.2 深度图卷积神经网络映射方案 |
5.5.3 图卷积神经网络加速器 |
5.6 系统性能与资源评估 |
5.6.1 性能模型 |
5.6.2 资源模型 |
5.7 实验评测 |
5.7.1 实验设置 |
5.7.2 性能分析 |
5.8 相关工作 |
5.9 本章小节 |
第六章 工作总结与未来展望 |
6.1 工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(5)高速高精度矩阵运算器的设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 主要工作内容 |
1.4 课题来源 |
1.5 论文结构 |
第二章 矩阵运算介绍 |
2.1 矩阵运算算法分析 |
2.2 矩阵求逆运算 |
2.2.1 矩阵求逆方法介绍 |
2.2.2 矩阵分解算法分析 |
2.2.3 三角矩阵求逆 |
2.3 非求逆矩阵运算 |
2.3.1 线性矩阵运算 |
2.3.2 矩阵阵乘 |
2.3.3 矩阵转置 |
2.4 矩阵运算算法优化 |
2.4.1 基于原位存储的混合粒度并行Givens-QR分解算法 |
2.4.2 三角矩阵的分块递推求逆 |
2.4.3 其余矩阵运算优化 |
2.4.4 优化算法分析 |
2.5 本章小结 |
第三章 矩阵运算器的硬件设计与实现 |
3.1 矩阵运算器硬件实现设计 |
3.2 矩阵运算器的硬件架构与工作流程 |
3.2.1 矩阵运算器的硬件架构 |
3.2.2 矩阵运算器的工作流程 |
3.3 控制逻辑单元设计 |
3.4 可重构运算单元设计 |
3.4.1 Givens-QR分解运算单元设计 |
3.4.2 三角矩阵求逆及矩阵阵乘运算单元设计 |
3.4.3 其余矩阵运算计算单元设计 |
3.5 存储单元及存储规则设计 |
3.6 地址生成单元及寻址规则设计 |
3.6.1 源矩阵存储地址跳变规则 |
3.6.2 Givens-QR分解地址跳变规则 |
3.6.3 上三角矩阵求逆地址跳变规则 |
3.6.4 矩阵阵乘地址跳变规则 |
3.6.5 其余矩阵运算地址规则 |
3.7 交叉开关设计 |
3.8 外部接口设计 |
3.8.1 AXI接口设计 |
3.8.2 AXI配置信息 |
3.9 本章小结 |
第四章 矩阵运算加速器的验证与性能分析 |
4.1 验证方案 |
4.2 Matlab模型验证 |
4.3 硬件验证 |
4.3.1 验证流程以及ASIC版图 |
4.3.2 资源占用分析 |
4.3.3 运算误差分析 |
4.3.4 运算周期分析 |
4.4 性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(6)基于SystemC的粗粒度可重构通用浮点处理器设计(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 可重构计算 |
1.1.2 SystemC事务级建模 |
1.2 研究现状 |
1.3 课题来源 |
1.4 论文主要研究内容及组织结构 |
第二章 粗粒度可重构系统总体方案 |
2.1 典型粗粒度可重构系统结构 |
2.1.1 Morpho Sys结构介绍 |
2.1.2 HARTMP结构介绍 |
2.2 SystemC事务级建模相关机制 |
2.2.1 SystemC |
2.2.2TLM2.0 |
2.3 总体模型设计方案 |
2.3.1 硬件结构 |
2.3.2 任务调度方案 |
2.4 本章小结 |
第三章 SoC系统平台建模 |
3.1 SoC系统平台的硬件部分 |
3.1.1 RISC-V内核 |
3.1.2 总线 |
3.1.3 中断控制器 |
3.1.4 外设适配接口 |
3.2 SoC系统平台的软件部分 |
3.2.1 系统调用的实现 |
3.2.2 中断和软硬件交互 |
3.3 本章小结 |
第四章 RFU可重构硬件子系统建模 |
4.1 整数和浮点数可重构阵列的比较 |
4.2 RFU设计 |
4.2.1 重构控制器 |
4.2.2 数据加载单元 |
4.2.3 互联单元 |
4.2.4 计算单元 |
4.3 RFU动态调度过程 |
4.4 本章小结 |
第五章 可重构系统性能仿真与测试 |
5.1 SoC系统平台性能测试 |
5.1.1 实验结果与性能分析 |
5.2 点积实验 |
5.2.1 参数设置 |
5.2.2 任务流程和软件编程 |
5.2.3 实验结果与性能分析 |
5.3 矩阵乘法实验 |
5.3.1 算法映射方案 |
5.3.2 实验结果与性能分析 |
5.4 实对称矩阵特征分解实验 |
5.4.1 算法介绍 |
5.4.2 实验结果与性能分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 |
攻读硕士学位期间的学术活动及成果情况 |
(7)基于NoC多核系统的矩阵乘法实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 NoC相关研究 |
1.2 NoC通信协议 |
1.2.1 路由算法 |
1.2.2 交换机制 |
1.3 NoC映射问题 |
1.4 同构多核系统及优势 |
1.5 本文课题来源 |
1.6 本文工作及论文结构安排 |
第二章 同构多核在并行计算中应用概述 |
2.1 矩阵计算的应用 |
2.2 并行算法 |
2.2.1 并行算法的概念和类别 |
2.2.2 并行算法的发展 |
2.2.3 并行算法的基本设计方法及性能度量 |
2.3 多核系统在矩阵乘法中的应用 |
2.4 矩阵乘法的简述 |
2.5 本章小结 |
第三章 面向矩阵乘法的MPSOC硬件设计 |
3.1 矩阵乘运算方法 |
3.1.1 矩阵乘并行算法 |
3.1.2 并行分块矩阵 |
3.2 矩阵乘法硬件架构 |
3.2.1 存储方式 |
3.2.2 数据交互 |
3.2.3 运算模式 |
3.2.4 结构扩展 |
3.3 本章小结 |
第四章 NoC同构多核系统设计 |
4.1 NoC系统概述 |
4.2 NoC同构多核系统设计 |
4.2.1 主控制器 |
4.2.2 存储单元 |
4.2.3 片上网络 |
4.2.4 可重构计算单元(RCU) |
4.3 本章小结 |
第五章 基于NoC多核系统的矩阵乘法映射 |
5.1 工作目的及思路 |
5.2 矩阵乘法的映射 |
5.2.1 基于I/O带宽结构 |
5.2.2 基于运算资源结构 |
5.3 实验环境及流程 |
5.4 实验结果和性能分析 |
5.4.1 资源占用分析 |
5.4.2 系统运算性能分析 |
5.4.3 I/O带宽的影响 |
5.4.4 运算资源的影响 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(8)大点数FFT加速IP设计与验证(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 FFT算法分析 |
1.2.2 硬件加速设计结构 |
1.3 论文工作与结构安排 |
1.3.1 本文主要工作 |
1.3.2 论文结构安排 |
第二章 FFT运算理论分析 |
2.1 常用的FFT算法 |
2.1.1 一维固定基-2FFT算法 |
2.1.2 二维固定基-2FFT算法 |
2.1.3 一维固定基-4FFT算法 |
2.1.4 分裂基FFT算法 |
2.1.5 一维固定基-8算法原理 |
2.2 常用的FFT运算处理架构 |
2.2.1 基于流水线结构 |
2.2.2 基于存储器结构 |
2.2.3 其他常用的FFT结构 |
2.3 逆IFFT变换 |
2.4 方案分析与确定 |
2.5 IEEE754标准简介 |
2.6 本章小结 |
第三章 FFT运算的设计实现 |
3.1 存储单元设计 |
3.2 蝶形运算单元设计 |
3.3 旋转因子生成设计 |
3.4 存储管理单元设计 |
3.5 地址无冲突生成设计 |
3.5.1 基-2地址无冲突设计 |
3.5.2 基-8地址无冲突设计 |
3.6 地址产生模块设计 |
3.7 本章小结 |
第四章 FFT运算的验证分析 |
4.1 软件仿真验证 |
4.2 AXI总线接口 |
4.2.1 AXI简介 |
4.2.2 基于AXI的 FFT运算数据交互 |
4.3 FPGA测试 |
4.3.1 FPGA测试平台 |
4.3.2 FPGA测试流程 |
4.4 软硬件测试结果分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
致谢 |
作者简介 |
(9)一种基于IEEE-754标准的浮点运算加速器的设计及性能优化(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外发展现状 |
1.3 本文的主要研究内容及章节安排 |
第二章 浮点运算与通用矩阵乘法原理 |
2.1 IEEE-754标准简介 |
2.1.1 浮点数编码格式 |
2.1.2 浮点数舍入模式 |
2.1.3 浮点数异常处理 |
2.2 浮点数运算流程 |
2.2.1 浮点数加/减法运算 |
2.2.2 浮点数乘法运算 |
2.2.3 浮点数乘加运算 |
2.3 通用矩阵乘法 |
2.3.1 GEMM优化策略 |
2.3.2 SIMD技术 |
2.4 本章小结 |
第三章 向量浮点运算加速器的硬件结构设计 |
3.1 通用浮点运算加速器 |
3.2 基于RISC+SIMD架构的向量浮点运算加速器设计 |
3.2.1 向量浮点运算加速器详细设计 |
3.2.2 向量浮点运算加速器控制模块设计 |
3.2.3 RegFile模块设计 |
3.2.4 Functional Unit模块设计 |
3.2.5 片内SRAM与Reg File的数据交互 |
3.2.6 AHB与Reg File的数据交互 |
3.3 指令格式及接口时序 |
3.3.1 AHB总线接口时序 |
3.3.2 MCR及MRC指令格式及接口时序 |
3.3.3 LDC/STC指令格式及接口时序 |
3.3.4 CDP指令格式及接口时序 |
3.4 异常处理 |
3.5 本章小结 |
第四章 基于Goto-BLAS的通用矩阵汇编函数库设计 |
4.1 通用矩阵分块方案 |
4.2 GEMM函数库基本运算体设计 |
4.3 通用汇编函数库优化 |
4.4 本章小结 |
第五章 性能测试分析与综合 |
5.1 测试平台设计 |
5.2 性能测试及分析 |
5.2.1 矩阵加法与矩阵减法运算性能测试 |
5.2.2 矩阵转置运算性能测试 |
5.2.3 矩阵乘法运算性能测试 |
5.3 综合及分析 |
5.4 本章小结 |
第六章 总结及展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
作者简介 |
(10)基于FPGA组织运动快速计算方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 本文组织结构 |
第二章 基于仿射模型的光流超声弹性成像算法分析 |
2.1 光流法的理论模型 |
2.1.1 光流法基本等式 |
2.1.2 全局约束(Horn-Schunck算法) |
2.1.3 局部约束(Lucas-Kanade算法) |
2.2 仿射运动模型 |
2.3 基于仿射模型的光流法 |
2.4 大位移光流计算的技术策略 |
2.4.1 多尺度分层细化策略 |
2.4.2 先验估计 |
第三章 基于FPGA仿射光流计算硬件设计 |
3.1 仿射光流法计算组织运动的工作流程 |
3.1.1 梯度计算阶段(s1) |
3.1.2 参数矩阵构造阶段(s2) |
3.1.3 运动张量计算阶段(s3) |
3.2 通用模块的硬件设计 |
3.2.1 卷积加速器 |
3.2.2 矩阵乘法加速器 |
3.2.3 矩阵求逆加速器 |
3.3 AXI接口协议 |
3.3.1 AXI4.0 |
3.3.2 AXI Interconnect模式 |
3.4 数据通路设计 |
3.5 控制通路设计 |
第四章 基于FPGA加速的仿射光流组织运动快速计算系统软硬协同实现 |
4.1 基于ZYNQ仿射光流组织运动快速计算系统硬件设计 |
4.2 仿射光流组织运动计算软件系统SDK软件设计与实现 |
第五章 综合实验与结果分析 |
5.1 仿射光流IP的性能优化与评估 |
5.1.1 时延和吞吐量 |
5.1.2 资源利用率 |
5.2 系统性能评估 |
5.2.1 执行时间 |
5.2.2 成像效果 |
5.2.3 资源消耗和能耗情况 |
第六章 总结与展望 |
本研究的创新型自我评价 |
参考文献 |
综述 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
个人简历 |
四、基于流水光总线阵列的快速矩阵运算(论文参考文献)
- [1]基于载波测距与脉冲压缩技术的伪随机编码谐波雷达设计与实现[D]. 陈晟. 桂林电子科技大学, 2021(02)
- [2]高速高精度矩阵求逆器的设计与实现[D]. 陈文杰. 合肥工业大学, 2021(02)
- [3]边缘计算环境中低时延高可信显示芯片的研究与设计[D]. 周钰致. 中国科学技术大学, 2020(01)
- [4]面向大数据处理的异构融合可重构数据流加速器研究[D]. 沈俊忠. 国防科技大学, 2020(01)
- [5]高速高精度矩阵运算器的设计与实现[D]. 邱俊豪. 合肥工业大学, 2020
- [6]基于SystemC的粗粒度可重构通用浮点处理器设计[D]. 余振波. 合肥工业大学, 2020(02)
- [7]基于NoC多核系统的矩阵乘法实现[D]. 汪杨. 合肥工业大学, 2020
- [8]大点数FFT加速IP设计与验证[D]. 张磊磊. 西安电子科技大学, 2020(05)
- [9]一种基于IEEE-754标准的浮点运算加速器的设计及性能优化[D]. 刘斌. 西安电子科技大学, 2020(05)
- [10]基于FPGA组织运动快速计算方法研究[D]. 林洪训. 中国医科大学, 2020(01)