一、一种并行结构的二维正/逆整数变换处理器(论文文献综述)
潘银飞[1](2021)在《视觉检测中特征提取的FPGA加速技术研究》文中研究指明近年来,随着市场对产品质量要求的提高,传感器、工业总线等技术不断进步,使得产品自动视觉检测所需处理的数据量越来越大,对视觉检测方法的处理速度要求也越来越高。视觉检测方法的研究通常涉及图像特征提取算法的开发,特征提取是实现目标检测、缺陷识别、形貌测量和三维重建等任务的关键预处理步骤,其作为视觉检测中最耗时的环节,极大地影响了系统的检测效率。本文针对视觉检测系统中限制检测速度的关键特征提取算法,研究FPGA加速处理技术,以解决现有加速方案中存在的并行程度不高、处理架构低效、以牺牲精度为代价和扩展性差等问题,从而实现视觉检测任务的高速处理。完成的主要工作及创新点如下:(1)从系统架构、软件、硬件三个层面系统调研了视觉检测加速处理技术的研究现状,并归纳总结了现有加速方案存在的问题;然后对FPGA加速处理技术中的基本设计方法进行了研究,为满足视觉检测特征提取的高吞吐率需求,提出了以数据流接口为主、片上存储器接口和外部存储器接口为辅的加速模块接口设计方案;并利用可视化编程工具,设计了加速算法实现和验证的一般性图像采集、存储和显示FPGA程序。(2)针对表面缺陷高速检测,提出了多层次并行的FPGA结构设计方法。对于周期性纹理特征滤除,为了解决传统一维傅里叶重建算法的边界效应问题,提出了基于亚像素周期和整周期截断的改进算法,可有效消除缺陷检测表面纹理。在此基础上,设计了任务并行和像素并行的FPGA加速整体结构、基于查找表的像素并行重采样结构和高低数据位分别处理与符号位扩展的一维傅里叶重建算法位宽连接结构。结合以上方法,将液晶面板的表面扫描检测速度提高了3倍以上,满足了系统在线处理需求,并显着提高了缺陷检测准确率。(3)针对FPGA硬件实现中数据定点位宽显着影响激光条纹中心提取精度的问题,提出了一种动静混合分析的数据位宽优化方法。在分析了当前Hessian矩阵计算FPGA结构中存在问题的基础上,设计了本文大模板尺寸的分离对称式、行列卷积复用结构,然后利用位宽约束条件和数据范围分析方法,并根据最大位置偏差、平均位置偏差和错点个数三个指标,对Steger算法各中间变量的数据位宽进行联合优化,获得了优于规整位宽设计和其他现有方法的定点精度,像素并行和全流水线设计也使其满足了千兆网相机的实时数据处理需求。(4)为了提高相移条纹投影测量系统中相位和点云计算效率,提出了FPGA和CPU的异构处理加速方案。对于包裹相位计算模块,设计了基于查找表的八分区间相位映射结构,可大幅提高相位计算的定点精度;对于相位解包裹模块,设计了基于迭代的帧级流水线结构,可有效减少延迟;对于多相机系统,给出了根据像素并行度调整的可扩展方案。结合以上方法,实现了较高的测量精度和架构效率,可支持两台相机50.86帧/秒的高速三维点云计算。
李颖颖[2](2021)在《面向异构系统的多面体编译优化关键技术研究》文中进行了进一步梳理计算技术的不断更新使计算机体系结构的发展日新月异,计算机体系结构经历着从同构计算模式到异构计算模式的转变,不同处理器厂商之间在体系结构和编程模型方面的巨大差异给计算系统的应用推广带来巨大挑战。利用编译技术自动将串行程序转换为异构并行程序是解决这个问题的一种有效手段。基于多面体模型的编译技术被认为是程序自动并行化领域的一个研究热点。本文以充分利用目标体系结构的硬件特征为目的,对面向异构系统进行多面体编译优化的关键技术展开研究,主要研究成果有:(1)以提升程序并行性和数据局部性为目标,本文研究了多面体编译优化的原理及流程,分析了多面体模型的主要特点,给出了利用多面体模型进行编译优化的主要途径。与传统的幺模矩阵模型相比,多面体模型具有更广泛的应用范围、更强大的表示能力和更全面的优化空间,同时也存在抽象层次高、实现难度大等问题。为了全面深入的了解多面体模型,本文分析了多面体模型的原理和基于多面体模型的编译流程,深入研究了多面体模型最核心的调度变换算法,给出了利用多面体模型提升程序并行性和数据局部性的主要方法。(2)为了发掘数据局部性和提升块间并行性,本文提出一种面向通用多核同构架构的循环分块算法。循环分块是提升多级缓存数据局部性最有效的循环变换技术。多面体模型实现了简单的平行四边形分块,但这种分块方法无法有效进行分块之间的并行。为了解决循环分块的块间并行问题,衍生出分裂分块、钻石分块、六角形分块等复杂的分块形状。其中,钻石分块、六角形分块已经在多面体编译器中得到实现,但分裂分块由于设计复杂,目前尚无有效的算法和实现。本文设计了一种基于平行四边形的分裂分块算法,避免了传统分裂分块依赖非仿射表达式的问题,并在PPCG编译器中对该算法进行了实现。实验对不同类型的stencil计算进行测试,结果表明,PPCG编译器采用本文提出的算法生成的Open MP并行代码相较于当前效果最好的钻石分块算法生成的代码有2%的性能提升;相较于stencil领域专用编译器Pochoir生成的代码有91%的性能提升。(3)为了生成面向异构系统的并行代码,同时降低同步开销,本文提出一种面向GPU架构的循环分块算法。钻石分块仅实现CPU上的代码生成,六角形分块仅支持面向GPU架构的代码生成,当面向不同架构时,为了达到最优的性能,需要采用不同的循环分块算法;同时,复杂分块形状提升块间并行性必然以额外的同步开销为代价,频繁的同步大大降低了程序整体性能。本文在面向CPU架构分裂分块算法的基础上,在PPCG编译器实现了分块后循环层到GPU硬件层的映射,同时实现同步最小化功能。与钻石分块相比,本文提出的算法支持各个维度分块大小不同的情况;与六角形分块相比,本文提出的算法能够处理多条语句、符号常量循环边界等多种复杂情况。实验对不同类型的stencil计算进行测试,结果表明,PPCG采用本文提出的算法生成的CUDA代码相较于当前应用最广泛的六角形分块生成的代码有64%的性能提升。(4)为了充分利用大规模并行资源,本文提出一种面向硬件并行规模的循环多维并行识别方法。随着现代处理器架构核心数目的不断增长,传统的单维并行识别方法难以提供足够的并行度,本文提出面向硬件并行规模的循环多维并行识别方法。根据并行层迭代次数和目标平台硬件资源数之间的关系,动态识别嵌套循环的多个维度为并行层,将多个并行维度的迭代空间合并后再作任务划分,以达到充分利用目标平台硬件资源的目的。该方法在PPCG中进行实现,通过对矩阵乘法、laplace方程等核心计算程序进行测试,结果表明,本文提出的方法相较于现有单维并行方法,在SW26010异构众核处理器上性能提升最高达1.8倍,在Nvidia Tesla V100平台性能提升最高达5.2倍。本文采用多面体编译优化技术实现程序自动并行化,能够同时支持Open MP、CUDA和Open CL并行代码的自动生成。通过有效地发掘循环并行性和数据局部性,有效提升了并行代码的执行效率。
黄哲[3](2021)在《LFMCW雷达信号处理关键算法芯片研究及系统验证》文中认为随着5G技术与半导体工艺技术的发展与民用领域对于雷达需求量的迅速增加,越来越高集成度与复杂度的雷达SOC相关研究成为热点。本文在某24GHz FMCW雷达SOC项目支持下,对雷达的基带信号处理SOC验证系统进行硬件实现,对于其关键的算法进行芯片化研究。本文介绍了LFMCW雷达信号处理算法原理。使用Matlab对于使用的处理方案进行算法仿真。综合考虑实时性要求及资源消耗,选择工程上常用的锯齿波形方案并采用速度补偿的方式解决本设计方案的速度距离耦合问题。基于某24GHz LFMCW雷达项目成功流片的射频前端芯片,搭建采集中频信号电路,并将采样结果使用仿真算法验证实际采集的信号正确性。在此基础上选择ZYNQ芯片实现验证环境的载体,利用其软硬协同验证特性,在FPGA(PL端)利用其并行实现硬件算法加速;在ARM(PS端)中实现二维CFAR解算,点迹凝聚解算及PC通信的功能。本文将信号处理过程中的关键算法模块FFT芯片化实现。对综合功耗,资源消耗,运算速度等性能进行优化,使用改进的顺序结构进行RTL设计并在FPGA上进行原型验证。采用CMOS 180nm工艺下进行完整的ASIC后端实现。雷达信号处理系统经过硬件平台的实机验证,PL端的算法加速电路可以工作在150MHz的主频下,解算时间在7.18ms,完整一帧解算时间在25ms以内。满足雷达信号处理系统对解算的实时性要求。分析信号处理系统的解算结果,距离解算误差实测在0.4m左右,速度误差在0.15m/s以内。经过对传统顺序结构优化,理论上优化的FFT处理器需要的计算时钟周期数从2304减少到258,且不需要额外引入更多的储存资源。经FPGA的实际测试表明,在70MHz的主频下,一次256点FFT运算时间在3.7128us,计算误差小于1.059%,满足雷达信号处理过程中对FFT运算的需求。
李毅[4](2020)在《基于多核处理平台的HEVC解码核心模块并行处理的算法设计与实现》文中研究说明新一代视频编码标准—H.265/HEVC中引入了很多新特性,这些特性在提升编码效率的同时,也使得相比之前的标准—H.264/AVC,HEVC的计算复杂度变得更高。另外,HEVC标准针对的是高清和超高清视频应用,而这些视频通常含有巨大的数据量,这些因素使得实时处理HEVC标准视频流成为传统单核处理器面临的一大挑战。所幸,HEVC标准在开发时就考虑到了这些问题,提供了很多并行工具,这些并行工具可以缓解计算复杂度高和数据量大带来的实时处理困难。同时,现代处理器从单一内核架构向多核架构发展,也为并行处理算法的实现提供便利。因此,关于HEVC标准的编解码的并行处理算法也成为众多研究者关注的研究对象。本文利用Tilera-GX36多核处理平台,研究基于多核处理平台的HEVC解码核心模块的并行处理算法。论文的研究内容主要包括以下几点:(1)提出并实现了一种基于多线程负载均衡的联合并行环路滤波算法,实现去方块滤波(DBF)和样本自适应补偿(SAO)的联合并行处理。通常,图像中不同区域因为纹理不同,进而对CTU产生不同的划分方式,使得其待滤波边界数目有较大差异。当以CTU为最小并行粒度进行多线程并行时,不同线程的计算负载会出现不均衡现象。针对这一问题,提出了一种区域划分方案,将图像划分为多个区域,每个区域中的待滤波边界数近似。再利用映射关系表,将这些区域分配给多个线程进行并行处理,从而实现各滤波线程间的负载均衡。最后利用缓存技术,将DBF和SAO进行联合,减少两者之间存在的延迟,提高环路滤波整体的并行性。(2)提出并实现了一种基于CTU的HEVC帧内/帧间融合并行解码算法。OWF是以CTU行做为解码并行粒度的算法,会存在由于不同CTU行计算复杂度不同,使得部分帧内解码线程阻塞而产生线程空闲的问题。基于CTU的细粒度波前并行解码方案,可以减少帧内解码线程阻塞的问题,但该方案未考虑帧间CTU解码的并行性。针对这两种并行解码方案尚存在的问题,可以在细化帧内并行粒度的同时,进一步利用了帧间CTU之间的依赖关系,实现以CTU为并行粒度的帧内/帧间融合的并行解码。若当前帧内无CTU待解码时或者存在空闲线程时,空闲的线程可以直接用于相邻帧中满足依赖关系的CTU的解码。从而,进一步减少了线程空闲,提高了多核资源的利用率。(3)提出并实现了基于核心模块融合的HEVC并行解码算法。当将所提出的联合并行环路滤波方案以及基于CTU的HEVC帧内/帧间融合并行解码算法,直接同帧级并行熵解码方案相结合时,并行粒度不同与资源调度会给系统内部带来整体上的延迟。针对这一问题,利用流水线并行技术和分级线程调度策略将三个模块进行融合,减少模块间延迟以及线程空闲时间,提升系统整体的数据吞吐量。之后,利用Tilera多核平台特性,实现HEVC解码的平台优化。实验在Tilera-GX36多核处理器上进行,以libde265作为参考软件,对多种未使用任何并行工具编码形成的高清超高清视频流进行测试。根据实验结果,所提并行环路滤波方案,相比于前人提出的快速融合环路滤波算法,并行性能平均提升了约9.1%;基于CTU的HEVC帧内/帧间融合并行解码算法,相比于OWF和基于CTU的细粒度波前并行方案,并行性能平均分别提升了约18.3%和8.5%;实现的基于核心模块融合的HEVC并行解码算法,相比于细粒度多层次并行解码算法最大并行加速比平均提升了约8.15%。
钟银都[5](2020)在《基于CPU和GPU的雷达目标识别算法并行实现》文中认为现代战争对雷达的自动化和智能化水平提出了较高的要求,以雷达目标识别为代表的智能信息处理技术受到了广泛的关注。随着雷达信号带宽的持续提高以及识别数据库中目标种类的不断增加,给实时地完成目标识别任务带来了极大的挑战。由于雷达目标识别任务具有良好的并行结构,高效的并行处理算法成为了目标识别技术领域的研究热点。与此同时,以中央处理器(CPU)和图形处理器(GPU)为代表的硬件处理器的并行处理能力也越来越强大,这为雷达目标识别算法的并行加速提供了可能。基于上述背景,本文开展了雷达高分辨距离像(HRRP)识别相关算法的并行设计研究,并在多核心CPU处理器硬件平台和CPU+GPU的异构平台下进行了算法实现。主要工作内容概括如下:1.结合线性调频脉冲体制雷达HRRP识别流程,对每个环节常用算法的原理进行阐述。首先介绍了针对大时宽带宽信号脉冲压缩处理的分段脉冲压缩算法;然后介绍了针对相参积累期间目标越距离单元走动问题的Keystone变换及其两种常用实现方式,即DFT+IFFT算法和Chirp-Z算法;接着介绍了针对HRRP数据敏感性问题的常用预处理方法;最后介绍了四种经典的统计识别模型和卷积神经网络识别模型。2.阐述了CPU和GPU处理器硬件结构的区别,然后给出了针对多核心CPU处理器并行编程的C++11多线程编程方法,以及针对NVIDIA GPU处理器并行编程的统一计算架构(CUDA)的编程、执行模型。最后给出了CUDA并行编程的调试分析方法及内核优化技巧。3.详细分析了HRRP识别流程中各算法的并行结构,针对性地设计了相应的并行实现方案,完成了各个算法在CPU平台下的单线程实现和多线程并行实现以及在CPU+GPU平台下的多线程并行实现。通过仿真实验检验了各算法在两种并行实现方式下的运行结果,并以CPU单线程运行时间为基准,对比分析了两种并行实现方式下的加速效果。其中,分段脉冲压缩算法、DFT+IFFT算法、Chirp-Z算法、迭代对齐算法、最大相关系数(MCC)分类器和自适应高斯分类器(AGC)的建模、MCC识别、AGC识别、因子分析(FA)建模和复因子分析(CFA)建模过程的CPU多线程实现可以达到3~5倍的加速效果,相应的GPU并行实现也都可以达到5倍以上的加速效果;此外,基于卷积神经网络的识别方法也取得了一定的加速效果。这说明基于CPU的多线程并行实现方式和基于CPU+GPU异构平台的并行实现方式能够显着提升雷达目标识别任务的实时性。
杜诗强[6](2020)在《离散小波变换的研究与硬件实现》文中研究指明随着现代数字信号处理技术日益复杂,非平稳数字信号的处理越来越受到人们的关注和重视。小波变换(Wavelet Transform,WT)作为新一代数字信号处理技术之一,在信号去噪、视频图像压缩、图像边缘检测等领域具有广泛的应用,是进行数字信号时频分析的理想工具。本文首先对离散小波变换(Discrete Wavelet Transform,DWT)在信号去噪的应用方面进行研究,提出了一种改进的小波阈值去噪算法;之后对离散小波变换的硬件结构进行研究。主要工作内容如下:1. 在传统的小波阈值去噪算法的基础上,对已有阈值函数和阈值选取方式进行改进。新的阈值函数具有更好的连续性和更小的系数偏差,新的阈值选取方式具有更高的噪声信号去除率。2. 从数据的计算维度角度对一维和二维离散小波变换的硬件结构进行设计与实现。首先在基于Mallat算法的卷积滤波器组结构上,实现了通用型一维离散小波变换的硬件架构,然后结合多级展开和行并行结构,设计并实现了三级二维离散小波变换的硬件架构。3. 在Xilinx的XC7V2000T FPGA上对一维、二维离散小波变换硬件结构进行功能验证和性能测试。测试结果表明,本文设计的通用型一维离散小波变换硬件结构支持多种小波基的离散小波变换,本文设计的二维离散小波变换硬件电路结构能够完成db2小波的三级离散小波变换。对定点数据,两种架构均可提供10-3的结果精度。
李菁菁[7](2020)在《运动图像去模糊技术研究》文中研究表明随着科学技术发展,集成电路工艺的不断进步,为在前端实现实时图像复原提供了硬件支持。运动图像模糊是指相机和被拍物体,两者进行连续性相对运动,导致最后采集到的图像模糊,对其使用存在一定影响。运动图像去模糊就是建立一定数学模型,将模糊图像清晰化。考虑到实际应用场境中待处理图像的大部分模糊信息未知,故采用盲去模糊。盲去模糊难点在于建模复杂且求解不唯一。故构建实时运动图像盲去模糊系统,实现图像去模糊,具有一定的现实意义。本文主要针对在硬件中实现运动图像去模糊系统问题进行研究,主要工作包括以下四个方面:(1)分析在空域和在频域运动模糊图像处理的性能差异。一般情况下,在空域中处理运动模糊图像,计算量大且复杂度高,而在频域中处理运动模糊图像,计算量小且灵活度高。故结合运动模糊图像及去模糊算法特点,分析运动图像去模糊频域处理方式。本文设计了一种基2-DIT-FFT的频域转换硬件算法,以解决一般频域转换过多占用资源、转换时间长、可移植性差等问题。其主要模块包括:输入数据预处理、原位计算、存储模块、蝶形运算模块、溢出检测、截位等。该硬件算法与基于FFT IP核的频域转换算法相比,降低了硬件资源占用率,提高了图像频域转换精度。(2)详细说明图像运动模糊的过程,分析其频谱和倒谱的特点。比较频域法和倒谱法估计的点扩散函数PSF精度,本文采用基于倒谱特性的PSF估计法。并在此基础上,增加Canny算子边缘检测,提高PSF估计精度。(3)考虑硬件实现可行性及复原效果确定合适的经典图像复原算法。比较逆滤波等四种经典复原算法的优劣,采用峰值信噪比、结构相似性、视觉信息保真度三种图像质量评价指标,分析上述复原算法的优缺点,得到复原结果及质量评价指标。(4)系统采用“软硬结合”设计方案,以V Cyclone Altera系列的SOC-DE1为设计平台,利用QSYS连接相关子系统及IP核,构建图像去模糊系统。在FPGA中,设计频域转换,并配置设计所需IP模块,如Frame Reader、SDRAM、显示子系统等。在HPS中,搭载Linux操作系统,利用HPS-FPGA总线访问SDRAM,利用Linux C编程实现运动图像去模糊和传输,利用软件QT设计去模糊系统界面,实现可视化及人机交互功能,其主要功能包括:打开相机、抓拍及图像灰度处理、复原图像等。本系统主要进行了图像频域转换模块、去模糊算法、QT GUI界面及整体硬件系统构建等设计,并在实际环境中对其整体功能进行测试。经验证分析,系统能处理采集的任意图像,能较好地实现模糊图像显示、频域转换及去模糊等基本功能,并且降低了资源占用率,具有一定的实用性和可移植性。
李伟琪[8](2020)在《二维可分离FIR滤波器稀疏优化算法研究》文中研究说明二维(Two-Dimensional,2-D) FIR数字滤波器在图像处理、地震信号处理、雷达声呐信号处理、机器视觉和无线通信等领域具有较为广泛的应用。但是2-D FIR滤波器在硬件实现时,特别是在阶数较高的情况下,滤波器系数数量较多,从而导致2-D FIR滤波器的硬件实现需要更多的存储器、加法器和乘法器。目前已存在一些减少2-D FIR滤波器硬件执行复杂度的方法,如McClellan变换方法和可分离滤波器设计方法。论文研究可分离滤波器,提出了一种新的具有稀疏系数的可分离2-D FIR滤波器设计方法,对其稀疏优化方法、有限字长效应及FPGA实现进行了研究。论文的主要工作包括:(1)基于迭代重加权l1,范数和贪婪搜索联合算法,提出了一种具有稀疏系数的可分离2-D FIR滤波器设计方法。该方法设计包括两个步骤,第一步,基于某一初始设计,利用迭代重加权l1范数设计出一个具有稀疏系数的可分离2-D FIR滤波器,然后利用信赖域-迭代梯度搜索(Trust Region Iterative Gradient Searching,TR-IGS)技术优化此时的可分离 2-D FIR 滤波器的系数。在第一步设计的基础上,第二步利用贪婪搜索(Greedy Searching,GS)算法进一步稀疏更多的系数,其中在每次搜索结束后,利用TR-IGS技术优化当前的滤波器系数,然后进行下一次的搜索和优化,直至滤波器设计误差不再满足设计要求。仿真实例验证了所提出的稀疏优化方法的有效性以及另外六种相关稀疏优化方法。(2)在设计出最优连续系数的可分离2-D FIR滤波器后,对这些连续系数的量化进行了研究。首次提出了适用于可分离2-D FIR滤波器的两种系数量化方案:(迭代)分步式整数线性规划算法(2-step-integer-LP)和(迭代)分步式整数线性规划-邻域搜索算法(2-step-integer-LP-neighbor),两种方案均基于相同的核心思想:固定一些系数并优化量化其他系数。仿真实例验证了所提出的量化方案的有效性,并与另外两种优化方案(近似目标优化算法和基于有限二次幂项的系数量化算法)进行了比较。实验结果表明,所提出的两种方案在设计误差方面均优于论文中的其他量化算法,且2-step-integer-LP性能略好于2-step-integer-LP-neighbor。但是,在某些情况下,由于优化变量较多的原因,前者可能无法收敛,而后者能够比较有效的避免无法收敛的问题。(3)给出了可分离2-D FIR滤波器的Simulink系统仿真和FPGA仿真,验证了所提出的可分离2-D FIR滤波器可实现性以及具有较好的图像滤波效果,并对FPGA硬件资源占用进行了分析。
张荣庭[9](2019)在《面向FPGA硬件的卫星影像GA-RLS-RFM正射纠正优化算法研究》文中提出卫星影像的正射纠正是制作专题产品的先决条件之一。然而,传统的基于地面处理平台的影像正射纠正方法难以满足对时效性有高要求的应用场景,例如灾害应急救援的快速响应、固定目标的实时监测等。另外,传统的地面控制点(Ground Control Points-GCPs)采集方法通常需要人工干预,而且耗时较长,无法保证卫星影像正射校正的时效性。特别地,在恶劣环境的山地、沙漠或境外的军事敏感区等,GCPs的获取十分困难,甚至不可能。因此,为了能够在少量或无GCPs条件下快速地对卫星影像进行正射纠正,对面向FPGA硬件的卫星影像正射纠正优化算法进行了系统地研究。主要的研究内容如下:(1)在前人研究成果的基础上,利用星历和姿态数据建立了线阵推扫式卫星影像的几何视线模型(Viewing Geometry Model,VGM)。此外,通过流水线结构、数据流串行计算与模块并行计算相结合的设计方法,设计了卫星影像的VGM无控定位算法的FPGA硬件架构。该硬件架构能够使处理速度、计算精度和硬件资源利用率达到平衡。(2)在利用最小二乘(Least Square,LS)求解有理函数模型(Rational Function Model,RFM)参数时,通常需要对大型矩阵进行复杂的乘法和求逆运算。然而,这些复杂的运算不仅会消耗大量的FPGA硬件资源,而且还会影响RFM模型参数的求解速度。为了克服LS求解RFM模型参数算法不利于FPGA硬件实现的缺点,提出了递推最小二乘(Recursive Least Square,RLS)求解RFM模型参数算法,由该算法确定的RFM模型记为RLS-RFM模型。此外,提出了RLS求解RFM模型参数算法的FPGA硬件架构。该硬件架构采用了快速的矩阵乘法并行结构,加快了RFM模型参数的求解速度。(3)由于RLS-RFM模型参数之间存在的相关性会影响纠正精度,因此为了快速获取最佳的RLS-RFM模型结构以及提高影像的正射纠正精度,提出并实现了面向FPGA硬件的GA-RLS-RFM正射纠正优化算法。特别地,所设计的GARLS-RFM正射纠正算法的FPGA硬件架构可在无控制点情况下实现基于RLSRFM模型的卫星影像无控正射纠正。(4)实验结果表明:(i)卫星影像的VGM模型有较高的无控定位精度潜力。(ii)RLS求解RFM模型参数算法能够有效地求解RFM模型参数,并且RLS-RFM模型能够获得与VGM模型相当的纠正精度。(iii)遗传算法能够有效地减少RLSRFM模型参数,并能保持纠正精度不降低,甚至能够提高纠正精度。(iv)FPGA能够得到与PC相当的纠正精度,例如,在利用RLS-RFM模型进行影像的无控正射纠正时,对于SPOT-6(山地)影像和SPOT-6(某机场)影像,FPGA与PC的纠正结果在列方向的最大偏差分别为0.0782像素和0.1026像素,行方向的最大偏差分别为0.1302像素和0.1380像素。(v)在数据处理速度方面,相对于PC,FPGA有明显的优势。
罗大辉[10](2019)在《夹杂问题数值解法的并行实现及算法优化研究》文中进行了进一步梳理工程实际中,机械零部件不可避免地存在各类异质性缺陷,且缺陷通常形状各异,分布随机,很难直接使用Eshelby夹杂模型直接解析求解,特别对于形状不规则的夹杂体,解析解的推导会遇到很多困难。为解决这类问题,通常将含有多个缺陷的区域划分为一系列长方体单元,通过已有的应力场、应变场、以及位移场的解决方案求解各个长方体单元引起的单元响应,再将所有单元结果叠加获得最终解,此种方法被称为夹杂问题的数值解法。当需要研究的夹杂区域内具有多个夹杂体或夹杂体形状不规则度较大时,数值解的准确性依赖于网格的细分程度,而网格的细密化会导致计算时间的增加。过去的一段时间里,夹杂体数值解法已经利用离散快速傅里叶卷积/相关在一定程度上提高了计算速度,但在当前对零部件性能精度要求越来越高的趋势下,仍需探究其它方式加速数值解法的计算。由数值算法的定义可知对应的程序中存在多个嵌套循环和独立任务分支,除单纯的算法提升外,可考虑程序的并行化改造。随着科技不断发展,计算机中央处理器(CPU)的核心数不断增加,图像处理器(GPU)的计算能力飞速提升,可使用的并行编程模型越来越多,部分并行编程模型可在对程序改动不大的情况下进行并行化改造,这些条件为程序的并行计算提供了良好的软硬件基础。本文以全空间和半空间任意形状夹杂体数值解法为研究对象,对数值解法进行并行化改进及算法结构优化,期望能进一步提高算法的计算效率。本文主要内容包括三个部分:(1)数值算法中FFT方法的选用和变换控制参数的选择。与其它夹杂问题数值解程序中使用复数FFT变换实数序列不同,文章使用数值算法中需要进行FFT变换的序列,测试了离散快速傅立叶变换库FFTW中提供的实数FFT(r2c/c2r)同位运算和非同位运算方法,复数FFT同时变换双实数序列的方法进行卷积的内存占用和时间消耗,并与复数单序列FFT进行对比,最终确定实数FFT(r2c/c2r)非同位运算方法的使用。同时测试了FFTW中PLAN在不同重复使用次数,不同序列长度下两种变换控制参数的相对性能。(2)对数值算法程序实施并行化改进。使用OpenMP完成数值算法程序在FORTRAN上的四种CPU并行模式,对不同并行模式加速下的时间消耗和内存占用进行分析讨论,四种并行模式均明显地提高了数值算法的运行效率,其中以卷积/相关对矩阵行和列为并行子任务的两种模式由于子任务分配不均导致核心数的浪费,其它两种方案具有较好的负载均衡性,但在线程数较多时加速比和内存占用情况不同。随后使用OpenACC完成数值算法的GPU并行加速,结果表明可获得较CPU两倍的性能提升。(3)数值算法结构特性的利用和优化。分析响应原函数的计算重复性并进行去重复优化,减少近四倍的运行时间,并在此基础上完成CPU和GPU并行测试,获得了近四十倍的效率提升;独立数值算法中的激励源域和目标域网格,解决网格独立时出现的奇点问题,使得数值算法可根据需要缩小目标域网格规模,降低计算量,结果表明在退化为条状网格或面状网格时,计算时间相应降低为原有的四分之一或二分之一;根据全空间响应原函数的对称特性改进算法结构,使用两种方法对程序计算中对称的卷积结果进行数组保存,结果表明均能明显的提高全空间下的计算效率;最后,利用响应原函数只与激励源域及目标域网格的形状和位置相关的特性,使用二进制文件存储响应原函数序列,再次计算相同目标域网格和激励源域网格时可直接读取响应原函数,极其明显地降低了后续的计算时间消耗。
二、一种并行结构的二维正/逆整数变换处理器(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种并行结构的二维正/逆整数变换处理器(论文提纲范文)
(1)视觉检测中特征提取的FPGA加速技术研究(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和课题来源 |
1.2 视觉检测和特征提取技术概述 |
1.2.1 二维检测技术 |
1.2.2 三维检测技术 |
1.2.3 特征提取 |
1.3 视觉检测加速技术研究现状 |
1.3.1 基于系统架构级的加速技术 |
1.3.2 基于软件层面的加速技术 |
1.3.3 基于专用硬件的加速技术 |
1.4 加速处理技术中存在问题分析 |
1.5 主要研究内容和论文结构 |
1.5.1 主要研究内容 |
1.5.2 论文章节安排 |
第二章 视觉检测的加速处理方法 |
2.1 引言 |
2.2 FPGA加速方法和加速模块接口 |
2.2.1 常用的FPGA加速设计方法 |
2.2.2 FPGA加速模块接口设计 |
2.3 FPGA加速算法实现方案 |
2.3.1 基于Visual Applets的可视化编程 |
2.3.2 图像采集、存储和显示FPGA程序设计 |
2.4 CPU、GPU和 FPGA加速方法比较 |
2.4.1 CPU、GPU和 FPGA加速特点 |
2.4.2 CPU、GPU和 FPGA加速程序的计时 |
2.5 本章小结 |
第三章 FPGA任务并行与像素并行加速技术 |
3.1 引言 |
3.2 FPGA并行加速方法 |
3.2.1 FPGA任务并行加速方法 |
3.2.2 FPGA像素并行加速方法 |
3.2.3 加速性能评估方法与加速性能极限 |
3.3 并行加速方法在周期纹理特征滤除中的实现 |
3.3.1 应用背景概述 |
3.3.2 周期背景纹理滤除方法 |
3.3.3 多任务并行的整体结构 |
3.3.4 一维傅里叶重建算法的像素并行加速实现 |
3.4 性能提升和算法改进 |
3.4.1 边界效应问题 |
3.4.2 亚像素周期问题 |
3.4.3 整周期截断 |
3.4.4 改进措施的FPGA实现 |
3.5 实验与验证 |
3.5.1 缺陷检测结果可视化及定量指标评价 |
3.5.2 速度评估 |
3.5.3 定点精度和资源消耗 |
3.6 本章小结 |
第四章 FPGA位宽优化高精度加速技术 |
4.1 引言 |
4.2 FPGA数据位宽设计和精度分析 |
4.2.1 位宽设计 |
4.2.2 精度分析 |
4.3 FPGA实现的条纹中心线提取高精度加速方法 |
4.3.1 激光条纹中心提取算法概述 |
4.3.2 FPGA硬件实现中存在的精度下降问题 |
4.3.3 高精度的Steger算法FPGA实现 |
4.4 Steger算法FPGA结构的数据位宽和定点精度优化 |
4.4.1 位宽优化技术 |
4.4.2 初始数据位宽确定 |
4.4.3 Hessian矩阵计算模块的位宽和精度优化 |
4.4.4 特征值和亚像素偏移计算模块的位宽和精度优化 |
4.5 实验与验证 |
4.5.1 检测精度评价 |
4.5.2 不同平台的计算精度和运行速度对比 |
4.5.3 FPGA硬件资源优化 |
4.6 本章小结 |
第五章 FPGA异构处理加速技术 |
5.1 引言 |
5.2 异构加速架构与方法 |
5.2.1 异构加速基本方法 |
5.2.2 CPU和 FPGA的异构加速架构与方法 |
5.3 异构处理方式在相移条纹投影测量中的分析 |
5.3.1 多频相移法原理 |
5.3.2 基于多项式拟合的点云计算 |
5.3.3 相位和点云的计算资源效率分析 |
5.4 异构处理加速方案的实现 |
5.4.1 包裹相位和解包裹相位的FPGA加速计算方法 |
5.4.2 点云计算的CPU多核处理实现方法 |
5.4.3 可扩展的多相机并行处理实现方案 |
5.5 实验评估 |
5.5.1 测量系统的搭建 |
5.5.2 定点精度评估 |
5.5.3 标准球测量实验和多相机融合实验 |
5.5.4 异构处理速度和资源效率分析 |
5.6 本章小结 |
第六章 总结和展望 |
6.1 全文总结 |
6.2 本文创新点 |
6.3 工作展望 |
参考文献 |
攻读博士学位期间的学术活动及成果情况 |
(2)面向异构系统的多面体编译优化关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 并行体系结构的发展历程 |
1.2 面向异构系统多面体编译优化技术的研究现状 |
1.3 研究内容及意义 |
1.3.1 课题来源 |
1.3.2 研究内容 |
1.3.3 研究意义 |
1.3.4 课题应用 |
1.4 论文组织结构 |
第二章 基于多面体模型的编译优化技术 |
2.1 多面体模型的表示 |
2.1.1 Presburger关系 |
2.1.2 多面体模型的基本要素 |
2.2 编译流程 |
2.3 提升程序并行性 |
2.3.1 数据流分析 |
2.3.2 调度算法 |
2.3.3 代码生成 |
2.4 发掘数据局部性 |
2.4.1 循环分块 |
2.4.2 数组压缩 |
2.5 调度树 |
2.6 小结 |
第三章 面向通用多核CPU架构分裂分块算法的设计与实现 |
3.1 研究背景 |
3.1.1 循环倾斜 |
3.1.2 循环分块 |
3.1.3 其它分块形状的块间并行 |
3.1.4 研究动机 |
3.2 面向CPU架构分裂分块算法的设计 |
3.2.1 分裂分块算法的设计 |
3.2.2 分裂产生每个阶段的边界表达式 |
3.3 面向CPU架构分裂分块算法的实现 |
3.3.1 多面体模型表示 |
3.3.2 多维stencil计算的分裂分块 |
3.3.3 多个语句的分裂分块 |
3.4 实验结果与分析 |
3.4.1 环境配置和测试用例 |
3.4.2 CPU上的性能测试 |
3.5 小结 |
第四章 面向GPU架构分裂分块算法的设计与实现 |
4.1 研究动机 |
4.2 GPU架构 |
4.3 面向GPU架构分裂分块算法的实现 |
4.3.1 GPU硬件映射 |
4.3.2 最小化同步 |
4.3.3 代码生成 |
4.3.4 GPU的共享内存 |
4.4 分裂分块技术的适用范围 |
4.4.1 对比其他分块技术 |
4.4.2 适用范围 |
4.5 实验结果与分析 |
4.5.1 环境配置和测试用例 |
4.5.2 CPU上的性能测试 |
4.5.3 GPU上的性能测试 |
4.5.4 编译时长测试 |
4.6 相关工作 |
4.7 小结 |
第五章 面向硬件并行规模的循环多维并行识别方法 |
5.1 研究动机 |
5.2 目标平台 |
5.2.1 SW26010 异构众核处理器 |
5.2.2 Open ACC编程模型 |
5.3 并行识别问题分析 |
5.4 面向硬件并行规模的循环多维并行识别方法 |
5.5 实验结果与分析 |
5.6 相关工作 |
5.7 小结 |
第六章 总结与展望 |
6.1 论文的主要工作 |
6.2 下一步的研究计划 |
致谢 |
参考文献 |
作者简历 |
(3)LFMCW雷达信号处理关键算法芯片研究及系统验证(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 LFMCW雷达SOC发展现状 |
1.1.2 SOC验证平台搭建 |
1.2 课题研究来源及意义 |
1.3 论文主要工作内容及创新 |
1.4 论文的研究内容及章节安排 |
第二章 LFMCW雷达系统介绍 |
2.1 LFMCW雷达信号处理系统工作基本原理 |
2.1.1 单次线性调频连续波雷达分析 |
2.1.2 多周期线性调频连续波雷达分析 |
2.2 LFMCW雷达系统组成 |
2.2.1 天线及射频前端模块 |
2.2.2 ADC采集模块及采样数据预处理模块 |
2.2.3 24GHz雷达参数设置 |
2.3 ZYNQ硬件平台介绍 |
2.4 本章小结 |
第三章 LFMCW雷达信号处理关键算法分析 |
3.1 中频信号处理概述 |
3.2 LFMCW雷达差频信号生成 |
3.3 一维FFT处理原理及仿真 |
3.4 MTI对消算法原理及仿真 |
3.5 MTD算法原理及仿真 |
3.6 CFAR算法原理及仿真 |
3.6.1 一维CFAR算法原理 |
3.6.2 二维CFAR算法原理 |
3.6.3 二维CFAR算法仿真 |
3.7 点迹凝聚原理及仿真 |
3.8 速度补偿原理及仿真 |
3.9 本章小结 |
第四章 雷达处理关键算法模块芯片化设计 |
4.1 FFT处理器架构 |
4.2 基四FFT处理器工作原理 |
4.2.1 基四FFT运算理论推导 |
4.2.2 基四FFT运算流程 |
4.3 改进型基四FFT处理器架构设计 |
4.4 地址生成单元设计 |
4.5 蝶形运算单元设计 |
4.5.1 超前进位加法器设计 |
4.5.2 华莱士乘法器设计 |
4.5.3 复数乘法器设计 |
4.6 逆序输出单元设计 |
4.7 旋转因子生成单元设计 |
4.8 CORDIC算法求模设计 |
4.9 本章小结 |
第五章 雷达信号处理系统硬件搭建及模块芯片后端实现 |
5.1 LFMCW雷达整体系统硬件搭建 |
5.2 AD采集板及数据预处理 |
5.3 信号处理整体逻辑设计架构 |
5.4 MTI算法的逻辑设计 |
5.5 PL端DSP加速硬件实现 |
5.6 ZYNQ PL端与PS端通信设计 |
5.6.1 AXI总线时序介绍 |
5.6.2 PL端中断与PS端的中断服务函数设计 |
5.7 二维CFAR在 arm端的程序设计 |
5.8 FFT处理器硬件实现 |
5.8.1 Design Complier综合 |
5.8.2 innovus工具布线实现 |
5.8.3 FFT处理器版图验证 |
5.9 本章小结 |
第六章 雷达处理系统测试与模块芯片实现结果 |
6.1 FFT处理器的FPGA原型验证 |
6.1.1 FPGA验证平台 |
6.1.2 硬件资源分析 |
6.1.3 FFT验证结果分析 |
6.2 LFMCW雷达测试验证环境 |
6.2.1 LFMCW雷达数据采集软件处理结果 |
6.2.2 使用ZYNQ平台处理结果 |
6.3 FFT处理器实现结果验证 |
6.4 FFT处理器综合性能分析 |
6.4.1 FFT处理器功耗分析 |
6.4.2 FFT处理器运算性能分析 |
6.5 雷达信号处理系统性能分析 |
6.6 本章小结 |
第七章 总结展望 |
7.1 全文总结 |
7.2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)基于多核处理平台的HEVC解码核心模块并行处理的算法设计与实现(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 论文研究背景与意义 |
1.2 相关技术背景 |
1.2.1 视频压缩编码技术简介 |
1.2.2 国际视频编码标准的发展历程简介 |
1.2.3 多核技术发展简介 |
1.2.4 TILERA多核平台简介 |
1.3 国内外研究现状 |
1.4 论文研究内容及安排 |
1.4.1 论文研究内容 |
1.4.2 本文安排 |
第二章 H.265/HEVC视频编码标准及并行结构分析 |
2.1 H.265/HEVC视频编码标准概述 |
2.2 H.265/HEVC编码关键技术简介 |
2.2.1 四叉树结构 |
2.2.2 帧内预测 |
2.2.3 帧间预测 |
2.2.4 变换与量化 |
2.2.5 环路滤波 |
2.2.6 熵编码 |
2.3 H.265/HEVC编解码并行处理 |
2.3.1 概述 |
2.3.2 图像组(GOP)并行 |
2.3.3 帧(Frame)级并行 |
2.3.4 Slice级并行 |
2.3.5 Tile级并行 |
2.3.6 CTU级并行 |
2.4 H.265/HEVC解码模块分析 |
2.4.1 H.265/HEVC解码基本流程 |
2.4.2 H.265/HEVC各解码模块分析 |
2.5 本章小结 |
第三章 基于多线程负载均衡的DBF+SAO联合并行环路滤波 |
3.1 H.265/HEVC标准中的环路滤波概述 |
3.2 H.265/HEVC标准中的去方块滤波 |
3.2.1 去方块滤波的数据处理特点 |
3.2.2 去方块滤波的可并行性 |
3.3 像素样本自适应补偿SAO |
3.4 现有并行滤波方案分析 |
3.5 DBF+SAO联合并行环路滤波 |
3.5.1 并行环路滤波的设计 |
3.5.2 并行环路滤波的实现 |
3.6 本章小结 |
第四章 基于CTU的 HEVC帧内/帧间融合并行解码算法 |
4.1 概述 |
4.2 CTU级 HEVC并行解码算法 |
4.2.1 现有方案分析 |
4.2.2 方案可优化分析 |
4.3 基于CTU的 HEVC帧内/帧间融合并行解码算法 |
4.3.1 算法理论设计 |
4.3.2 帧间CTU并行解码条件限制分析 |
4.3.3 算法具体实现 |
4.3.4 理论并行性能分析 |
4.4 本章小结 |
第五章 基于核心模块融合的HEVC并行解码算法 |
5.1 概述 |
5.2 HEVC解码器核心模块的融合并行处理 |
5.2.1 算法描述 |
5.2.2 算法时序分析 |
5.3 基于Tilera多核处理平台的HEVC解码平台优化 |
5.3.1 结合存储器优化的CABAC熵解码 |
5.3.2 结合单指令多数据SIMD的核心模块指令集优化 |
5.4 本章小结 |
第六章 实验与结果分析 |
6.1 实验环境与并行算法评估指标 |
6.1.1 实验多核硬件平台与开发环境MDE |
6.1.2 实验测试视频序列 |
6.1.3 实验评估指标 |
6.2 联合并行环路滤波实验与分析 |
6.3 基于CTU的帧内/帧间融合并行解码算法实验与分析 |
6.4 基于核心模块融合的HEVC并行解码算法实验与分析 |
6.5 基于Tilera多核处理平台的HEVC解码平台优化实验 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间撰写的发明专利 |
致谢 |
(5)基于CPU和GPU的雷达目标识别算法并行实现(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 雷达目标识别简介 |
1.2 研究背景 |
1.3 并行计算在雷达领域的研究现状 |
1.4 CPU处理器的发展 |
1.5 GPU处理器的发展 |
1.6 论文的工作安排 |
第二章 雷达HRRP目标识别基本方法 |
2.1 HRRP相关概念 |
2.2 HRRP识别的基本流程 |
2.3 脉冲压缩 |
2.3.1 匹配滤波原理 |
2.3.2 分段脉冲压缩技术 |
2.3.3 仿真实验结果 |
2.4 基于Keystone变换的相参积累算法 |
2.4.1 Keystone变换原理 |
2.4.2 DFT+IFFT算法原理 |
2.4.3 Chirp-Z算法原理 |
2.4.4 仿真实验结果 |
2.5 HRRP数据预处理 |
2.5.1 归一化和迭代对齐 |
2.5.2 仿真实验结果 |
2.6 经典雷达HRRP目标识别模型 |
2.6.1 最大相关系数分类器模型 |
2.6.2 自适应高斯分类器模型 |
2.6.3 因子分析模型 |
2.6.4 复因子分析模型 |
2.6.5 仿真实验结果 |
2.7 卷积神经网络识别模型 |
2.7.1 神经元模型 |
2.7.2 前馈神经网络模型 |
2.7.3 卷积神经网络模型 |
2.8 本章小结 |
第三章 CPU和 GPU处理器的并行编程 |
3.1 CPU和 GPU硬件结构的异同 |
3.2 CPU多线程编程方法 |
3.3 GPU多线程编程框架 |
3.3.1 CUDA架构介绍 |
3.3.2 CUDA编程执行模型 |
3.4 CUDA编程调试及内核优化技巧 |
3.4.1 CUDA编程调试 |
3.4.2 CUDA内核优化技巧 |
3.5 本章小结 |
第四章 基于CPU和 GPU的 HRRP识别相关算法并行实现 |
4.1 引言 |
4.2 硬件平台与软件框架介绍 |
4.3 分段脉冲压缩算法并行实现 |
4.3.1 频域分段脉冲压缩并行结构分析 |
4.3.2 分段脉冲压缩CPU多线程并行实现 |
4.3.3 分段脉冲压缩GPU多线程并行实现 |
4.3.4 分段脉冲压缩并行实现结果 |
4.4 Keystone变换并行实现 |
4.4.1 Keystone变换并行结构分析 |
4.4.2 DFT+IFFT、Chirp-Z算法的CPU多线程并行实现 |
4.4.3 DFT+IFFT、Chirp-Z算法的GPU多线程并行实现 |
4.4.4 DFT+IFFT、Chirp-Z算法并行实现结果 |
4.4.5 运行时间与线程数的选择问题 |
4.5 迭代对齐并行实现 |
4.5.1 迭代对齐并行结构分析 |
4.5.2 迭代对齐CPU多线程并行实现 |
4.5.3 迭代对齐GPU多线程并行实现 |
4.5.4 迭代对齐并行实现结果 |
4.6 经典HRRP目标识别模型并行实现 |
4.6.1 MCC、AGC模型并行结构分析 |
4.6.2 MCC、AGC模型的CPU多线程并行实现 |
4.6.3 MCC、AGC模型的GPU多线程并行实现 |
4.6.4 MCC、AGC模型并行实现结果 |
4.6.5 FA、CFA模型并行结构分析 |
4.6.6 FA、CFA模型的CPU多线程并行实现 |
4.6.7 FA、CFA模型的GPU多线程并行实现 |
4.6.8 FA、CFA模型并行实现结果 |
4.7 均值方差解耦合的快速求法 |
4.7.1 CPU均值方差解耦合实现的性能分析 |
4.7.2 GPU均值方差解耦合实现的性能分析 |
4.8 卷积神经网络识别模型的并行实现 |
4.8.1 卷积神经网络模型并行结构分析 |
4.8.2 一维卷积神经网络并行实现 |
4.8.3 二维卷积神经网络并行实现 |
4.9 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
致谢 |
作者简介 |
(6)离散小波变换的研究与硬件实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 离散小波变换发展现状 |
1.2.1 离散小波变换发展历程 |
1.2.2 小波阈值去噪算法研究现状 |
1.2.3 DWT硬件实现研究现状 |
1.3 离散小波变换的应用 |
1.4 论文的主要工作及结构安排 |
1.5 课题来源 |
第二章 小波变换理论基础 |
2.1 小波变换 |
2.1.1 小波基函数 |
2.1.2 连续小波变换 |
2.1.3 离散小波变换 |
2.2 多分辨率分析和Mallat算法 |
2.2.1 多分辨率分析 |
2.2.2 Mallat算法 |
2.3 提升小波变换 |
2.4 二维离散小波变换 |
2.5 本章小结 |
第三章 小波域去噪算法研究 |
3.1 小波域去噪原理和方法 |
3.1.1 小波域去噪原理 |
3.1.2 小波域去噪方法 |
3.2 小波阈值去噪原理 |
3.3 改进的小波阈值去噪算法 |
3.3.1 改进的阈值函数 |
3.3.2 改进的阈值选取方式 |
3.4 仿真实验结果分析 |
3.5 本章小结 |
第四章 离散小波变换的硬件设计与实现 |
4.1 离散小波变换的滤波器组结构 |
4.2 有限脉冲响应滤波器结构的研究 |
4.2.1 FIR滤波器的基本结构 |
4.2.2 FIR滤波器的硬件实现结构 |
4.3 一维离散小波变换处理器 |
4.3.1 一维离散小波变换处理器系统架构 |
4.3.2 DWT控制单元 |
4.3.3 DWT运算单元 |
4.3.4 存储控制单元 |
4.4 二维离散小波变换硬件设计实现 |
4.4.1 多级变换结构 |
4.4.2 运算单元结构设计 |
4.4.3 暂存单元及存储规则设计 |
4.4.4 多级二维离散小波变换设计方案 |
4.4.5 二维离散小波变换硬件结构 |
4.5 本章小结 |
第五章 FPGA验证和结果分析 |
5.1 验证方案 |
5.2 FPGA验证 |
5.2.1 FPGA验证平台及流程 |
5.2.2 运算误差分析 |
5.2.3 硬件资源分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(7)运动图像去模糊技术研究(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 前言 |
1.1 课题研究目的及意义 |
1.2 课题的研究背景及发展现状 |
1.2.1 图像去模糊技术研究背景及发展现状 |
1.2.2 非盲去模糊方法研究背景及发展现状 |
1.2.3 盲去模糊方法研究背景及发展现状 |
1.2.4 图像处理系统研究背景及发展现状 |
1.2.5 图像频域转换算法研究背景及发展现状 |
1.3 本文主要内容与结构安排 |
1.4 本章小结 |
第二章 运动图像去模糊算法理论 |
2.1 运动图像去模糊基本理论 |
2.1.1 常见模糊类型 |
2.1.2 图像退化模型 |
2.1.3 图像先验知识 |
2.2 图像复原质量评价指标 |
2.2.1 峰值信噪比(PSNR) |
2.2.2 结构相似性(SSIM) |
2.2.3 视觉信息保真度(VIF) |
2.3 图像复原经典算法 |
2.3.1 逆滤波复原 |
2.3.2 维纳滤波复原 |
2.3.3 约束最小二乘法复原 |
2.3.4 Rischardson-Lucy滤波复原 |
2.3.5 四种经典图像复原的实验结果及分析 |
2.4 本章小结 |
第三章 基于频谱特性的模糊核估计 |
3.1 傅里叶变换理论及基本应用 |
3.2 运动模糊图像频域特征分析 |
3.3 运动图像倒谱分析 |
3.4 基于倒谱特性的模糊核估计 |
3.4.1 Canny算子选择 |
3.4.2 算法具体实现 |
3.4.3 算法实验结果及分析 |
3.5 本章小结 |
第四章 基于FPGA的模糊图像频域优化设计 |
4.1 FFT常用算法介绍 |
4.1.1 基2-时域抽取算法 |
4.1.2 基2-频域抽取算法 |
4.2 FFT通用结构介绍 |
4.2.1 顺序结构 |
4.2.2 并行结构 |
4.2.3 流水线结构 |
4.2.4 阵列结构 |
4.3 一维FFT结构优化设计 |
4.3.1 RAM存储模块 |
4.3.2 ROM存储模块 |
4.3.3 蝶形运算单元模块 |
4.3.4 时序控制模块 |
4.4 二维FFT结构优化设计 |
4.5 仿真测试结果 |
4.5.1 一维FFT仿真测试结果 |
4.5.2 二维FFT仿真测试结果 |
4.6 本章小结 |
第五章 运动图像去模糊系统实现 |
5.1 系统框架 |
5.1.1 系统组成 |
5.1.2 系统流程 |
5.2 系统硬件平台构建 |
5.2.1 DE1-SoC开发板介绍 |
5.2.2 组建HPS硬件系统 |
5.3 系统软件设计 |
5.3.1 Quartus Ⅱ介绍 |
5.3.2 So C-EDS设计工具 |
5.3.3 图像盲去模糊算法设计 |
5.3.4 基于QT的图像用户界面软件设计 |
5.4 系统测试与分析 |
5.4.1 实验环境搭建 |
5.4.2 实验结果与分析 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 全文总结 |
6.2 工作展望 |
附录A 实物图 |
附录B 攻读学位期间发表的学术成果 |
参考文献 |
(8)二维可分离FIR滤波器稀疏优化算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 低复杂度2-D滤波器的设计方法 |
1.3 最优有限字长滤波器的设计 |
1.4 论文的主要工作和内容安排 |
第2章 可分离2-D FIR滤波器的稀疏优化算法 |
2.1 可分离2-D FIR滤波器的设计原理 |
2.2 可分离2-D FIR滤波器的系数优化技术 |
2.2.1 系数优化问题描述 |
2.2.2 信赖域-迭代梯度搜索技术 |
2.3 可分离2-D FIR滤波器零系数数目最大化问题 |
2.4 可分离2-D FIR滤波器稀疏优化算法 |
2.4.1 基于迭代最小l_1范数的稀疏优化算法 |
2.4.2 基于迭代重加权l_1范数的稀疏优化算法 |
2.4.3 基于贪婪搜索的稀疏优化算法 |
2.4.4 基于迭代重加权l_1范数与贪婪搜索联合的稀疏优化算法 |
2.5 仿真实例与结果分析 |
2.6 本章小结 |
第3章 可分离2-D FIR滤波器的量化算法 |
3.1 有限字长效应概述 |
3.2 系数量化问题描述 |
3.3 (迭代)分步式整数线性规划算法 |
3.4 (迭代)分步式整数线性规划-邻域搜索算法 |
3.5 近似目标优化算法 |
3.6 基于有限二次幂项的系数量化算法 |
3.7 仿真实例 |
3.7.1 1-D FIR滤波器的仿真实例 |
3.7.2 可分离2-D FIR滤波器的仿真实例 |
3.8 本章小结 |
第4章 可分离2-D FIR滤波器的应用与FPGA仿真 |
4.1 2-D滤波器的图像处理原理 |
4.1.1 传统2-D滤波器的图像滤波原理 |
4.1.2 可分离2-D滤波器的图像滤波原理 |
4.2 Simulink仿真与分析 |
4.2.1 Simulink仿真系统搭建 |
4.2.2 仿真结果与分析 |
4.3 FPGA仿真与分析 |
4.3.1 仿真系统搭建 |
4.3.2 仿真结果与分析 |
4.4 本章小结 |
第5章 总结和展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
附录 |
(9)面向FPGA硬件的卫星影像GA-RLS-RFM正射纠正优化算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 卫星影像几何纠正模型研究现状 |
1.2.2 星上遥感影像实时处理现状 |
1.3 本文的研究内容和创新点 |
1.4 组织结构 |
第2章 卫星影像的VGM无控定位模型 |
2.1 引言 |
2.2 单线阵推扫式卫星的成像几何 |
2.3 卫星星历数据和姿态数据插值 |
2.3.1 星历数据插值 |
2.3.2 姿态数据插值 |
2.4 单线阵推扫式卫星影像的VGM无控定位模型 |
2.4.1 像元在本体坐标系中的视线向量 |
2.4.2 像元在轨道坐标系中的视线向量 |
2.4.3 像元在地心坐标系中的视线向量 |
2.4.4 VGM模型的建立 |
2.4.5 地面点大地坐标的解算 |
2.5 VGM模型改正 |
2.5.1 改正由相对速度引起的像差 |
2.5.2 改正由光传输延迟引起的定位误差 |
2.5.3 改正卫星参数中的系统误差 |
2.6 利用VGM模型进行卫星影像定位实验 |
2.6.1 无控制点的定位实验 |
2.6.2 有控制点的定位实验 |
2.6.3 实验结果分析 |
2.7 本章小结 |
第3章 卫星遥感影像的RLS-RFM模型 |
3.1 引言 |
3.2 RLS-RFM模型的建立 |
3.2.1 RLS-RFM模型参数求解算法 |
3.2.2 RLS-RFM模型参数求解流程 |
3.2.3 RLS-RFM模型参数求解实验 |
3.3 利用RLS-RFM模型对卫星影像进行正射纠正 |
3.3.1 RLS-RFM模型像方坐标补偿 |
3.3.2 SPOT-6 影像正射纠正实验 |
3.3.3 IKONOS-2 影像正射纠正实验 |
3.4 本章小结 |
第4章 RLS-RFM模型的遗传算法优化及卫星影像正射纠正算法 |
4.1 引言 |
4.2 RLS-RFM模型的遗传算法优化原理 |
4.2.1 个体编码 |
4.2.2 适应度函数的建立 |
4.2.3 种群繁殖 |
4.3 卫星影像的正射纠正算法 |
4.3.1 传统的基于RFM模型的卫星影像正射纠正算法 |
4.3.2 卫星影像的GA-RLS-RFM正射纠正算法 |
4.4 卫星影像的GA-RLS-RFM正射纠正实验 |
4.4.1 GA算法参数设计 |
4.4.2 SPOT-6 影像正射纠正实验 |
4.4.3 IKONOS-2 影像正射纠正实验 |
4.5 本章小结 |
第5章 卫星影像的 VGM无控定位算法的 FPGA硬件架构 |
5.1 引言 |
5.2 FPGA硬件架构 |
5.3 子模块 |
5.3.1 CTRL_VGM模块 |
5.3.2 VVCM模块 |
5.3.3 RAM_VV模块 |
5.3.4 ITERATION模块 |
5.4 仿真实验 |
5.4.1 参数设置 |
5.4.2 仿真波形 |
5.4.3 性能分析 |
5.5 本章小结 |
第6章 RLS-RFM模型参数求解算法的FPGA硬件架构 |
6.1 引言 |
6.2 FPGA硬件架构 |
6.3 .子模块 |
6.3.1 NORMALIZE模块 |
6.3.2 快速的矩阵乘法并行结构 |
6.4 仿真实验 |
6.4.1 参数设置 |
6.4.2 仿真波形 |
6.4.3 性能分析 |
6.5 本章小结 |
第7章 GA-RLS-RFM正射纠正算法的FPGA硬件架构 |
7.1 引言 |
7.2 FPGA硬件架构 |
7.3 子模块 |
7.3.1 GARFM模块 |
7.3.2 GETCORD模块 |
7.3.3 ORTHOM模块 |
7.4 仿真实验 |
7.4.1 参数设置 |
7.4.2 仿真波形 |
7.4.3 性能分析 |
7.5 本章小结 |
第8章 总结与展望 |
8.1 总结 |
8.2 研究展望 |
参考文献 |
附录:英文缩写词 |
发表论文和参加科研情况说明 |
致谢 |
(10)夹杂问题数值解法的并行实现及算法优化研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 课题背景与意义 |
1.2 国内外研究现状 |
1.2.1 夹杂问题及其数值算法研究现状 |
1.2.2 并行计算软硬件发展 |
1.3 研究内容 |
2 夹杂问题的快速傅里叶离散卷积/相关数值算法 |
2.1 夹杂体基本单元解 |
2.1.1 全空间夹杂体基本单元解 |
2.1.2 半空间夹杂基本单元解 |
2.2 任意形状夹杂体的数值算法 |
2.3 卷积/相关定理及其快速傅里叶变换 |
2.3.1 离散卷积 |
2.3.2 离散相关 |
2.4 数值算法的快速傅里叶加速 |
2.4.1 全空间快速傅里叶离散卷积算法 |
2.4.2 半空间快速傅里叶离散卷积/相关算法 |
2.5 本章总结 |
3 基于FFTW的不同快速傅里叶变换算法研究 |
3.1 FFTW算法基础 |
3.1.1 不同数据序列的离散快速傅里叶算法 |
3.1.2 FFTW在Fortran中的实现 |
3.1.3 FFTW多线程原理 |
3.2 实数FFT(r2c/c2r)的同位运算和非同位运算卷积 |
3.3 复数FFT同时变换双实序列 |
3.4 结果与讨论 |
3.4.1 不同FFT卷积算法比较 |
3.4.2 FFTW变换控制参数及并行测试 |
3.5 本章总结 |
4 基于CPU和GPU并行的夹杂问题数值算法加速 |
4.1 数值算法CPU并行 |
4.1.1 OpenMP并行结构 |
4.1.2 CPU并行方案分析及实现 |
4.1.3 结果和讨论 |
4.2 数值算法GPU并行 |
4.2.1 GPU结构及OpenACC构件 |
4.2.2 数值算法GPU并行实现 |
4.2.3 结果和分析 |
4.3 单元解角点积分的去重复优化及并行实现 |
4.3.1 计算重复性分析 |
4.3.2 去重复优化实现 |
4.3.3 结果和讨论 |
4.4 结果准确性验证 |
4.5 本章总结 |
5 夹杂问题数值算法结构优化 |
5.1 数值算法的独立网格研究 |
5.1.1 独立网格的实施 |
5.1.2 独立网格奇点分析 |
5.1.3 结果和讨论 |
5.2 全空间系数矩阵对称性利用 |
5.2.1 对称性利用分析 |
5.2.2 对称压缩法消除对称元素计算 |
5.2.3 最少元素法消除对称元素计算 |
5.2.4 结果和讨论 |
5.3 响应原函数的文件存储再利用 |
5.3.1 不同存储文件格式比较 |
5.3.2 存储再利用实现 |
5.3.3 结果和讨论 |
5.4 结果准确性验证 |
5.5 本章总结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
A.作者在攻读学位期间发表的论文和科研成果 |
B.作者在攻读学位期间参与的科研项目 |
C.学位论文数据集 |
致谢 |
四、一种并行结构的二维正/逆整数变换处理器(论文参考文献)
- [1]视觉检测中特征提取的FPGA加速技术研究[D]. 潘银飞. 合肥工业大学, 2021
- [2]面向异构系统的多面体编译优化关键技术研究[D]. 李颖颖. 战略支援部队信息工程大学, 2021(01)
- [3]LFMCW雷达信号处理关键算法芯片研究及系统验证[D]. 黄哲. 电子科技大学, 2021(01)
- [4]基于多核处理平台的HEVC解码核心模块并行处理的算法设计与实现[D]. 李毅. 南京邮电大学, 2020(03)
- [5]基于CPU和GPU的雷达目标识别算法并行实现[D]. 钟银都. 西安电子科技大学, 2020(05)
- [6]离散小波变换的研究与硬件实现[D]. 杜诗强. 合肥工业大学, 2020
- [7]运动图像去模糊技术研究[D]. 李菁菁. 南京林业大学, 2020(01)
- [8]二维可分离FIR滤波器稀疏优化算法研究[D]. 李伟琪. 杭州电子科技大学, 2020(02)
- [9]面向FPGA硬件的卫星影像GA-RLS-RFM正射纠正优化算法研究[D]. 张荣庭. 天津大学, 2019(01)
- [10]夹杂问题数值解法的并行实现及算法优化研究[D]. 罗大辉. 重庆大学, 2019