当前位置:首页 >> 电力/水利 >>

GPU加速的图像匹配技术


Computer Engineering and Applications 计算机工程与应用

2012, 48 (2)

173

GPU 加速的图像匹配技术
厉旭杰 LI Xujie
温州大学 物理与电子信息工程学院, 浙江 温州 325035 College of Physics & E

lectronic Information Engineering, Wenzhou University, Wenzhou, Zhejiang 325035, China LI Xujie. GPU-acceleration of parallelized image matching algorithm. Computer Engineering and Applications, 2012, 48 (2) : 173-176. Abstract: The speed of conventional image matching is very slow. A novel approach is presented which accelerates the image matching algorithm by using the GPGPU technology, and CUDA is used to reprogram the process. Four methods by using several types of cuda device memory are proposed. In the fourth method, 43. 5 times speedup has been achieved in the GPU as compared to the CPU counterpart, which demonstrates the significance of parallelizing the image matching algorithm using the GPGPU technology in image matching system. The importance of memory access efficient as a limiting factor to parallelism is investigated. Key words:image matching; Compute Unified Device Architecture (CUDA)device memory types; Graphic Processing Unit (GPU) ; parallel computing 摘 要: 传统的模板图像匹配算法, 匹配速度较慢。应用 GPU 通用高性能编程技术实现了一种加速图像匹配算法的新方法。应 用 CUDA 编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案, 在第四种存储方案中获得了 43.5 倍的加速 比, 并对四种不同的存储方案的性能进行了深入研究。 关键词: 图像匹配; 存储模型; 图形处理器 (GPU) ; 并行计算 DOI: 10.3778/j.issn.1002-8331.2012.02.049 文章编号: 1002-8331 (2012) 02-0173-04 文献标识码: A
S Width (i? j)

中图分类号: TP301

图像匹配指通过分析两幅图像中的同一景物, 以确定两 幅图像之间相对位移的过程 。它是计算机视觉和图像工程 的基本研究内容之一, 在自动导航、 机器人视觉、 目标跟踪与
S Height
[1]

… … …
T Height T Width

识别、 自然资源分析等领域中, 发挥着十分重要的作用[2-4]。 目前图像匹配的方法主要有两类: 一种是基于灰度的图 像匹配, 这种方法匹配概率高, 但速度较慢; 另一类是基于特 征的图像匹配, 这种方法匹配速度快, 但匹配概率不高。图像 匹配的速度主要取决于匹配算法的搜索策略。基于灰度的图 像匹配算法的基本搜索策略是遍历性的, 为了找到最优匹配 点, 必须在搜索区域内的每一个像素点上进行区域相关匹配 计算, 图像相关匹配的数据量和计算量很大, 匹配速度较慢, 为了提高图像匹配算法的速度, 很多学者进行了改进, 比如序 贯相似性检测的快速算法 (SSDA) , 但是改进的速度 (加速几 倍) 无法满足实际应用的需要, 或者以牺牲匹配的精度来提 高算法的速度。 GPU 在并行数据运算上具有强大的计算能力, 特别适合 做大量并行化的问题
[6-8] [5]

… … Template



Source

图 1 模板及其搜索图

D (i? j ) =

T Width T Height

? ? [S m=1 n=1

i? j

(m? n) - T (m? n)]2

(1)

或者
D(i? j) =
T Width T Height m=1 n=1

? ? || S

i? j

(m? n) - T (m? n) ||
T Width T Height

(2)

如果展开前一个式子, 则有
D(i, j) =
T Width T Height

, 本文利用 CUDA 平台来加速图像的

? ? [S m=1 n=1
m=1 n=1

i? j

(m, n)]2 - 2 ?

?S m=1 n=1

i? j

(m, n) ? T (m, n) +

T Width T Height

匹配速度, 使用四种不同的存储模型方案对匹配速度做了测 试, 并对这几种方案对图片匹配的加速性能进行了深入分析。

? ? [T (m? n)]2

(3)

左边第三项表示模板的总能量, 是一个常数与 (i, j) 无关, 第一项是模板覆盖下那块图像子图的能量, 它随 (i, j) 位置而 缓慢改变, 第二项是自图像和模板的互相关, 随 (i, j) 而改变。 T和 S
i? j

1

模板匹配法
设模板 T 叠放在搜索图 S 上平移, 模板覆盖下的那块搜索
i? j

图叫作子图 S

, i, j 为这块子图的左上角象点在 S 图中的坐
i? j

匹配时这一项的取值最大, 因此可以用下列相关函数
T Width T Height

标, 叫参考点, 从 图 1 中 可 以 看 出 i 和 j 的 取 值 范 围 为 0≤i< SWidth-TWidth+1, 0≤j<SHeigth-THeigth+1, 现在可以比较 T 和 S 容。若两者一致, 则T和 S 测度之一来衡量 T 和 S
i? j i? j

作相似性测度[9]:
R(i? j) =
m=1 n=1 T Width T Height m=1 n=1

的内

? ?S

i? j

(m? n) ? T (m? n)

之差为零, 所以可以用下列两种

(4)
i? j

的相似程度:

? ? [S

(m? n)]

2

作者简介: 厉旭杰 (1981—) , 男, 实验师, 主要研究方向: 人工智能、 GPU 并行计算。E-mail: lixujie101@yahoo.com.cn 收稿日期: 2010-07-07; 修回日期: 2010-09-02

174

2012, 48 (2)

Computer Engineering and Applications 计算机工程与应用
C Program Sequential Execution Serial code

Block (0, 0)

Block (0, 1)

Block (0, 2) …

Block (0, N)

Host

Block (1, 0)

Block (1, 1)

Block (1, 2) …

Block (1, N)

Parallel Kernel Kernel0<<<>>> ( )

Device Grid0 Block (0, 0)

Block (1, 0)

Block (2, 0)

Block (2, 0)

Block (2, 1)

Block (2, 2) …

Block (2, N) Serial code

Block (0, 1)

Block (1, 1)

Block (2, 1)

Host



… Block (1, 1)





… Parallel Kernel Kernel1<<<>>> ( ) Device Grid1 Block (0, 0)

Thread (0, 0)

Thread (0, 1) …

Thread (0, 15)

Block (1, 0)

Block (0, 1) … … … … Thread (15, 15) … Block (0, 1) Thread (15, 0) Thread (15, 1)

Block (1, 1)

Block (1, 1)

图2

线程结构图

图 3 CUDA 编程模型

或者归一化为:
T Width T Height

以看出, 每个相似度测度 Ri? j 之间没有依赖关系, 可以互相直
i? j

R(i? j) =

? ?S m=1 n=1
i? j

(m? n) ? T (m? n)
2 T Width T Height m=1 n=1

T Width T Height m=1 n=1

(5)
2

? ? [S

(m? n)]

? ? [T (m? n)]

接独立并行计算, 因此可以在 CUDA 平台下并行加速计算。 在本文中, 每个 thread 负责一个相似性测度的计算, 共需要 (S Width - T Width + 1) ? (S Heigth - T Heigth + 1) 个 thread 参与运算, 采用公 式 (5) 计算完相似性测度 Ri? j 以后, 需要计算 R max , 可以采用 规约的方法。一个 block 内的 thread 可以有共享的内存, 也可 以进行同步, 利用这一点, 可以让每个 block 内的所有 thread 把 自己计算的相似度值取最大值, 理论上 16×16 个相似度值取最 大值是可以并行化的, 可以通过优化的并行规约实现[10]:
R0? 0 R0? 1 R0? 2 R0? 3 R0? 4 R0? 5 R0? 6 R0? 7 R0? 8 R0? 9 R0? 10 R0? 11
max max max max max max …

相似性测度需要 (S Width - T Width + 1) ? (S Heigth - T Heigth + 1) 次 计算, 而每个相似性测度之间没有依赖关系, 因此可以互相之 间独立并行计算。

2

CUDA 编程模型

CUDA 是 NVIDIA 的 GPGPU 模型, 它以 C 语言为基础, 可以 直接以 C 语言, 写出在显示芯片上执行的程序。最适合利用 CUDA 处理的问题, 是可以大量并行化的问题, 目前已有大量 的研究 CUDA 处理大量并行化问题并取得了很好的效果。 如图 2 所示, kernel 以线程网格的形式组织, 每个线程网格 由若干个线程块 (block) 组成, 而每个线程块又由若干个线程 (thread) 组成。实质上, kernel 是以 block 为单位执行的, 各 block 是并行执行的, block 间无法通信, 也没有执行顺序。 图 3 显示了 CUDA 编程模型, 采用 CPU+GPU 异构模式, 由 GPU 负责大规模数据并行计算, 即在 Kernel 上实现, CPU 串 行代码完成的工作包括在 Kernel 启动前进行数据准备和设备 初始化的工作, 以及在 Kernel 之间进行一些串行计算。



max

max

max



max

max



max



图 4 规约求最大值的过程

3

CUDA 平台下相似度测度并行计算

实际上来说, 只是要做计算平方和的动作, 用 CPU 做会比 用 GPU 快得多, 这是因为平方和的计算并不需要太多运算能 力, 所以几乎都是被内存带宽所限制。因此, 光是把数据复制 到显卡内存上的这个动作, 所需要的时间, 可能已经和直接在
T Width T Height

从图 4 中可以看出, 在循环当中, 每一轮都只有上一轮循 环中的一般的线程进行求最大值, 即为规约的过程[10], 但是图 4 规 约 求 最 大 值 的 过 程 在 GPU 上 执 行 的 时 候 , 会 有 share memory 的 bank conflict 及 warp 分支问题, 采用如下方法, 可 以避免这个问题:
int tx=threadIdx.x; int ty=threadIdx.y; Offset=blockDim.x*blockDim.y/2; while (offset>0) { if (ty*blockDim.x+tx<128) {

CPU 上进行计算差不多了。因此

m=1 n=1

? ? [T (m? n)]

2

的计算在

CPU 上执行可以获得更好的性能, 由 CPU 计算完成以后, 把结 果通过全局寄存器传递给 GPU 继续进行计算, 从公式 (5) 中可

厉旭杰: GPU 加速的图像匹配技术
if (sharetemplate[ty*blockDim.x+tx].R<sharetemplate[ty* blockDim.x+tx+128].R) { sharetemplate[ty*blockDim.x+tx].R=sharetemplate[ty* blockDim.x+tx+128].R; sharetemplate[ty*blockDim.x+tx].Rpositon=sharetemplate[ty*blockDim.x+tx+128].Rpositon; } } Offset2>>=1; __syncthreads ( ) ; }

2012, 48 (2)

175

以用共享存储器代替全局存储器可以获得很高的性能优化。 第二种存储方案, 把模板数据先放入共享存储器, 而图片 数据放入全局寄存器, 因为每个线程要计算一个相似度值的 计算, 模板数据要全部读取一遍, 如果把数据放在全局寄存器 中, 每个线程要从全局寄存器中读取全局寄存器 T Width ? T Heigth 次, 而全局寄存器是没有 cache 的, 存取全局寄存器所需要的 时间 (即 latency) 是非常长的, 通常是数百个 cycle, 而共享寄存 器存取速度相当快, 不需要担心 latency 的问题, 因此第二种存 储方案相比第一种存储方案获得了很大的性能提升, 从原来 加速比 6.6 倍提高到了 40.5 倍。 为了获得更大性能上的提升, 第三种存储方案把模板数据 和图片数据都放入共享存储器如表 2, 但是未能获得预期的结 果, 相比第二种存储方案加速反而下降了。使用 CUDA Profiler 对第二种、 第三种存储方案的程序进行了性能的测试, 结果见表 3。
表 3 使用 CUDA profiler 测试程序第二种存储方案和 第三种存储方案的测试结果
存储方案 Kernel details Register Ratio Shared Memory Ratio Active Blocks per SM Active threads per SM Occupancy Occupancy limiting factor 第二种存储方案 1 (16 384/16 384) [16 registers per thread] 1 (16 384/16 384) [3 696 bytes per Block] 4 ∶ 8 1 024 ∶ 1 024 1 (32/32) None 第三种存储方案 0.5 (8 192/16 384) [16 registers per thread] 0.875 (14 336/16 384) [6 816 bytes per Block] 2 ∶ 8 512 ∶ 1 024 0.5 (16/32) Shared-memory Grid size: 14×14, Block size: 16×16×1

在上面的例子中每个 thread 操作的元素都是相邻的, 因此 不会造成 bank conflict, 为了进一步提高效率, 程序把循环求 最大值整个展开。通过图 4 规约求最大值的过程, 让每个 block 把自己的所有 thread 中计算的相似性测度的最大值及其 坐标位置 (i, j) 计算出来, 最后由 CPU 根据每个 block 的最大相 似性测度, 来计算这个图片的最大相似性测度及其坐标位置 (i, j) , 即为图像的匹配结果。

4

实验结果

表 1 显示了计算图像匹配的 CPU 和 GPU 硬件环境和软件 环境。表 2 显示了用 lena 图像 (大小为 256×256, 模板大小为 35×44) 的情况下, CPU 和 GPU 运行的时间, 从表 2 中可以看 出, 在模板数据和图像数据都放在全局存储器的情况下, 使用 GPU 加速可以获得 6.6 倍的加速比。
表1
硬件环境 内存: 6 GB

环境及工具

CPU: Inter? Core? i7 CPU 920@2.67 GHz 显存: Geforce GTX 280, 显存大小 1 024 MB OS: Windows 7 64 位 编译环境: Visual Studio 2008 (MFC) CUDA: CUDA SDK 32 bit 3.0;CUDA Toolkit 32 bit 3.0 显卡驱动: NVIDIA Driver for Window 7 64 bit

块内总束数量 W block 如下[11]:
W block = ceil(T/W size? 1)

(6)

W size 是束尺寸, T 是块内线程数, 等于 32, ceil (x, y) 等于 x

软件环境

向上取到 y 的整数倍。 分给一个块的总寄存器数量 R block 如下: 对于计算能力 1.x 的设备: R block = ceil(ceil(W block? G w) ? W size ? R k? GT ) 对于计算能力 2.0 的设备: R block = ceil(R k ? W size? GT ) ? W block (7) (8)

表2

GPU 和 CPU 计算编辑距离速度比较 (Release 版本测试结果)
模板数据 图像数据 CPU 执行 100 GPU 执行 100 加速比 次时间 TCPU/s 次时间 TGPU/s TGPU/TCPU 11.75 11.75 11.75 11.75 1.77 0.29 0.34 0.27 6.6 40.5 34.6 43.5

GPU 存储模型 全局存储器

全局存储器 全局存储器

G w 是束分配粒度, R k 是内核 等于 2 (只是计算能力 1.x) , GT 是线程分配的粒度, 使用的寄存器数, 计算能力 1.0 和 1.1

共享存储器 (1) 共享存储器 全局存储器 共享存储器 (2) 共享存储器 共享存储器 纹理存储器 共享存储器 纹理存储器

注: 用 lena 图像, 图像大小为 256×256, 模板大小为 35×44。

的设备上等于 256, 计算能力 1.2 和 1.3 的设备上等于 512, 计算 能力 2.0 的设备上等于 64。 块内总共享存储器数量 S block 如下:
S block = ceil(S k? G S )

5

CUDA 架构下性能优化

(9)

共享存储器位于 GPU 片内, 速度比 local/global memory 快得多。在不发生 bank conflict 的情况下, share memory 的延 迟几乎只有 local 或 global memory 的 1/100, 访问速度与寄存 器相当, 是实现线程间通信延迟最小的方法。 共享存储器等价于用户管理的缓存: 应用显式地分配和 访问它。一个常用的编辑模式是将来自设备存储器的数据存储 到共享存储器, 换句话说, 让块内的每个线程: (1) 从设备存储 器中加载数据到共享存储器; (2) 同步块内的其他线程以便每 个线程能够安全读其他线程写的数据; (3) 在共享存储器内处 理数据; (4) 如果需要的话再次同步以保证结果更新了共享存储 器; (5) 将结果写回设备存储器。用共享存储器来代替全局存 储器对优化性能非常重要, 因为全局存储器的带宽比较低, 所

S k 是内核使用的共享存储器总量, GS 是 以字节为单位,

共享存储器分配粒度, 对于计算能力 1.x 的设备, 其值为 512, 而对于计算能力 2.0 的设备其值为 128。 使用 CUDA profiler 测试结果如表 3, 针对第三种存储方 案进行分析, 其中每个 block 使用动态共享内存 6 752 Byte, 静 态共享内存 64 Byte, 共使用共享内存 6 816 Byte, 使用公式 (9) 计算一个 block 中使用的共享内存为 7 168 Byte, 而一个 SM 可 以同时并发 768 threads (1.2 以上是 1 024 threads) , 活动线程数 量不超过 8 个, 由于一个 SM 只有 16 KB 的共享内存, 所以由于 共享内存限制, 一个 SM 实际拥有的活动线程块只能是 2 个, 因此拥有的活动线程数是 512 个, 根据公式 (6) 可以计算得到 块内总束是 16, occupancy 为 0.5, 和 CUDA GPU Occupancy

176

2012, 48 (2)

Computer Engineering and Applications 计算机工程与应用 同的存储模型方案对匹配速度做了测试, 结果获得了最高 43.5 的加速比, 并对测试结果进行了深入的分析, 发现在 block 尺寸 为 16×16 的情况下, 当每个线程使用的寄存器超过 16 个或者每 个 block 使用的共享内存超过 4 096 Byte 的时候, 会使一个 SM 实际拥有的活动线程块数目减少, 从而成为限制 Occupancy 的一个主要因素而引起性能的下降。

Calculator 工具计算得到的理论最大 occupancy 吻合, 每个线程 使用 16 个寄存器, 根据公式 (7) 可以计算得到一个 SM 中使用 的寄存器为 8 192 Bytes, 因此从表 3 中可以看出, 在测试程序 第三种存储方案中, 由于共享存储器的限制, 使得一个 SM 中 实际拥有的活动 block 数目由原来的 4 个减少为 2 个 (block 尺 寸为 16×16) , 从而使 Occupancy 下降为 0.5, 降低了程序的性 能。从表 2 中可以看到把图像数据放入共享存储器后的性能 反而比图像放入全局存储器的性能还要差。从表 3 的分析中 还可以看到在 block 尺寸为 16×16 的情况下 (通常采用这种尺 寸) , 当每个线程使用的寄存器超过 16 个或者每个 block 使用 的共享内存超过 4 096 Byte 的时候, 会使一个 SM 实际拥有的 活动线程块数目减少, 从而引起性能的下降。 纹理存储器能够通过缓存利用数据的局部性, 提高效 率。它的主要用途是用于存放图像和查找表。使用 texture 时 的好处有: (1) 不用严格遵守合并访问条件, 也能获得很高带 宽; (2) 对于随机访问, 如果要访问的数据并不是很多, 效率也 不会特别差; (3) 可以使用线性滤波和自动类型转换等功能调 用硬件的不可编程计算资源, 而不必占用可编程计算单元。 纹理存储器有缓存机制, 纹理缓存有两个作用。首先, 纹理缓 存中的数据可以被重复利用, 当一次访问需要的数据已经存 在与纹理缓存中时, 就便于对显存的再次读取了。数据重用 过滤了一部分对显存的访问, 节约了带宽, 也不必按照显存对 齐的要求读取。其次, 纹理缓存一次预取拾取坐标对应位置 附近的几个像元, 可以实现滤波模式, 也可以提高具有一定局 部性的访问效率。在通用计算中, 纹理存储器非常适合实现 图像处理和查找表, 对大量数据的随机访问或非对齐访问也 有良好的加速效果。 第四种存储方案把模板数据放入共享存储器, 而把图片数 据放入纹理寄存器, 测试的结果见表 3, 获得了比第二种存储 方案更好的性能, 但是相比第二种存储方案性能增加不明显。

参考文献:
[1] Nichols J, Bapty T.Autonomic image sequence processing[J].Integrated Computer-Aided Engineering, 2006, 13 (1) : 23-40. [2] Ghafoor A, Iqbal R N, Khan S A.Robust image matching algorithm[C]//Proceedings of the Fourth EURASIP Conference Focused on Video/Image Processing and Multimedia Communications, July 2003: 155-160. [3] Tsai T H, Fan K C.An image matching algorithm for variable mesh surfaces[J].Measurement, 2007, 40 (3) : 329-337. [4] Feng Z R, Lu N, Jiang P.Posterior probability measure for image matching[J].Measurement, 2008, 41 (7) : 2422-2433. [5] 阳方林, 杨风暴. 一种新的快速图像匹配算法 [J]. 计算机工程与应 用, 2005, 45 (5) : 51-52. [6] Nickolls J, Buck I, Garland M, et al.Scalable parallel programming with CUDA[J].ACM Queue, 2008, 6 (2) : 40-53. [7] Lindholm E, nickolls J, Oberman S, et al.NVIDIA Tesla: a unified graphics and computing architecture[J].IEEE Micro, 2008, 28 (2) : 39-55. [8] Liu W, Schmidt B, Voss G, et al.Streaming algorithms for biological sequence alignment on GPUs[J].IEEE Transactions on Parallel and Distributed Systems, 2007, 18 (9) : 1270-1281. [9] Li H, Duan H B, Zhang X Y.A novel image template matching based on particle filtering optimization[J].Pattern Recognition Letters, 2009. [10] 张舒, 褚艳利.高性能运算之 CUDA[M].北京: 中国水利水电出版 社, 2009: 176-184. [11] 编程指南 3.1 中文版[EB/OL].http: //cuda.itpub.net/thread-1281433-1-1. html.

6

结论
本文利用 CUDA 平台来加速图像的匹配速度, 使用四种不

(上接 141 页)
[7] Goto M, Muraoka Y.A real-time beat tracking system for audio signals[C]//Proceedings of the International Computer Music Conference.San Francisco: International Computer Music Association, 1995: 171-174. [8] Goto M, Muraoka Y.A realtime beat tracking for drumless audio signals: chord change detection for musical decisions[J].Speech Communication, 1999, 27: 311-335.

[9] Ellis D P W.Beat tracking with dynamic programming[C]//International Symposium on Music Information Retrieval(ISMIR), 2006, 36 (1) : 51-60. [10] Kim S, Unal E, Narayanan S.Music fingerprint extraction for classical music cover song identification[C]//International Conference of Multimedia and Expo (ICME) , 2008: 1261-1264. [11] Kim S, Unal E, Narayanan S.Dynamic chroma feature vectorswith applications to cover song identification[C]//Missouri Motorcycle Safety Program-MMSP, 2008: 984-987. ing, 2009, 27: 1134-1142. [7] Chang Shyang Lih, Chen Li Shien, Chung Yun Chung, et al.Automatic license plate recognition[J].IEEE Transactions on Intelligent Transportation, 2004, 5 (1) . [8] Zheng Danian, Zhao Yannan, Wang Jiaxin.An efficient method of license plate location[J].Pattern Recognition Letters, 2005, 26: 2431-2438. [9] Rodolfo Z, Stefano R.Vector quantization for license plate location and image coding[J].IEEE Trans on Industrial Electron, 2000, 47 (1) : 159-167.

(上接 163 页)
[3] Duan T D, Hong T L, Phuoc T V, et al.Building an automatic vehicle license plate recognition system[C]//Proc Int Conf Comput Sci RIVF, 2005: 59-63. [4] 林俊, 杨峰, 林凯.Hough 变换与先验知识在车牌定位中的新应用[J]. 计算机与数字工程, 2009, 37 (8) : 138-140. [5] 张玲, 刘勇, 何伟.自适应遗传算法在车牌定位中的应用[J].计算机 应用, 2008, 28 (1) : 184-186. [6] Abolghasemi V, Ahmadyfard A.An edge-based color-aided method for license plate detection[J].IEEE Image and Vision Comput-


相关文章:
图像处理的GPU加速技术研究与评价
图像处理的 GPU 加速技术研究与评价刘伟峰 蒋楠 宋付英 孟凡密 陈芳莉(中国石油化工股份有限公司石油勘探开发研究院信息技术研究所,北京,100083,liuwf@pepris.com)...
浅谈GPU加速
浅谈GPU 加速 GPU 加速是目前 CAE 领域较火的一个名词,各大厂家及软件代理商...GPU加速的图像匹配技术 4页 免费 GPU加速的生物序列比对 11页 免费©...
objc.io#21#GPU 加速下的图像处理
objc.io#21#GPU 加速的图像处理_计算机软件及应用...并且在顶点 着色器和片段着色器中必须有匹配的名 ...许多移动 GPU 用一种叫做“延 迟渲染” 的技术,...
ps功能加速
返回页首 Photoshop CS4 和 Bridge CS4 中的 GPU 加速功能 以下是由 GPU ...非方形像素图像的平滑显示 像素网格 移动色彩匹配 GPU 通过 GPU 绘制画笔笔尖...
Photoshop CS5开启GPU加速
Photoshop CS5开启GPU加速_计算机软件及应用_IT/计算机_专业资料。特别实用!!!...该功能的加入让 PS 发生了质的改变,以往单纯靠 CPU 来对 图像进行运算处理, ...
三种强大的物体识别算法
加速版, opencv 的 SURF 算法在适中的 条件下完成两幅图像中物体的匹配基本...SIFT on GPU, S.Heymann, 2005 SIFT on GPU(2), Sudipta N.Sinha, 2006 ...
图形图像技术报告
图形图像技术报告图形图像技术报告隐藏>> 西南科技大学...同时,也提出了高效的两步匹配方案,通过粗精两步...再与基于 GPU 的碰撞检测方法结合,有效地避免了人群...
图像检测技术的发展和应用
另外, 近年来结合类神经网络加速图像处理速度形成一个研究趋势。 在进入图像处理...匹配 较倾向属于图形辨认 (Pattern Recognition) 范围, 因其中含有 “分类”(...
软件雷达信号处理的多GPU 并行技术分析
也很好的证明 GPU加速雷达信 号处理运算上的可行性,具有很重要的现实意义。 【参考文献】 [1]肖汉.基于 CPU+GPU 的影像匹配高效能异构并行技术研究[D]....
更多相关标签:
gpu加速技术 | 图像匹配技术 | 图像识别匹配技术原理 | 多显示器 混合gpu加速 | gpu加速 | opencv gpu加速 | ae gpu加速 | matlab gpu加速 |