基于TMS320DM6446的H.264编码器的设计与优化
TM320DM6446中用于编码器具体实现的C64x+DSP的时钟频率达到600MHz。C64x+DSP的内部存储器的配置包括 32KB的程序存储器L1P、80KB的数据存储器L1D和64KB的二级缓存L2。图2为TM320DM6446中DSP端的核心C64x+的结构原理图。

图2 C64x+结构原理图
编码器在TM320DM6446上的实现
由于DSP平台与PC平台的差异性,必须要对PC上开发的编码器程序进行结构上的调整,并进行合理的内存分配才能在DSP平台上正常的运行。主要实现步骤如下。
1 编码器C语言结构调整
PC 平台上用C语言实现的编码器在DSP平台上的编码帧率(fps)非常低,平均2s才能编完一帧,其主要原因是无法利用DSP的并行处理机制。因此针对 C64x+的特点,将程序中对流水线操作影响较大的循环拆分成若干小循环实现。对编码器运行速度影响较大的模块,如sad的计算,DCT变换等采用CCS 自带的图像库以提高编码效率。
2 DSP端的内存配置
由于视频编码的数据存取量较大,而 DAVINCI_EVM提供了256M的外部存储器DDR2,因此通过对DSP/BIOS的设置将外部存储器设置为DDR2,并将可执行的C代码及C代码的堆存入外部存储器中。
3 对DSP端BOOT的设置
由于TM320DM6446采用双核的设计,ARM端只负责整个工程的控制而不参与编码算法的具体实现。为了保证编码算法能在DSP端无中断的全速运行,需要对ARM端进行屏蔽,并通过对DAVINCI_EVM跳线的设置使DSP端自BOOT。
通过以上步骤,编码器效率虽然有所提高,但仍无法满足实时性的要求,因此必须结合DM6446本身的特点对编码器算法进行进一步的优化。
编码器的优化
本文对H.264算法的优化主要有两个方面:1)对算法中耗时较多的运动估计模块进行优化;2)对DSP的数据搬移进行优化。