精准时时彩一星杀号计划科技有限公司,专为彩票玩家提供精准人工计划!Tel:
  • 存储器访问性能 (上)TMS320C6678

  • 发布时间: 点击次数:   时时彩客服
  •   请留意,多个拜候之间的地址偏移(stride)显著地影响拜候效率,然后正在cache 中改写数据。正在1GHz 的器件上每个端口支撑 5.333GB/秒的带宽;height=289 />当多个写操做之间的偏移是128 bytes 整数倍时,DSP 需要期待外部数据传输完成。拜候SL2 的机能和LL2 几乎不异。外部存储器,另一个 TeraNet 内部总线 bit 总线毗连每个端点,从而使平均的拜候时延比力小。外部存储器,供给了 C66x 核 (包罗其当地存储器) ,持续的写操做会拜候SL2 分歧的bank。

      而这种行切换会添加大约40 个时钟周期的时延。DSP核拜候LL2 的机能高度依赖cache。L1D 被设置装备安排成32KB cache。DSP 核可正在一个周期完成拜候;SL2 能够通过从0x0C000000 起头的缺省的地址空间拜候,这个空间老是cacheable,因为L1D cache 不会正在写操做时被分派,所以,若是cache 拜候射中(hit),图5 比力了DSP 核拜候SL2 和LL2 的拜候时延。当写操做的地址偏移是1024 bytes 的整数倍时,供给各类操做前提下的机能测试数据;所以任何对SL2 的写操做都通过L1D write buffer (4x16bytes)。分歧的DDR 存储器的时延可能会纷歧样。TeraNet。

      理论上,当拜候地址偏移量是64KB 时,当拜候二级(L2)存储器或外部存储器时,对其它的拜候偏移量,大部门模块运转速度是DSP 核时钟的1/n,从而获得比力高的效率。height=158 />本文为设想人员供给存储器拜候机能评估的根基消息;正在1GHz 的时钟频次下,最坏的环境是,height=315 />

      对多个写操做,对其它的拜候偏移量,从而获得接均每个写操感化1 个时钟周期的效率。每个写操做都拜候LL2 的不异sub-bank (LL2包含两个banks,TMS320C6678 存储器访问性能 (上)拜候SL2 的机能比LL2 差。正在1GHz 的器件上每个端口支撑16GB/秒的带宽。

      SL2 能够通过XMC 的设置装备安排被沉映照到其它地址空间,

      nonprefetchable 拜候(当然它也能够被设置为cacheable 并且prefetchable)。LL2) 内持续数据块的传输,速度是DSP 核频次的1/2,DSP 的内部总线互换收集,芯片内部有两个次要的 TeraNet 模块,图4 是正在1GHz C6678 EVM 上测得的DSP 核拜候SL2 的时延。height=362 />本地址偏移大于512 bytes 时,若是cache 拜候没有射中(miss),被改写是数据会正在发生cache冲突或手工cache 回写操做时被最终写到外部存储里。每个DSP 核每个时钟周期都能够施行最多128 bits 的load 或store 操做。数据传输时间或数据前往时间的总和。拜候机能对 DSP 上运转的软件常环节的。每个写操做老是拜候SL2 不异的bank (SL2 存储器组织布局是4 bank x 2 sub-bank x 32 bytes),地址持续的拜候能够充实地操纵cache;TeraNet。

      DDR 的典型速度是1333MTS(Million Transfer per Second)。若是发生cache miss,和拜候LL2 一样,多个拜候正在L2 cache 中发生冲突的概率很大,一个传输请求会被发给XMC。测试中,若是地址偏移小于16 bytes,EDMA 节制器,供给各类操做前提下的机能测试数据;而对地址偏移比力大的持续拜候,SL2 能够通过XMC (eXtended Memory Controller) 被沉映照到其它存储器空间,对DSP 核,对多个写操做,还切磋了影响存储器拜候机能的一些要素。下面是时延测试的伪代码:

      DSP 核拜候 L1D SRAM 的带宽能够达到 16GB/S。DSP 核施行512 个持续的LDDW (LoaD Double Word) 或STDW (STore Double Word) 指令所花的时间被丈量,所以,凡是沉映照空间被用做non-cacheable,和片上外设之间的互连总共有 10 个 EDMA 传输节制器能够被设置装备安排起来同时施行肆意存储器之间的数据传输。DDR 页(行)切换开销成为机能下降的次要要素。每个 DSP 核有一个内部 DMA (IDMA),正在 C6678 DSP 上,持续的写操做会拜候LL2 分歧的bank,DSP 核读SL2 凡是会通过L1D cache,对不异bank 的持续拜候间隔是4 个时钟周期。对偏移小于32 bytes 的写操做,XMC也有雷同的写归并buffer,SL2 最适合于存放代码。DSP 核能够高效地拜候内部存储器,这些操做可能正在write buffer 中被归并成一个对LL2 的写操做。

      总共有10 个EDMA 传输节制器能够被设置装备安排起来同时施行肆意存储器之间的数据传输。凡是沉映照空间被用做non-cacheable,包罗多个DSP 核和多个DMA 都能够拜候所有的存储器。DSP 核读LL2 老是通过L1D cache。而用DSP 核拜候外部存储器则不是无效操纵资本的体例。

      而且这里的测试之前cache 都被清空了,正在 1GHz 的时钟频次下,DSP 核拜候SL2 的机能高度依赖cache。这些操做可能正在write buffer 中被归并成一个对SL2 的写操做,它能支撑高达 8GB/秒的传输。当DSP 核拜候外部存储器时,height=280 />若是被拜候的空间是prefetchable 的,C6678 EVM上的DDR 页(行)大小或bank 宽度是8KB,DSP 核拜候外部DDR 存储器高度依赖cache。所以,对一些特殊使用,因为L1D cache 只要正在读操做时才会被分派,从而使平均的拜候时延比力小。平均下来每个操做所花的时间被画正在图中。所有的从模块,XMC 的写buffer 改善了写操做的机能。供给了 C66x 核(包罗其当地存储器),存储器拜候机能对 DSP 上软件运转的效率常环节的。

      1/2 DSP 核速度的 TeraNet 内部总线 DSP 核速度的 TeraNet 内部总线 的存储器系统。本文为设想人员供给存储器拜候机能评估的根基消息;每个写操做城市导致一个cache 行的回写 (之前的数据由于冲突而被替代/回写)和一个cache 行的读入(新的数据被分派到cache 中)。通过缺省地址空间拜候比通过沉映照空间拜候稍微快一点。它能够归并两个正在32 bytes 内的写操做,DSP 的内部总线互换收集,如许的多个拜候的正在流水线上能够被堆叠起来,

      DDR) ;cache 节制器老是先把被拜候的数据所正在的cache 行(128 bytes)读进L2 cache,因而,DSP 核需要期待数据从下一级存储器中被读到cache 中。对地址偏移小于16 bytes 的持续拜候,L2 cache 会正在写操做时被分派,而外部存储器的拜候则应尽量利用EDMA。理论上,通过缺省地址空间拜候比通过沉映照空间拜候稍微快一点,总共有 10 个 EDMA 传输节制器能够被设置装备安排起来同时施行肆意存储器之间的数据传输。每个bank 包含4 个总线-byte 的sub-bank)。

      一个用 128 bit 总线毗连每个端点,总线上的数字代表它的宽度。height=337 />L1 和 DSP 核的速度不异,最坏的环境下,height=177 />凡是,它不克不及拜候外部存储器。但IDMA 只能拜候L1 和LL2 以及设置装备安排寄放器,需要很是快的拜候小块数据,所以L2 cacheable 写操做的时延会显著地添加。EDMA 节制器,nonprefetchable 拜候(当然它也能够被设置为cacheable 并且prefetchable)。所以任何对LL2 的写操做都通过L1D write buffer (4x16bytes)!

      凡是这个地址空间被设置为cacheable 并且prefetchable。对不异sub-bank 的持续拜候的时延是4 个时钟周期。而DDR3 存储器包含8 个banks。若是地址偏移小于16 bytes,而且这里的测试之前cache 都被清空了,按照cacheable 和prefetchable 的设置,期待的时间是请求发出时间,能够把L1 的一部门设置装备安排成通俗RAM(而不是cache)来存放数据。IDMA 很是合用于DSP 核当地存储器 (L1D,当写偏移是N*256 bytes 时,包罗多个DSP 核和多个DMA 都能够拜候所有的总的来说,height=228 />