当前位置:首页 > 企业新闻 >

CortexA76分支预测单元反对3级BTB(分支目标内存):亚博官网vip

编辑:手机版下载 来源:手机版下载 创发布时间:2020-12-25阅读17401次
  本文摘要:在负责浮点管理和ASIMD操作者的VX(矢量继续)生产线中,ARM也进行了最重要的改良。ARM相比Cortex、A75、Cortex、A76的双128bit、ASIMD可以提供两倍的持续比特率,4倍的精度操作者的持续吞吐量减少了2倍。

76

核心各模块独立国家运营,运营期间更容易开展钟门控制,节约电力消耗。CortexA76分支预测单元反对3级BTB(分支目标内存),包括16链接nanoBTB、64链接microBTB和6000链接主BTB。CortexA73和CortexA75一代,ARM之后主张分支预测单元完全可以预测所有分支,CortexA76的新单元可能比以前强。指数单元的运营速度是每小时16Byte,分支预测单元的运营速度是指数单元比特率的2倍,每小时32Byte,在12个块构成的指数单元之前可以获得指数队列。

这样做的目的是在分歧预测错误的情况下,在管道中隐藏分歧气泡,防止手指单元和核心的其馀部分衰退,ARM称为Cortex下降A76,每周最少可以应对8次分歧预测错误。CortexA76的指示单元至少可以接受16条32bit指示,指示线由两个指示偏移和解码循环构成。

在指令解码和重命名阶段,CortexA76每周期可以突然4个指令,以平均每个指令1.06Mops的比例输入宏指令。到目前为止,CortexA72和CortexA75每周期可以突然发出3条命令,CortexA73不能突然发出2条命令。根据(公共编号:)控制的资料,CortexA73与CortexA72的解码比特率上升是为了优化能源效率,随着移动处理器性能需求的提高,CortexA75完全恢复了每周3的突然设计。

此次CortexA76进一步进一步,在公共版本结构中解码比特率最低,但仍高于三星和苹果的定制结构(三星M3每周6突然/苹果A11每周7突然)。在命令重命名阶段,ARM分离了重命名单元,将钟表控制作为整数/ASIMD/标记操作者,重命名和调度从A73和A75的每次2周期延长为1周期。

性能

宏指令按每条指令1.2μop的比例扩展到微操作,每周期持续执行8μops调度,与Cortex-A75的6μops/周期和Cortex-A73的4μops/周期相比明显增强。CortexA76乱序提交窗口大小为128,缓冲区分为负责管理指令管理和登记重复使用的两种结构,称为混合提交系统。性能图形比仅为1/7,即缓冲区减少7%,不能提高1%的性能,ARM不重视强化这一部分的设计。在管线方面,整数部分包括6个问题队列和持续执行端口,共3个整数继续执行管线,1个16深的问题队列获得服务。

其中两条整数流水线可以继续执行非常简单的算术运算,一条可以继续执行乘法、乘法和CRC等简单的操作者。ASIMD/浮点部分包括两条生产线,由两条16深度问题队列服务。

在整数运算方面,CortexA76将乘法和乘法相加延迟,从CortexA75的3个周期减少到2个周期,总吞吐量保持一定。CortexA76有3条整数线,因此继续实施非常简单的算术运算时的吞吐量比CortexA75的2条线减少了50%。

在负责浮点管理和ASIMD操作者的VX(矢量继续)生产线中,ARM也进行了最重要的改良。CortexA76的浮点算术运算延迟从3个周期减少到2个周期,乘法加起来也从5个周期减少到4个周期。ARM相比Cortex、A75、Cortex、A76的双128bit、ASIMD可以提供两倍的持续比特率,4倍的精度操作者的持续吞吐量减少了2倍。ARM还在CortexA76引进了第四代实际加载单元,每个核心有4个不同的预加载引擎分阶段运营,调查各种数据模式,将数据阅读到存储器中,使最终存储器更像ARM在CortexA76的存储系统设计中一点也没有让步,在比特率和延迟两个方面都达到了终极水平,据说存储比特率上升了90%以上。

76

综合以上结构的性能和功耗预测,ARM称为CortexA76,与CortexA75相比,每周期的整数性能和浮点性能分别快速增加25%和35%,并且内存比特率达到90%,CortexA76的GeekBench4完全增加28%,JavaScript性能达到35%。ARM得出运营SPECint2006测试性能对比,在运营GCC编译器标准二进制文件时,Cortex秀A76在2.4GHz时杀死小龙845,同频性能提高15%。

当然,半导体技术给予的频率红利对SoC性能的提高也是最重要的,如果台积电7nm技术成功生产,Cortex-A76将以3GHz的频率运营,Cortex-A76的性能将与三星自我研究M3架构的新Exynos9810相同。除了强化性能外,Cortex的能耗比也有所提高。在750mW的核能消耗支出下,7nm的CortexA76可以比10nm的CortexA75提高40%的性能。

ARM回答说,CortexA76可以在四核持续装载时保持满速不降低频率的运营。但是,迄今为止ARM立功的频率目标是悲观的。例如,最初CortexA73预计在2.8GHz运营,CortexA75为3GHz,两者的最低运营频率只有2.45GHz和2.7GHz。

对半导体供应商来说,技术成熟度和不同流水线之间的差异不会影响芯片的运营频率,过低频率的下限是为了确保供应量。另外,每个核心结构在某个技术下都有能源消耗比最高的频率区间。以三星自我研究M3结构的新Exynos9810为例,CPU的大核集群在单核、双核、四核装载的情况下频率分别为2.7GHz、2.3GHz、1.8GHz,消耗电力约为3.5瓦。换句话说,由此可见,M3核心从1.8GHz到2.3GHz,在提高500MHz频率的功耗后翻了一番,从2.3GHz提高到2.7GHz,只有400MHz的提高再次减少了功耗。

从1.8GHz到2.7GHz,性能直线提高,幅度仅为50%,功耗为2倍。跨越最佳能源消耗比区间后,冲击高频需要大量的能源消耗成本。小龙845的Kryo、385Gold核心的表现也类似,在位于约2.1GHz的阈值后,消耗量的上升幅度比三星的M3核心语言还要高。

因此,首次用于CortexA76架构的SoC,频率相当可能接近3GHz。考虑到核心结构的变化和规模的急速增加,实际频率不在2.5GHz左右,但是随着后期技术的成熟期和笔记本电脑等对功耗更宽的设备的应用,不可避免地会突破3GHz的高频率。结论和思维近年来,人们仍然期待着与苹果竞争的强大结构。

三星最近发售的自我研究结构M3在性能上接近苹果A11,但成本结果是单核3.5W的可怕功耗。在这种情况下,ARM依然可以自由选择稳定的开展世代交替,这次奥斯丁队的CortexA76不是性能怪兽,充分表明平衡的微结构是多么重要。

据报道,高吞吐量和华为海思已经计划Cortex,A76SoC的研究开发和生产,到今年年底为止在商业产品上销售的可能性很高。三星比较复杂,Cortex的A76性能没有打破M3,理论上三星只能重点提高M4(如果有)的能源消耗比。如果没有意外,基于CortexA76的结构将在未来几年至少两次递归升级。ARM已经在最后5年达成了协议的年度计划目标,年填充增长率为20-25%,随着移动处理器很快就像X86处理器的性能一样,今后几年的处理器市场不会更有趣。

运营

via:Anandtech原创文章允许禁止发表。下一篇文章发表了注意事项。


本文关键词:结构,性能,提高,频率,亚博官网vip,单元

本文来源:亚博官网vip-www.partovi20.com

0995-428087455

联系我们

Copyright © 2010-2014 平顶山市亚博官网vip股份有限公司 版权所有  豫ICP备22857787号-7