第1页:开篇 第2页:未雨绸缪 第3页:宽则赢天下 第4页:微架构升级—宽浮点加速器 第5页:微架构升级—32bit取回技术 第6页:真四核处理器 第7页:全新三级缓存 第8页:Cool n Quiet 2.0 第9页:牢不可破的网 第10页:Auto Xpress 第11页:AMD OverDrive 第12页:Phenom ×4 9900-全球最快的AMD处理器 第13页:顶级Spider平台赏析 第14页:测试平台即测试项目介绍: 第15页:EVEREST、Super PI 第16页:Sisoftware Sandra XI 第17页:3DMark06、PCMark Vantage、WinRAR 3.71 第18页:iTunes 7.43、Movie Maker 第19页:POV-Ray、Cinebench R10 第20页:Sciencemark2.0、Crysis(CPU Test) 第21页:通天塔、金刚 第22页:孤岛危机、狂野西部、冲突世界 第23页:写在最后
●微架构升级
K7到K8,其微架构并没有太多改变,只是连接架构的改变就使的K8的性能完全超出我们的预期。而K8到K10的连接架构又有了进一步的改进,那么如果K10的微架构也得到了改善,那么处理器的性能无疑更是会获得质的改善。
在K8架构处理器中,SSE执行单元只有64Bits,因为两个SSE指令是并行处理的,所以如果我们要处理一个128Bit SSE指令操作,不得不拆分成两个64Bit指令操作;同理,一个128Bit SSE指令被获取后,首先解码成两个微操作(micro-ops),这种方式效率上可想而知。
K10的SSE执行单元扩充为128Bits,128Bit SSE指令操作可以不必拆分成两个64Bit操作,浮点能力大大提升。SSE指令执行性能提升后也带来了另外一个瓶颈:指令获取带宽(instruction fetch bandwidth)。128Bit SSE指令变更大之后,为了最大化并行处理的解码数量,K10采用了每周期32-bytes的带宽。32-bytes的指令获取除了有利于SSE外,亦给整数代码带来了益处。
CPU可以获取和解码更多的指令,就需要把更多的数据传到核心去处理,因此AMD也进一步提高了L1 data cache和SSE寄存器(registers)之间的带宽,现在K10可以实现2×128Bit loads/cycle的性能,同时L2 cache和内存控制器的接口也被提升到128Bits/cycle后,总体上平衡了上面的改进所带来的性能瓶颈,这些改进被AMD统一命名为“宽浮点加速器”。
版权作品 未经许可 请勿转载