LUPA开源社区 › 首页 ›业界资讯› 开源资讯 › 查看内容

即将到来的GCC 5.0为x86带来的新优化

2014-12-1 11:58| 发布者: joejoe0332| 查看: 1395| 评论: 0|原作者: oschina|来自: oschina

摘要: GCC 5.0 显著的提升了 vector 向量的加载和存储组的代码质量，我这里说的是连续顺序的迭代，例如：x = a, y = a, z = a 通过 i 进行迭代，加载了大小为 3的组…… ...

　　GCC 5.0 显著的提升了 vector 向量的加载和存储组的代码质量，我这里说的是连续顺序的迭代，例如：

x = a[i], y = a[i + 1], z = a[i + 2] 通过 i 进行迭代，加载了大小为 3 的组

　　组大小由加载和存储地址的最大和最小值来确定，例如 (i + 2) – (i) + 1 = 3

　　组中加载和存储的次数小于和等于组的大小，例如：

x = a[i], z = a[I + 2] 通过 i 进行迭代，尽管只有 2 次加载，但是加载组的大小为 3

　　GCC 4.9 向量组的大小是 2 的指数，而 GCC 5.0 向量化组的大小是 3 ，也可以是 2 的指数，其他的组大小使用比较少。

　　最常用加载和存储组的场景是结构数组。

图像转换 (例如将 RGB 结构转为其他)
(场景测试 https://gcc.gnu.org/bugzilla/show_bug.cgi?id=52252)
多维的坐标 (测试场景 https://gcc.gnu.org/bugzilla/show_bug.cgi?id=61403)
向量的乘法常数矩阵

a[i][0] = 7 * b[i][0] - 3 * b[i][1];
a[i][1] = 2 * b[i][0] + b[i][1];

　　基本上 GCC 5.0 给我们带来了：

引入大小为 3 的向量加载和存储组
改进对原有支持的其他组大小
通过为特定的 x86 CPU 优化的代码来最大化加载和存储组性能

　　下面是一个用来比较 GCC 4.9 和 GCC 5.0 性能的一段代码（最大化向量中的元素个数）

int i, j, k; 
byte *in = a, *out = b;
for (i = 0; i < 1024; i++)
{
  for (k = 0; k < STGSIZE; k++)
    {
      byte s = 0;
      for (j = 0; j < LDGSIZE; j++)
        s += in[j] * c[j][k];
      out[k] = s;
    }
  in += LDGSIZE;
  out += STGSIZE;
}

　　而 "c" 是一个固定的矩阵：

const byte c[8][8] = {1, -1, 1, -1, 1, -1, 1, -1,
                      1, 1, -1, -1, 1, 1, -1, -1,
                      1, 1, 1, 1, -1, -1, -1, -1,
                      -1, 1, -1, 1, -1, 1, -1, 1,
                      -1, -1, 1, 1, -1, -1, 1, 1,
                      -1, -1, -1, -1, 1, 1, 1, 1,
                      -1, -1, -1, 1, 1, 1, -1, 1,
                      1, -1, 1, 1, 1, -1, -1, -1};