Vendor import of clang trunk r321017: - src

diff options


context:
space:
mode:

author	Dimitry Andric <dim@FreeBSD.org>	2017-12-18 20:11:37 +0000
committer	Dimitry Andric <dim@FreeBSD.org>	2017-12-18 20:11:37 +0000
commit	461a67fa15370a9ec88f8f8a240bf7c123bb2029 (patch)
tree	6942083d7d56bba40ec790a453ca58ad3baf6832 /test/CodeGenOpenCL
parent	75c3240472ba6ac2669ee72ca67eb72d4e2851fc (diff)

vendor/clang/clang-trunk-r321017

Notes

Diffstat (limited to 'test/CodeGenOpenCL')

-rw-r--r--

test/CodeGenOpenCL/addr-space-struct-arg.cl

-rw-r--r--

test/CodeGenOpenCL/address-spaces-mangling.cl

-rw-r--r--

test/CodeGenOpenCL/address-spaces.cl

-rw-r--r--

test/CodeGenOpenCL/amdgcn-automatic-variable.cl

-rw-r--r--

test/CodeGenOpenCL/amdgpu-abi-struct-coerce.cl

506

-rw-r--r--

test/CodeGenOpenCL/amdgpu-attrs.cl

-rw-r--r--

test/CodeGenOpenCL/amdgpu-debug-info-variable-expression.cl

-rw-r--r--

test/CodeGenOpenCL/amdgpu-enqueue-kernel.cl

-rw-r--r--

test/CodeGenOpenCL/amdgpu-nullptr.cl

-rw-r--r--

test/CodeGenOpenCL/atomic-ops-libcall.cl

-rw-r--r--

test/CodeGenOpenCL/atomic-ops.cl

291

-rw-r--r--

test/CodeGenOpenCL/blocks.cl

-rw-r--r--

test/CodeGenOpenCL/builtins-amdgcn.cl

-rw-r--r--

test/CodeGenOpenCL/cl20-device-side-enqueue.cl

258

-rw-r--r--

test/CodeGenOpenCL/convergent.cl

-rw-r--r--

test/CodeGenOpenCL/func-call-dbg-loc.cl

-rw-r--r--

test/CodeGenOpenCL/kernel-arg-info.cl

-rw-r--r--

test/CodeGenOpenCL/no-half.cl

-rw-r--r--

test/CodeGenOpenCL/opencl_types.cl

-rw-r--r--

test/CodeGenOpenCL/pipe_builtin.cl

-rw-r--r--

test/CodeGenOpenCL/sampler.cl

-rw-r--r--

test/CodeGenOpenCL/vectorLoadStore.cl

22 files changed, 1617 insertions, 174 deletions

diff --git a/test/CodeGenOpenCL/addr-space-struct-arg.cl b/test/CodeGenOpenCL/addr-space-struct-arg.cl
index 6ea0aff0a074..68fc8035b4cc 100644
--- a/test/CodeGenOpenCL/addr-space-struct-arg.cl
+++ b/test/CodeGenOpenCL/addr-space-struct-arg.cl

@@ -1,5 +1,5 @@

-// RUN: %clang_cc1 %s -emit-llvm -o - -O0 -finclude-default-header -ffake-address-space-map -triple i686-pc-darwin | FileCheck -check-prefixes=COM,X86 %s

-// RUN: %clang_cc1 %s -emit-llvm -o - -O0 -finclude-default-header -triple amdgcn-amdhsa-amd-amdgizcl | FileCheck -check-prefixes=COM,AMD %s

+// RUN: %clang_cc1 %s -emit-llvm -o - -O0 -finclude-default-header -ffake-address-space-map -triple i686-pc-darwin | FileCheck -enable-var-scope -check-prefixes=COM,X86 %s

+// RUN: %clang_cc1 %s -emit-llvm -o - -O0 -finclude-default-header -triple amdgcn-amdhsa-amd-amdgizcl | FileCheck -enable-var-scope -check-prefixes=COM,AMD %s

typedef struct {

int cells[9];

@@ -9,6 +9,14 @@ typedef struct {

int cells[16];

} Mat4X4;

+typedef struct {

+ int cells[1024];

+} Mat32X32;

+typedef struct {

+ int cells[4096];

+} Mat64X64;

struct StructOneMember {

int2 x;

};

@@ -18,7 +26,18 @@ struct StructTwoMember {

int2 y;

};

-// COM-LABEL: define void @foo

+struct LargeStructOneMember {

+ int2 x[100];

+};

+struct LargeStructTwoMember {

+ int2 x[40];

+ int2 y[20];

+};

+// X86-LABEL: define void @foo(%struct.Mat4X4* noalias sret %agg.result, %struct.Mat3X3* byval align 4 %in)

+// AMD-LABEL: define %struct.Mat4X4 @foo([9 x i32] %in.coerce)

Mat4X4 __attribute__((noinline)) foo(Mat3X3 in) {

Mat4X4 out;

return out;

@@ -29,37 +48,86 @@ Mat4X4 __attribute__((noinline)) foo(Mat3X3 in) {

// the return value.

// X86: call void @llvm.memcpy.p0i8.p1i8.i32(i8*

// X86: call void @llvm.memcpy.p1i8.p0i8.i32(i8 addrspace(1)*

-// AMD: call void @llvm.memcpy.p5i8.p1i8.i64(i8 addrspace(5)*

+// AMD: load [9 x i32], [9 x i32] addrspace(1)*

+// AMD: call %struct.Mat4X4 @foo([9 x i32]

// AMD: call void @llvm.memcpy.p1i8.p5i8.i64(i8 addrspace(1)*

kernel void ker(global Mat3X3 *in, global Mat4X4 *out) {

out[0] = foo(in[1]);

}

-// AMD-LABEL: define void @FuncOneMember(%struct.StructOneMember addrspace(5)* byval align 8 %u)

+// X86-LABEL: define void @foo_large(%struct.Mat64X64* noalias sret %agg.result, %struct.Mat32X32* byval align 4 %in)

+// AMD-LABEL: define void @foo_large(%struct.Mat64X64 addrspace(5)* noalias sret %agg.result, %struct.Mat32X32 addrspace(5)* byval align 4 %in)

+Mat64X64 __attribute__((noinline)) foo_large(Mat32X32 in) {

+ Mat64X64 out;

+ return out;

+// COM-LABEL: define {{.*}} void @ker_large

+// Expect two mem copies: one for the argument "in", and one for

+// the return value.

+// X86: call void @llvm.memcpy.p0i8.p1i8.i32(i8*

+// X86: call void @llvm.memcpy.p1i8.p0i8.i32(i8 addrspace(1)*

+// AMD: call void @llvm.memcpy.p5i8.p1i8.i64(i8 addrspace(5)*

+// AMD: call void @llvm.memcpy.p1i8.p5i8.i64(i8 addrspace(1)*

+kernel void ker_large(global Mat32X32 *in, global Mat64X64 *out) {

+ out[0] = foo_large(in[1]);

+// AMD-LABEL: define void @FuncOneMember(<2 x i32> %u.coerce)

void FuncOneMember(struct StructOneMember u) {

u.x = (int2)(0, 0);

}

+// AMD-LABEL: define void @FuncOneLargeMember(%struct.LargeStructOneMember addrspace(5)* byval align 8 %u)

+void FuncOneLargeMember(struct LargeStructOneMember u) {

+ u.x[0] = (int2)(0, 0);

// AMD-LABEL: define amdgpu_kernel void @KernelOneMember

// AMD-SAME: (<2 x i32> %[[u_coerce:.*]])

// AMD: %[[u:.*]] = alloca %struct.StructOneMember, align 8, addrspace(5)

// AMD: %[[coerce_dive:.*]] = getelementptr inbounds %struct.StructOneMember, %struct.StructOneMember addrspace(5)* %[[u]], i32 0, i32 0

// AMD: store <2 x i32> %[[u_coerce]], <2 x i32> addrspace(5)* %[[coerce_dive]]

-// AMD: call void @FuncOneMember(%struct.StructOneMember addrspace(5)* byval align 8 %[[u]])

+// AMD: call void @FuncOneMember(<2 x i32>

kernel void KernelOneMember(struct StructOneMember u) {

FuncOneMember(u);

}

-// AMD-LABEL: define void @FuncTwoMember(%struct.StructTwoMember addrspace(5)* byval align 8 %u)

+// AMD-LABEL: define amdgpu_kernel void @KernelLargeOneMember(

+// AMD: %[[U:.*]] = alloca %struct.LargeStructOneMember, align 8, addrspace(5)

+// AMD: store %struct.LargeStructOneMember %u.coerce, %struct.LargeStructOneMember addrspace(5)* %[[U]], align 8

+// AMD: call void @FuncOneLargeMember(%struct.LargeStructOneMember addrspace(5)* byval align 8 %[[U]])

+kernel void KernelLargeOneMember(struct LargeStructOneMember u) {

+ FuncOneLargeMember(u);

+// AMD-LABEL: define void @FuncTwoMember(<2 x i32> %u.coerce0, <2 x i32> %u.coerce1)

void FuncTwoMember(struct StructTwoMember u) {

- u.x = (int2)(0, 0);

+ u.y = (int2)(0, 0);

+// AMD-LABEL: define void @FuncLargeTwoMember(%struct.LargeStructTwoMember addrspace(5)* byval align 8 %u)

+void FuncLargeTwoMember(struct LargeStructTwoMember u) {

+ u.y[0] = (int2)(0, 0);

}

// AMD-LABEL: define amdgpu_kernel void @KernelTwoMember

// AMD-SAME: (%struct.StructTwoMember %[[u_coerce:.*]])

// AMD: %[[u:.*]] = alloca %struct.StructTwoMember, align 8, addrspace(5)

-// AMD: store %struct.StructTwoMember %[[u_coerce]], %struct.StructTwoMember addrspace(5)* %[[u]]

-// AMD: call void @FuncTwoMember(%struct.StructTwoMember addrspace(5)* byval align 8 %[[u]])

+// AMD: %[[LD0:.*]] = load <2 x i32>, <2 x i32> addrspace(5)*

+// AMD: %[[LD1:.*]] = load <2 x i32>, <2 x i32> addrspace(5)*

+// AMD: call void @FuncTwoMember(<2 x i32> %[[LD0]], <2 x i32> %[[LD1]])

kernel void KernelTwoMember(struct StructTwoMember u) {

FuncTwoMember(u);

}

+// AMD-LABEL: define amdgpu_kernel void @KernelLargeTwoMember

+// AMD-SAME: (%struct.LargeStructTwoMember %[[u_coerce:.*]])

+// AMD: %[[u:.*]] = alloca %struct.LargeStructTwoMember, align 8, addrspace(5)

+// AMD: store %struct.LargeStructTwoMember %[[u_coerce]], %struct.LargeStructTwoMember addrspace(5)* %[[u]]

+// AMD: call void @FuncLargeTwoMember(%struct.LargeStructTwoMember addrspace(5)* byval align 8 %[[u]])

+kernel void KernelLargeTwoMember(struct LargeStructTwoMember u) {

+ FuncLargeTwoMember(u);

diff --git a/test/CodeGenOpenCL/address-spaces-mangling.cl b/test/CodeGenOpenCL/address-spaces-mangling.cl
index 3c74c718c2a2..b6e6b87d9e6d 100644
--- a/test/CodeGenOpenCL/address-spaces-mangling.cl
+++ b/test/CodeGenOpenCL/address-spaces-mangling.cl

@@ -1,5 +1,7 @@

-// RUN: %clang_cc1 %s -ffake-address-space-map -faddress-space-map-mangling=yes -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefix=ASMANG %s

-// RUN: %clang_cc1 %s -ffake-address-space-map -faddress-space-map-mangling=no -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefix=NOASMANG %s

+// RUN: %clang_cc1 %s -ffake-address-space-map -faddress-space-map-mangling=yes -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefixes=ASMANG,ASMAN10 %s

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -ffake-address-space-map -faddress-space-map-mangling=yes -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefixes=ASMANG,ASMAN20 %s

+// RUN: %clang_cc1 %s -ffake-address-space-map -faddress-space-map-mangling=no -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefixes=NOASMANG,NOASMAN10 %s

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -ffake-address-space-map -faddress-space-map-mangling=no -triple %itanium_abi_triple -emit-llvm -o - | FileCheck -check-prefixes=NOASMANG,NOASMAN20 %s

// We check that the address spaces are mangled the same in both version of OpenCL

// RUN: %clang_cc1 %s -triple spir-unknown-unknown -cl-std=CL2.0 -emit-llvm -o - | FileCheck -check-prefix=OCL-20 %s

@@ -10,15 +12,17 @@

// warnings, but we do want it for comparison purposes.

__attribute__((overloadable))

void ff(int *arg) { }

-// ASMANG: @_Z2ffPi

-// NOASMANG: @_Z2ffPi

+// ASMANG10: @_Z2ffPi

+// ASMANG20: @_Z2ffPU3AS4i

+// NOASMANG10: @_Z2ffPi

+// NOASMANG20: @_Z2ffPU9CLgenerici

// OCL-20-DAG: @_Z2ffPU3AS4i

// OCL-12-DAG: @_Z2ffPi

__attribute__((overloadable))

void f(private int *arg) { }

// ASMANG: @_Z1fPi

-// NOASMANG: @_Z1fPi

+// NOASMANG: @_Z1fPU9CLprivatei

// OCL-20-DAG: @_Z1fPi

// OCL-12-DAG: @_Z1fPi

@@ -42,3 +46,11 @@ void f(constant int *arg) { }

// NOASMANG: @_Z1fPU10CLconstanti

// OCL-20-DAG: @_Z1fPU3AS2i

// OCL-12-DAG: @_Z1fPU3AS2i

+#if __OPENCL_C_VERSION__ >= 200

+__attribute__((overloadable))

+void f(generic int *arg) { }

+// ASMANG20: @_Z1fPU3AS4i

+// NOASMANG20: @_Z1fPU9CLgenerici

+// OCL-20-DAG: @_Z1fPU3AS4i

+#endif

diff --git a/test/CodeGenOpenCL/address-spaces.cl b/test/CodeGenOpenCL/address-spaces.cl
index 488b8f9d480e..cb641f593711 100644
--- a/test/CodeGenOpenCL/address-spaces.cl
+++ b/test/CodeGenOpenCL/address-spaces.cl

@@ -7,6 +7,24 @@

// RUN: %clang_cc1 %s -O0 -triple amdgcn-mesa-mesa3d -emit-llvm -o - | FileCheck --check-prefixes=CHECK,SPIR %s

// RUN: %clang_cc1 %s -O0 -triple r600-- -emit-llvm -o - | FileCheck --check-prefixes=CHECK,SPIR %s

+// SPIR: %struct.S = type { i32, i32, i32* }

+// CL20SPIR: %struct.S = type { i32, i32, i32 addrspace(4)* }

+struct S {

+ int x;

+ int y;

+ int *z;

+};

+// CL20-DAG: @g_extern_var = external addrspace(1) global float

+// CL20-DAG: @l_extern_var = external addrspace(1) global float

+// CL20-DAG: @test_static.l_static_var = internal addrspace(1) global float 0.000000e+00

+// CL20-DAG: @g_static_var = internal addrspace(1) global float 0.000000e+00

+#ifdef CL20

+// CL20-DAG: @g_s = common addrspace(1) global %struct.S zeroinitializer

+struct S g_s;

+#endif

// SPIR: i32* %arg

// GIZ: i32 addrspace(5)* %arg

void f__p(__private int *arg) {}

@@ -58,3 +76,53 @@ void f(int *arg) {

// CL20-DAG: @f.ii = internal addrspace(1) global i32 0

#endif

}

+typedef int int_td;

+typedef int *intp_td;

+// SPIR: define void @test_typedef(i32 addrspace(1)* %x, i32 addrspace(2)* %y, i32* %z)

+void test_typedef(global int_td *x, constant int_td *y, intp_td z) {

+ *x = *y;

+ *z = 0;

+// SPIR: define void @test_struct()

+void test_struct() {

+ // SPIR: %ps = alloca %struct.S*

+ // CL20SPIR: %ps = alloca %struct.S addrspace(4)*

+ struct S *ps;

+ // SPIR: store i32 0, i32* %x

+ // CL20SPIR: store i32 0, i32 addrspace(4)* %x

+ ps->x = 0;

+#ifdef CL20

+ // CL20SPIR: store i32 0, i32 addrspace(1)* getelementptr inbounds (%struct.S, %struct.S addrspace(1)* @g_s, i32 0, i32 0)

+ g_s.x = 0;

+#endif

+// SPIR-LABEL: define void @test_void_par()

+void test_void_par(void) {}

+// On ppc64 returns signext i32.

+// SPIR-LABEL: define{{.*}} i32 @test_func_return_type()

+int test_func_return_type(void) {

+ return 0;

+#ifdef CL20

+extern float g_extern_var;

+// CL20-LABEL: define {{.*}}void @test_extern(

+kernel void test_extern(global float *buf) {

+ extern float l_extern_var;

+ buf[0] += g_extern_var + l_extern_var;

+static float g_static_var;

+// CL20-LABEL: define {{.*}}void @test_static(

+kernel void test_static(global float *buf) {

+ static float l_static_var;

+ buf[0] += g_static_var + l_static_var;

+#endif

diff --git a/test/CodeGenOpenCL/amdgcn-automatic-variable.cl b/test/CodeGenOpenCL/amdgcn-automatic-variable.cl
index 19287c7d8998..fefe1c4a41d5 100644
--- a/test/CodeGenOpenCL/amdgcn-automatic-variable.cl
+++ b/test/CodeGenOpenCL/amdgcn-automatic-variable.cl

@@ -58,3 +58,11 @@ void func2(void) {

const int lvc = 4;

lv1 = lvc;

}

+// CHECK-LABEL: define void @func3()

+// CHECK: %a = alloca [16 x [1 x float]], align 4, addrspace(5)

+// CHECK: %[[CAST:.+]] = bitcast [16 x [1 x float]] addrspace(5)* %a to i8 addrspace(5)*

+// CHECK: call void @llvm.memset.p5i8.i64(i8 addrspace(5)* %[[CAST]], i8 0, i64 64, i32 4, i1 false)

+void func3(void) {

+ float a[16][1] = {{0.}};

diff --git a/test/CodeGenOpenCL/amdgpu-abi-struct-coerce.cl b/test/CodeGenOpenCL/amdgpu-abi-struct-coerce.cl
index 3c69d11f9678..21bdb15b094d 100644
--- a/test/CodeGenOpenCL/amdgpu-abi-struct-coerce.cl
+++ b/test/CodeGenOpenCL/amdgpu-abi-struct-coerce.cl

@@ -1,13 +1,38 @@

// REQUIRES: amdgpu-registered-target

-// RUN: %clang_cc1 -triple amdgcn-unknown-unknown -S -emit-llvm -o - %s | FileCheck %s

-// RUN: %clang_cc1 -triple r600-unknown-unknown -S -emit-llvm -o - %s | FileCheck %s

+// RUN: %clang_cc1 -triple amdgcn-unknown-unknown-amdgiz -S -emit-llvm -o - %s | FileCheck -check-prefixes=CHECK,AMDGCN %s

+// RUN: %clang_cc1 -triple r600-unknown-unknown -S -emit-llvm -o - %s | FileCheck -check-prefixes=CHECK,R600 %s

-// CHECK-NOT: %struct.single_element_struct_arg = type { i32 }

+typedef __attribute__(( ext_vector_type(2) )) char char2;

+typedef __attribute__(( ext_vector_type(3) )) char char3;

+typedef __attribute__(( ext_vector_type(4) )) char char4;

+typedef __attribute__(( ext_vector_type(2) )) short short2;

+typedef __attribute__(( ext_vector_type(3) )) short short3;

+typedef __attribute__(( ext_vector_type(4) )) short short4;

+typedef __attribute__(( ext_vector_type(2) )) int int2;

+typedef __attribute__(( ext_vector_type(3) )) int int3;

+typedef __attribute__(( ext_vector_type(4) )) int int4;

+typedef __attribute__(( ext_vector_type(16) )) int int16;

+typedef __attribute__(( ext_vector_type(32) )) int int32;

+// CHECK: %struct.empty_struct = type {}

+typedef struct empty_struct

+} empty_struct;

+// CHECK-NOT: %struct.single_element_struct_arg

typedef struct single_element_struct_arg

{

int i;

} single_element_struct_arg_t;

+// CHECK-NOT: %struct.nested_single_element_struct_arg

+typedef struct nested_single_element_struct_arg

+ single_element_struct_arg_t i;

+} nested_single_element_struct_arg_t;

// CHECK: %struct.struct_arg = type { i32, float, i32 }

typedef struct struct_arg

{

@@ -16,6 +41,13 @@ typedef struct struct_arg

int i2;

} struct_arg_t;

+// CHECK: %struct.struct_padding_arg = type { i8, i64 }

+typedef struct struct_padding_arg

+ char i1;

+ long f;

+} struct_padding_arg;

// CHECK: %struct.struct_of_arrays_arg = type { [2 x i32], float, [4 x i32], [3 x float], i32 }

typedef struct struct_of_arrays_arg

{

@@ -35,33 +67,469 @@ typedef struct struct_of_structs_arg

int i2;

} struct_of_structs_arg_t;

-// CHECK-LABEL: @test_single_element_struct_arg

-// CHECK: i32 %arg1.coerce

-__kernel void test_single_element_struct_arg(single_element_struct_arg_t arg1)

+// CHECK: %union.transparent_u = type { i32 }

+typedef union

{

+ int b1;

+ float b2;

+} transparent_u __attribute__((__transparent_union__));

+// CHECK: %struct.single_array_element_struct_arg = type { [4 x i32] }

+typedef struct single_array_element_struct_arg

+ int i[4];

+} single_array_element_struct_arg_t;

+// CHECK: %struct.single_struct_element_struct_arg = type { %struct.inner }

+// CHECK: %struct.inner = type { i32, i64 }

+typedef struct single_struct_element_struct_arg

+ struct inner {

+ int a;

+ long b;

+ } s;

+} single_struct_element_struct_arg_t;

+// CHECK: %struct.different_size_type_pair

+typedef struct different_size_type_pair {

+ long l;

+ int i;

+} different_size_type_pair;

+// CHECK: %struct.flexible_array = type { i32, [0 x i32] }

+typedef struct flexible_array

+ int i;

+ int flexible[];

+} flexible_array;

+// CHECK: %struct.struct_arr16 = type { [16 x i32] }

+typedef struct struct_arr16

+ int arr[16];

+} struct_arr16;

+// CHECK: %struct.struct_arr32 = type { [32 x i32] }

+typedef struct struct_arr32

+ int arr[32];

+} struct_arr32;

+// CHECK: %struct.struct_arr33 = type { [33 x i32] }

+typedef struct struct_arr33

+ int arr[33];

+} struct_arr33;

+// CHECK: %struct.struct_char_arr32 = type { [32 x i8] }

+typedef struct struct_char_arr32

+ char arr[32];

+} struct_char_arr32;

+// CHECK-NOT: %struct.struct_char_x8

+typedef struct struct_char_x8 {

+ char x, y, z, w;

+ char a, b, c, d;

+} struct_char_x8;

+// CHECK-NOT: %struct.struct_char_x4

+typedef struct struct_char_x4 {

+ char x, y, z, w;

+} struct_char_x4;

+// CHECK-NOT: %struct.struct_char_x3

+typedef struct struct_char_x3 {

+ char x, y, z;

+} struct_char_x3;

+// CHECK-NOT: %struct.struct_char_x2

+typedef struct struct_char_x2 {

+ char x, y;

+} struct_char_x2;

+// CHECK-NOT: %struct.struct_char_x1

+typedef struct struct_char_x1 {

+ char x;

+} struct_char_x1;

+// 4 registers from fields, 5 if padding included.

+// CHECK: %struct.nested = type { i8, i64 }

+// CHECK: %struct.num_regs_nested_struct = type { i32, %struct.nested }

+typedef struct num_regs_nested_struct {

+ int x;

+ struct nested {

+ char z;

+ long y;

+ } inner;

+} num_regs_nested_struct;

+// CHECK: %struct.double_nested = type { %struct.inner_inner }

+// CHECK: %struct.inner_inner = type { i8, i32, i8 }

+// CHECK: %struct.double_nested_struct = type { i32, %struct.double_nested, i16 }

+typedef struct double_nested_struct {

+ int x;

+ struct double_nested {

+ struct inner_inner {

+ char y;

+ int q;

+ char z;

+ } inner_inner;

+ } inner;

+ short w;

+} double_nested_struct;

+// This is a large struct, but uses fewer registers than the limit.

+// CHECK: %struct.large_struct_padding = type { i8, i32, i8, i32, i8, i8, i16, i16, [3 x i8], i64, i32, i8, i32, i16, i8 }

+typedef struct large_struct_padding {

+ char e0;

+ int e1;

+ char e2;

+ int e3;

+ char e4;

+ char e5;

+ short e6;

+ short e7;

+ char e8[3];

+ long e9;

+ int e10;

+ char e11;

+ int e12;

+ short e13;

+ char e14;

+} large_struct_padding;

+// CHECK: %struct.int3_pair = type { <3 x i32>, <3 x i32> }

+// The number of registers computed should be 6, not 8.

+typedef struct int3_pair {

+ int3 dx;

+ int3 dy;

+} int3_pair;

+// CHECK: %struct.struct_4regs = type { i32, i32, i32, i32 }

+typedef struct struct_4regs

+ int x;

+ int y;

+ int z;

+ int w;

+} struct_4regs;

+// CHECK: void @kernel_empty_struct_arg(%struct.empty_struct %s.coerce)

+__kernel void kernel_empty_struct_arg(empty_struct s) { }

+// CHECK: void @kernel_single_element_struct_arg(i32 %arg1.coerce)

+__kernel void kernel_single_element_struct_arg(single_element_struct_arg_t arg1) { }

+// CHECK: void @kernel_nested_single_element_struct_arg(i32 %arg1.coerce)

+__kernel void kernel_nested_single_element_struct_arg(nested_single_element_struct_arg_t arg1) { }

+// CHECK: void @kernel_struct_arg(%struct.struct_arg %arg1.coerce)

+__kernel void kernel_struct_arg(struct_arg_t arg1) { }

+// CHECK: void @kernel_struct_padding_arg(%struct.struct_padding_arg %arg1.coerce)

+__kernel void kernel_struct_padding_arg(struct_padding_arg arg1) { }

+// CHECK: void @kernel_test_struct_of_arrays_arg(%struct.struct_of_arrays_arg %arg1.coerce)

+__kernel void kernel_test_struct_of_arrays_arg(struct_of_arrays_arg_t arg1) { }

+// CHECK: void @kernel_struct_of_structs_arg(%struct.struct_of_structs_arg %arg1.coerce)

+__kernel void kernel_struct_of_structs_arg(struct_of_structs_arg_t arg1) { }

+// CHECK: void @test_kernel_transparent_union_arg(%union.transparent_u %u.coerce)

+__kernel void test_kernel_transparent_union_arg(transparent_u u) { }

+// CHECK: void @kernel_single_array_element_struct_arg(%struct.single_array_element_struct_arg %arg1.coerce)

+__kernel void kernel_single_array_element_struct_arg(single_array_element_struct_arg_t arg1) { }

+// CHECK: void @kernel_single_struct_element_struct_arg(%struct.single_struct_element_struct_arg %arg1.coerce)

+__kernel void kernel_single_struct_element_struct_arg(single_struct_element_struct_arg_t arg1) { }

+// CHECK: void @kernel_different_size_type_pair_arg(%struct.different_size_type_pair %arg1.coerce)

+__kernel void kernel_different_size_type_pair_arg(different_size_type_pair arg1) { }

+// CHECK: define void @func_f32_arg(float %arg)

+void func_f32_arg(float arg) { }

+// CHECK: define void @func_v2i16_arg(<2 x i16> %arg)

+void func_v2i16_arg(short2 arg) { }

+// CHECK: define void @func_v3i32_arg(<3 x i32> %arg)

+void func_v3i32_arg(int3 arg) { }

+// CHECK: define void @func_v4i32_arg(<4 x i32> %arg)

+void func_v4i32_arg(int4 arg) { }

+// CHECK: define void @func_v16i32_arg(<16 x i32> %arg)

+void func_v16i32_arg(int16 arg) { }

+// CHECK: define void @func_v32i32_arg(<32 x i32> %arg)

+void func_v32i32_arg(int32 arg) { }

+// CHECK: define void @func_empty_struct_arg()

+void func_empty_struct_arg(empty_struct empty) { }

+// CHECK: void @func_single_element_struct_arg(i32 %arg1.coerce)

+void func_single_element_struct_arg(single_element_struct_arg_t arg1) { }

+// CHECK: void @func_nested_single_element_struct_arg(i32 %arg1.coerce)

+void func_nested_single_element_struct_arg(nested_single_element_struct_arg_t arg1) { }

+// CHECK: void @func_struct_arg(i32 %arg1.coerce0, float %arg1.coerce1, i32 %arg1.coerce2)

+void func_struct_arg(struct_arg_t arg1) { }

+// CHECK: void @func_struct_padding_arg(i8 %arg1.coerce0, i64 %arg1.coerce1)

+void func_struct_padding_arg(struct_padding_arg arg1) { }

+// CHECK: define void @func_struct_char_x8([2 x i32] %arg.coerce)

+void func_struct_char_x8(struct_char_x8 arg) { }

+// CHECK: define void @func_struct_char_x4(i32 %arg.coerce)

+void func_struct_char_x4(struct_char_x4 arg) { }

+// CHECK: define void @func_struct_char_x3(i32 %arg.coerce)

+void func_struct_char_x3(struct_char_x3 arg) { }

+// CHECK: define void @func_struct_char_x2(i16 %arg.coerce)

+void func_struct_char_x2(struct_char_x2 arg) { }

+// CHECK: define void @func_struct_char_x1(i8 %arg.coerce)

+void func_struct_char_x1(struct_char_x1 arg) { }

+// CHECK: void @func_transparent_union_arg(i32 %u.coerce)

+void func_transparent_union_arg(transparent_u u) { }

+// CHECK: void @func_single_array_element_struct_arg([4 x i32] %arg1.coerce)

+void func_single_array_element_struct_arg(single_array_element_struct_arg_t arg1) { }

+// CHECK: void @func_single_struct_element_struct_arg(%struct.inner %arg1.coerce)

+void func_single_struct_element_struct_arg(single_struct_element_struct_arg_t arg1) { }

+// CHECK: void @func_different_size_type_pair_arg(i64 %arg1.coerce0, i32 %arg1.coerce1)

+void func_different_size_type_pair_arg(different_size_type_pair arg1) { }

+// AMDGCN: void @func_flexible_array_arg(%struct.flexible_array addrspace(5)* byval nocapture align 4 %arg)

+// R600: void @func_flexible_array_arg(%struct.flexible_array* byval nocapture align 4 %arg)

+void func_flexible_array_arg(flexible_array arg) { }

+// CHECK: define float @func_f32_ret()

+float func_f32_ret()

+ return 0.0f;

+// CHECK: define void @func_empty_struct_ret()

+empty_struct func_empty_struct_ret()

+ empty_struct s = {};

+ return s;

+// CHECK: define i32 @single_element_struct_ret()

+// CHECK: ret i32 0

+single_element_struct_arg_t single_element_struct_ret()

+ single_element_struct_arg_t s = { 0 };

+ return s;

+// CHECK: define i32 @nested_single_element_struct_ret()

+// CHECK: ret i32 0

+nested_single_element_struct_arg_t nested_single_element_struct_ret()

+ nested_single_element_struct_arg_t s = { 0 };

+ return s;

+// CHECK: define %struct.struct_arg @func_struct_ret()

+// CHECK: ret %struct.struct_arg zeroinitializer

+struct_arg_t func_struct_ret()

+ struct_arg_t s = { 0 };

+ return s;

+// CHECK: define %struct.struct_padding_arg @func_struct_padding_ret()

+// CHECK: ret %struct.struct_padding_arg zeroinitializer

+struct_padding_arg func_struct_padding_ret()

+ struct_padding_arg s = { 0 };

+ return s;

+// CHECK: define [2 x i32] @func_struct_char_x8_ret()

+// CHECK: ret [2 x i32] zeroinitializer

+struct_char_x8 func_struct_char_x8_ret()

+ struct_char_x8 s = { 0 };

+ return s;

+// CHECK: define i32 @func_struct_char_x4_ret()

+// CHECK: ret i32 0

+struct_char_x4 func_struct_char_x4_ret()

+ struct_char_x4 s = { 0 };

+ return s;

+// CHECK: define i32 @func_struct_char_x3_ret()

+// CHECK: ret i32 0

+struct_char_x3 func_struct_char_x3_ret()

+ struct_char_x3 s = { 0 };

+ return s;

+// CHECK: define i16 @func_struct_char_x2_ret()

+struct_char_x2 func_struct_char_x2_ret()

+ struct_char_x2 s = { 0 };

+ return s;

}

-// CHECK-LABEL: @test_struct_arg

-// CHECK: %struct.struct_arg %arg1.coerce

-__kernel void test_struct_arg(struct_arg_t arg1)

+// CHECK: define i8 @func_struct_char_x1_ret()

+// CHECK: ret i8 0

+struct_char_x1 func_struct_char_x1_ret()

{

+ struct_char_x1 s = { 0 };

+ return s;

}

-// CHECK-LABEL: @test_struct_of_arrays_arg

-// CHECK: %struct.struct_of_arrays_arg %arg1.coerce

-__kernel void test_struct_of_arrays_arg(struct_of_arrays_arg_t arg1)

+// CHECK: define %struct.struct_arr16 @func_ret_struct_arr16()

+// CHECK: ret %struct.struct_arr16 zeroinitializer

+struct_arr16 func_ret_struct_arr16()

{

+ struct_arr16 s = { 0 };

+ return s;

}

-// CHECK-LABEL: @test_struct_of_structs_arg

-// CHECK: %struct.struct_of_structs_arg %arg1.coerce

-__kernel void test_struct_of_structs_arg(struct_of_structs_arg_t arg1)

+// AMDGCN: define void @func_ret_struct_arr32(%struct.struct_arr32 addrspace(5)* noalias nocapture sret %agg.result)

+// R600: define void @func_ret_struct_arr32(%struct.struct_arr32* noalias nocapture sret %agg.result)

+struct_arr32 func_ret_struct_arr32()

{

+ struct_arr32 s = { 0 };

+ return s;

}

-// CHECK-LABEL: @test_non_kernel_struct_arg

-// CHECK-NOT: %struct.struct_arg %arg1.coerce

-// CHECK: %struct.struct_arg* byval

-void test_non_kernel_struct_arg(struct_arg_t arg1)

+// AMDGCN: define void @func_ret_struct_arr33(%struct.struct_arr33 addrspace(5)* noalias nocapture sret %agg.result)

+// R600: define void @func_ret_struct_arr33(%struct.struct_arr33* noalias nocapture sret %agg.result)

+struct_arr33 func_ret_struct_arr33()

{

+ struct_arr33 s = { 0 };

+ return s;

}

+// CHECK: define %struct.struct_char_arr32 @func_ret_struct_char_arr32()

+struct_char_arr32 func_ret_struct_char_arr32()

+ struct_char_arr32 s = { 0 };

+ return s;

+// CHECK: define i32 @func_transparent_union_ret() local_unnamed_addr #0 {

+// CHECK: ret i32 0

+transparent_u func_transparent_union_ret()

+ transparent_u u = { 0 };

+ return u;

+// CHECK: define %struct.different_size_type_pair @func_different_size_type_pair_ret()

+different_size_type_pair func_different_size_type_pair_ret()

+ different_size_type_pair s = { 0 };

+ return s;

+// AMDGCN: define void @func_flexible_array_ret(%struct.flexible_array addrspace(5)* noalias nocapture sret %agg.result)

+// R600: define void @func_flexible_array_ret(%struct.flexible_array* noalias nocapture sret %agg.result)

+flexible_array func_flexible_array_ret()

+ flexible_array s = { 0 };

+ return s;

+// CHECK: define void @func_reg_state_lo(<4 x i32> %arg0, <4 x i32> %arg1, <4 x i32> %arg2, i32 %arg3, i32 %s.coerce0, float %s.coerce1, i32 %s.coerce2)

+void func_reg_state_lo(int4 arg0, int4 arg1, int4 arg2, int arg3, struct_arg_t s) { }

+// AMDGCN: define void @func_reg_state_hi(<4 x i32> %arg0, <4 x i32> %arg1, <4 x i32> %arg2, i32 %arg3, i32 %arg4, %struct.struct_arg addrspace(5)* byval nocapture align 4 %s)

+// R600: define void @func_reg_state_hi(<4 x i32> %arg0, <4 x i32> %arg1, <4 x i32> %arg2, i32 %arg3, i32 %arg4, %struct.struct_arg* byval nocapture align 4 %s)

+void func_reg_state_hi(int4 arg0, int4 arg1, int4 arg2, int arg3, int arg4, struct_arg_t s) { }

+// XXX - Why don't the inner structs flatten?

+// AMDGCN: define void @func_reg_state_num_regs_nested_struct(<4 x i32> %arg0, i32 %arg1, i32 %arg2.coerce0, %struct.nested %arg2.coerce1, i32 %arg3.coerce0, %struct.nested %arg3.coerce1, %struct.num_regs_nested_struct addrspace(5)* byval nocapture align 8 %arg4)

+// R600: define void @func_reg_state_num_regs_nested_struct(<4 x i32> %arg0, i32 %arg1, i32 %arg2.coerce0, %struct.nested %arg2.coerce1, i32 %arg3.coerce0, %struct.nested %arg3.coerce1, %struct.num_regs_nested_struct* byval nocapture align 8 %arg4)

+void func_reg_state_num_regs_nested_struct(int4 arg0, int arg1, num_regs_nested_struct arg2, num_regs_nested_struct arg3, num_regs_nested_struct arg4) { }

+// CHECK: define void @func_double_nested_struct_arg(<4 x i32> %arg0, i32 %arg1, i32 %arg2.coerce0, %struct.double_nested %arg2.coerce1, i16 %arg2.coerce2)

+void func_double_nested_struct_arg(int4 arg0, int arg1, double_nested_struct arg2) { }

+// CHECK: define %struct.double_nested_struct @func_double_nested_struct_ret(<4 x i32> %arg0, i32 %arg1)

+double_nested_struct func_double_nested_struct_ret(int4 arg0, int arg1) {

+ double_nested_struct s = { 0 };

+ return s;

+// CHECK: define void @func_large_struct_padding_arg_direct(i8 %arg.coerce0, i32 %arg.coerce1, i8 %arg.coerce2, i32 %arg.coerce3, i8 %arg.coerce4, i8 %arg.coerce5, i16 %arg.coerce6, i16 %arg.coerce7, [3 x i8] %arg.coerce8, i64 %arg.coerce9, i32 %arg.coerce10, i8 %arg.coerce11, i32 %arg.coerce12, i16 %arg.coerce13, i8 %arg.coerce14)

+void func_large_struct_padding_arg_direct(large_struct_padding arg) { }

+// AMDGCN: define void @func_large_struct_padding_arg_store(%struct.large_struct_padding addrspace(1)* nocapture %out, %struct.large_struct_padding addrspace(5)* byval nocapture readonly align 8 %arg)

+// R600: define void @func_large_struct_padding_arg_store(%struct.large_struct_padding addrspace(1)* nocapture %out, %struct.large_struct_padding* byval nocapture readonly align 8 %arg)

+void func_large_struct_padding_arg_store(global large_struct_padding* out, large_struct_padding arg) {

+ *out = arg;

+// CHECK: define void @v3i32_reg_count(<3 x i32> %arg1, <3 x i32> %arg2, <3 x i32> %arg3, <3 x i32> %arg4, i32 %arg5.coerce0, float %arg5.coerce1, i32 %arg5.coerce2)

+void v3i32_reg_count(int3 arg1, int3 arg2, int3 arg3, int3 arg4, struct_arg_t arg5) { }

+// Function signature from blender, nothing should be passed byval. The v3i32

+// should not count as 4 passed registers.

+// AMDGCN: define void @v3i32_pair_reg_count(%struct.int3_pair addrspace(5)* nocapture %arg0, <3 x i32> %arg1.coerce0, <3 x i32> %arg1.coerce1, <3 x i32> %arg2, <3 x i32> %arg3.coerce0, <3 x i32> %arg3.coerce1, <3 x i32> %arg4, float %arg5)

+// R600: define void @v3i32_pair_reg_count(%struct.int3_pair* nocapture %arg0, <3 x i32> %arg1.coerce0, <3 x i32> %arg1.coerce1, <3 x i32> %arg2, <3 x i32> %arg3.coerce0, <3 x i32> %arg3.coerce1, <3 x i32> %arg4, float %arg5)

+void v3i32_pair_reg_count(int3_pair *arg0, int3_pair arg1, int3 arg2, int3_pair arg3, int3 arg4, float arg5) { }

+// Each short4 should fit pack into 2 registers.

+// CHECK: define void @v4i16_reg_count(<4 x i16> %arg0, <4 x i16> %arg1, <4 x i16> %arg2, <4 x i16> %arg3, <4 x i16> %arg4, <4 x i16> %arg5, i32 %arg6.coerce0, i32 %arg6.coerce1, i32 %arg6.coerce2, i32 %arg6.coerce3)

+void v4i16_reg_count(short4 arg0, short4 arg1, short4 arg2, short4 arg3,

+ short4 arg4, short4 arg5, struct_4regs arg6) { }

+// AMDGCN: define void @v4i16_pair_reg_count_over(<4 x i16> %arg0, <4 x i16> %arg1, <4 x i16> %arg2, <4 x i16> %arg3, <4 x i16> %arg4, <4 x i16> %arg5, <4 x i16> %arg6, %struct.struct_4regs addrspace(5)* byval nocapture align 4 %arg7)

+// R600: define void @v4i16_pair_reg_count_over(<4 x i16> %arg0, <4 x i16> %arg1, <4 x i16> %arg2, <4 x i16> %arg3, <4 x i16> %arg4, <4 x i16> %arg5, <4 x i16> %arg6, %struct.struct_4regs* byval nocapture align 4 %arg7)

+void v4i16_pair_reg_count_over(short4 arg0, short4 arg1, short4 arg2, short4 arg3,

+ short4 arg4, short4 arg5, short4 arg6, struct_4regs arg7) { }

+// CHECK: define void @v3i16_reg_count(<3 x i16> %arg0, <3 x i16> %arg1, <3 x i16> %arg2, <3 x i16> %arg3, <3 x i16> %arg4, <3 x i16> %arg5, i32 %arg6.coerce0, i32 %arg6.coerce1, i32 %arg6.coerce2, i32 %arg6.coerce3)

+void v3i16_reg_count(short3 arg0, short3 arg1, short3 arg2, short3 arg3,

+ short3 arg4, short3 arg5, struct_4regs arg6) { }

+// AMDGCN: define void @v3i16_reg_count_over(<3 x i16> %arg0, <3 x i16> %arg1, <3 x i16> %arg2, <3 x i16> %arg3, <3 x i16> %arg4, <3 x i16> %arg5, <3 x i16> %arg6, %struct.struct_4regs addrspace(5)* byval nocapture align 4 %arg7)

+// R600: define void @v3i16_reg_count_over(<3 x i16> %arg0, <3 x i16> %arg1, <3 x i16> %arg2, <3 x i16> %arg3, <3 x i16> %arg4, <3 x i16> %arg5, <3 x i16> %arg6, %struct.struct_4regs* byval nocapture align 4 %arg7)

+void v3i16_reg_count_over(short3 arg0, short3 arg1, short3 arg2, short3 arg3,

+ short3 arg4, short3 arg5, short3 arg6, struct_4regs arg7) { }

+// CHECK: define void @v2i16_reg_count(<2 x i16> %arg0, <2 x i16> %arg1, <2 x i16> %arg2, <2 x i16> %arg3, <2 x i16> %arg4, <2 x i16> %arg5, <2 x i16> %arg6, <2 x i16> %arg7, <2 x i16> %arg8, <2 x i16> %arg9, <2 x i16> %arg10, <2 x i16> %arg11, i32 %arg13.coerce0, i32 %arg13.coerce1, i32 %arg13.coerce2, i32 %arg13.coerce3)

+void v2i16_reg_count(short2 arg0, short2 arg1, short2 arg2, short2 arg3,

+ short2 arg4, short2 arg5, short2 arg6, short2 arg7,

+ short2 arg8, short2 arg9, short2 arg10, short2 arg11,

+ struct_4regs arg13) { }

+// AMDGCN: define void @v2i16_reg_count_over(<2 x i16> %arg0, <2 x i16> %arg1, <2 x i16> %arg2, <2 x i16> %arg3, <2 x i16> %arg4, <2 x i16> %arg5, <2 x i16> %arg6, <2 x i16> %arg7, <2 x i16> %arg8, <2 x i16> %arg9, <2 x i16> %arg10, <2 x i16> %arg11, <2 x i16> %arg12, %struct.struct_4regs addrspace(5)* byval nocapture align 4 %arg13)

+// R600: define void @v2i16_reg_count_over(<2 x i16> %arg0, <2 x i16> %arg1, <2 x i16> %arg2, <2 x i16> %arg3, <2 x i16> %arg4, <2 x i16> %arg5, <2 x i16> %arg6, <2 x i16> %arg7, <2 x i16> %arg8, <2 x i16> %arg9, <2 x i16> %arg10, <2 x i16> %arg11, <2 x i16> %arg12, %struct.struct_4regs* byval nocapture align 4 %arg13)

+void v2i16_reg_count_over(short2 arg0, short2 arg1, short2 arg2, short2 arg3,

+ short2 arg4, short2 arg5, short2 arg6, short2 arg7,

+ short2 arg8, short2 arg9, short2 arg10, short2 arg11,

+ short2 arg12, struct_4regs arg13) { }

+// CHECK: define void @v2i8_reg_count(<2 x i8> %arg0, <2 x i8> %arg1, <2 x i8> %arg2, <2 x i8> %arg3, <2 x i8> %arg4, <2 x i8> %arg5, i32 %arg6.coerce0, i32 %arg6.coerce1, i32 %arg6.coerce2, i32 %arg6.coerce3)

+void v2i8_reg_count(char2 arg0, char2 arg1, char2 arg2, char2 arg3,

+ char2 arg4, char2 arg5, struct_4regs arg6) { }

+// AMDGCN: define void @v2i8_reg_count_over(<2 x i8> %arg0, <2 x i8> %arg1, <2 x i8> %arg2, <2 x i8> %arg3, <2 x i8> %arg4, <2 x i8> %arg5, i32 %arg6, %struct.struct_4regs addrspace(5)* byval nocapture align 4 %arg7)

+// R600: define void @v2i8_reg_count_over(<2 x i8> %arg0, <2 x i8> %arg1, <2 x i8> %arg2, <2 x i8> %arg3, <2 x i8> %arg4, <2 x i8> %arg5, i32 %arg6, %struct.struct_4regs* byval nocapture align 4 %arg7)

+void v2i8_reg_count_over(char2 arg0, char2 arg1, char2 arg2, char2 arg3,

+ char2 arg4, char2 arg5, int arg6, struct_4regs arg7) { }

+// CHECK: define void @num_regs_left_64bit_aggregate(<4 x i32> %arg0, <4 x i32> %arg1, <4 x i32> %arg2, <3 x i32> %arg3, [2 x i32] %arg4.coerce, i32 %arg5)

+void num_regs_left_64bit_aggregate(int4 arg0, int4 arg1, int4 arg2, int3 arg3, struct_char_x8 arg4, int arg5) { }

diff --git a/test/CodeGenOpenCL/amdgpu-attrs.cl b/test/CodeGenOpenCL/amdgpu-attrs.cl
index 230e0948f8cc..2696123f1434 100644
--- a/test/CodeGenOpenCL/amdgpu-attrs.cl
+++ b/test/CodeGenOpenCL/amdgpu-attrs.cl

@@ -151,28 +151,28 @@ kernel void reqd_work_group_size_32_2_1_flat_work_group_size_16_128() {

// CHECK-NOT: "amdgpu-num-sgpr"="0"

// CHECK-NOT: "amdgpu-num-vgpr"="0"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_64_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="64,64"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_16_128]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="16,128"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2]] = { noinline nounwind optnone "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2_4]] = { noinline nounwind optnone "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-num-sgpr"="32"

-// CHECK-DAG: attributes [[NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-num-vgpr"="64"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_64_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="64,64"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_16_128]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="16,128"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2]] = { convergent noinline nounwind optnone "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2_4]] = { convergent noinline nounwind optnone "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-num-sgpr"="32"

+// CHECK-DAG: attributes [[NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-num-vgpr"="64"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2_NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2_4_NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[WAVES_PER_EU_2_4_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[NUM_SGPR_32_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2_NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2_4_NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[WAVES_PER_EU_2_4_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[NUM_SGPR_32_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_SGPR_32]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_SGPR_32]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_SGPR_32_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

-// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_SGPR_32_NUM_VGPR_64]] = { noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_NUM_SGPR_32_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2"

+// CHECK-DAG: attributes [[FLAT_WORK_GROUP_SIZE_32_64_WAVES_PER_EU_2_4_NUM_SGPR_32_NUM_VGPR_64]] = { convergent noinline nounwind optnone "amdgpu-flat-work-group-size"="32,64" "amdgpu-num-sgpr"="32" "amdgpu-num-vgpr"="64" "amdgpu-waves-per-eu"="2,4"

diff --git a/test/CodeGenOpenCL/amdgpu-debug-info-variable-expression.cl b/test/CodeGenOpenCL/amdgpu-debug-info-variable-expression.cl
index d3b2869896f1..4d46b40561ee 100644
--- a/test/CodeGenOpenCL/amdgpu-debug-info-variable-expression.cl
+++ b/test/CodeGenOpenCL/amdgpu-debug-info-variable-expression.cl

@@ -1,131 +1,128 @@

// RUN: %clang -cl-std=CL2.0 -emit-llvm -g -O0 -S -target amdgcn-amd-amdhsa -mcpu=fiji -o - %s | FileCheck %s

// RUN: %clang -cl-std=CL2.0 -emit-llvm -g -O0 -S -target amdgcn-amd-amdhsa-opencl -mcpu=fiji -o - %s | FileCheck %s

-// CHECK-DAG: ![[LOCAL:[0-9]+]] = !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef)

-// CHECK-DAG: ![[PRIVATE:[0-9]+]] = !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)

// CHECK-DAG: ![[FILEVAR0:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar0", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR0]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR0]], expr: !DIExpression())

global int *FileVar0;

// CHECK-DAG: ![[FILEVAR1:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar1", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR1]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR1]], expr: !DIExpression())

constant int *FileVar1;

// CHECK-DAG: ![[FILEVAR2:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar2", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR2]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR2]], expr: !DIExpression())

local int *FileVar2;

// CHECK-DAG: ![[FILEVAR3:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar3", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR3]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR3]], expr: !DIExpression())

private int *FileVar3;

// CHECK-DAG: ![[FILEVAR4:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar4", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR4]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR4]], expr: !DIExpression())

int *FileVar4;

// CHECK-DAG: ![[FILEVAR5:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar5", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR5]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR5]], expr: !DIExpression())

global int *global FileVar5;

// CHECK-DAG: ![[FILEVAR6:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar6", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR6]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR6]], expr: !DIExpression())

constant int *global FileVar6;

// CHECK-DAG: ![[FILEVAR7:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar7", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR7]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR7]], expr: !DIExpression())

local int *global FileVar7;

// CHECK-DAG: ![[FILEVAR8:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar8", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR8]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR8]], expr: !DIExpression())

private int *global FileVar8;

// CHECK-DAG: ![[FILEVAR9:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar9", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR9]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR9]], expr: !DIExpression())

int *global FileVar9;

// CHECK-DAG: ![[FILEVAR10:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar10", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR10]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR10]], expr: !DIExpression())

global int *constant FileVar10 = 0;

// CHECK-DAG: ![[FILEVAR11:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar11", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR11]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR11]], expr: !DIExpression())

constant int *constant FileVar11 = 0;

// CHECK-DAG: ![[FILEVAR12:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar12", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR12]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR12]], expr: !DIExpression())

local int *constant FileVar12 = 0;

// CHECK-DAG: ![[FILEVAR13:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar13", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR13]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR13]], expr: !DIExpression())

private int *constant FileVar13 = 0;

// CHECK-DAG: ![[FILEVAR14:[0-9]+]] = distinct !DIGlobalVariable(name: "FileVar14", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: false, isDefinition: true)

-// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR14]])

+// CHECK-DAG: !DIGlobalVariableExpression(var: ![[FILEVAR14]], expr: !DIExpression())

int *constant FileVar14 = 0;

kernel void kernel1(

// CHECK-DAG: ![[KERNELARG0:[0-9]+]] = !DILocalVariable(name: "KernelArg0", arg: {{[0-9]+}}, scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[KERNELARG0]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[KERNELARG0]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

global int *KernelArg0,

// CHECK-DAG: ![[KERNELARG1:[0-9]+]] = !DILocalVariable(name: "KernelArg1", arg: {{[0-9]+}}, scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[KERNELARG1]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[KERNELARG1]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

constant int *KernelArg1,

// CHECK-DAG: ![[KERNELARG2:[0-9]+]] = !DILocalVariable(name: "KernelArg2", arg: {{[0-9]+}}, scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[KERNELARG2]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[KERNELARG2]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

local int *KernelArg2) {

private int *Tmp0;

int *Tmp1;

// CHECK-DAG: ![[FUNCVAR0:[0-9]+]] = !DILocalVariable(name: "FuncVar0", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[FUNCVAR0]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[FUNCVAR0]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

global int *FuncVar0 = KernelArg0;

// CHECK-DAG: ![[FUNCVAR1:[0-9]+]] = !DILocalVariable(name: "FuncVar1", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[FUNCVAR1]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[FUNCVAR1]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

constant int *FuncVar1 = KernelArg1;

// CHECK-DAG: ![[FUNCVAR2:[0-9]+]] = !DILocalVariable(name: "FuncVar2", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[FUNCVAR2]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[FUNCVAR2]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

local int *FuncVar2 = KernelArg2;

// CHECK-DAG: ![[FUNCVAR3:[0-9]+]] = !DILocalVariable(name: "FuncVar3", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32** {{.*}}, metadata ![[FUNCVAR3]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32** {{.*}}, metadata ![[FUNCVAR3]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

private int *FuncVar3 = Tmp0;

// CHECK-DAG: ![[FUNCVAR4:[0-9]+]] = !DILocalVariable(name: "FuncVar4", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(4)** {{.*}}, metadata ![[FUNCVAR4]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(4)** {{.*}}, metadata ![[FUNCVAR4]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

int *FuncVar4 = Tmp1;

// CHECK-DAG: ![[FUNCVAR5:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar5", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR5]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR5]], expr: !DIExpression())

global int *constant FuncVar5 = 0;

// CHECK-DAG: ![[FUNCVAR6:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar6", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR6]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR6]], expr: !DIExpression())

constant int *constant FuncVar6 = 0;

// CHECK-DAG: ![[FUNCVAR7:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar7", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR7]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR7]], expr: !DIExpression())

local int *constant FuncVar7 = 0;

// CHECK-DAG: ![[FUNCVAR8:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar8", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR8]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR8]], expr: !DIExpression())

private int *constant FuncVar8 = 0;

// CHECK-DAG: ![[FUNCVAR9:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar9", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR9]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR9]], expr: !DIExpression())

int *constant FuncVar9 = 0;

// CHECK-DAG: ![[FUNCVAR10:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar10", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR10]], expr: ![[LOCAL]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR10]], expr: !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef))

global int *local FuncVar10; FuncVar10 = KernelArg0;

// CHECK-DAG: ![[FUNCVAR11:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar11", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR11]], expr: ![[LOCAL]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR11]], expr: !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef))

constant int *local FuncVar11; FuncVar11 = KernelArg1;

// CHECK-DAG: ![[FUNCVAR12:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar12", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR12]], expr: ![[LOCAL]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR12]], expr: !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef))

local int *local FuncVar12; FuncVar12 = KernelArg2;

// CHECK-DAG: ![[FUNCVAR13:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar13", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR13]], expr: ![[LOCAL]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR13]], expr: !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef))

private int *local FuncVar13; FuncVar13 = Tmp0;

// CHECK-DAG: ![[FUNCVAR14:[0-9]+]] = distinct !DIGlobalVariable(name: "FuncVar14", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}}, isLocal: true, isDefinition: true)

- // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR14]], expr: ![[LOCAL]])

+ // CHECK-DAG: !DIGlobalVariableExpression(var: ![[FUNCVAR14]], expr: !DIExpression(DW_OP_constu, 2, DW_OP_swap, DW_OP_xderef))

int *local FuncVar14; FuncVar14 = Tmp1;

// CHECK-DAG: ![[FUNCVAR15:[0-9]+]] = !DILocalVariable(name: "FuncVar15", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[FUNCVAR15]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(1)** {{.*}}, metadata ![[FUNCVAR15]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

global int *private FuncVar15 = KernelArg0;

// CHECK-DAG: ![[FUNCVAR16:[0-9]+]] = !DILocalVariable(name: "FuncVar16", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[FUNCVAR16]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(2)** {{.*}}, metadata ![[FUNCVAR16]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

constant int *private FuncVar16 = KernelArg1;

// CHECK-DAG: ![[FUNCVAR17:[0-9]+]] = !DILocalVariable(name: "FuncVar17", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[FUNCVAR17]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(3)** {{.*}}, metadata ![[FUNCVAR17]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

local int *private FuncVar17 = KernelArg2;

// CHECK-DAG: ![[FUNCVAR18:[0-9]+]] = !DILocalVariable(name: "FuncVar18", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32** {{.*}}, metadata ![[FUNCVAR18]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32** {{.*}}, metadata ![[FUNCVAR18]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

private int *private FuncVar18 = Tmp0;

// CHECK-DAG: ![[FUNCVAR19:[0-9]+]] = !DILocalVariable(name: "FuncVar19", scope: !{{[0-9]+}}, file: !{{[0-9]+}}, line: {{[0-9]+}}, type: !{{[0-9]+}})

- // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(4)** {{.*}}, metadata ![[FUNCVAR19]], metadata ![[PRIVATE]]), !dbg !{{[0-9]+}}

+ // CHECK-DAG: call void @llvm.dbg.declare(metadata i32 addrspace(4)** {{.*}}, metadata ![[FUNCVAR19]], metadata !DIExpression(DW_OP_constu, 1, DW_OP_swap, DW_OP_xderef)), !dbg !{{[0-9]+}}

int *private FuncVar19 = Tmp1;

}

diff --git a/test/CodeGenOpenCL/amdgpu-enqueue-kernel.cl b/test/CodeGenOpenCL/amdgpu-enqueue-kernel.cl
new file mode 100644
index 000000000000..b2db4d782719
--- /dev/null
+++ b/test/CodeGenOpenCL/amdgpu-enqueue-kernel.cl

@@ -0,0 +1,45 @@

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -O0 -emit-llvm -o - -triple amdgcn | FileCheck %s --check-prefix=CHECK

+typedef struct {int a;} ndrange_t;

+// CHECK-LABEL: define amdgpu_kernel void @test

+kernel void test(global char *a, char b, global long *c, long d) {

+ queue_t default_queue;

+ unsigned flags = 0;

+ ndrange_t ndrange;

+ enqueue_kernel(default_queue, flags, ndrange,

+ ^(void) {

+ a[0] = b;

+ });

+ enqueue_kernel(default_queue, flags, ndrange,

+ ^(void) {

+ a[0] = b;

+ c[0] = d;

+ });

+ enqueue_kernel(default_queue, flags, ndrange,

+ ^(local void *lp) {

+ a[0] = b;

+ c[0] = d;

+ ((local int*)lp)[0] = 1;

+ }, 100);

+// CHECK-LABEL: define internal amdgpu_kernel void @__test_block_invoke_kernel(<{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i8 }>)

+// CHECK-SAME: #[[ATTR:[0-9]+]] !kernel_arg_addr_space !{{.*}} !kernel_arg_access_qual !{{.*}} !kernel_arg_type !{{.*}} !kernel_arg_base_type !{{.*}} !kernel_arg_type_qual !{{.*}}

+// CHECK: entry:

+// CHECK: %1 = alloca <{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i8 }>, align 8

+// CHECK: store <{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i8 }> %0, <{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i8 }>* %1, align 8

+// CHECK: %2 = addrspacecast <{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i8 }>* %1 to i8 addrspace(4)*

+// CHECK: call void @__test_block_invoke(i8 addrspace(4)* %2)

+// CHECK: ret void

+// CHECK:}

+// CHECK-LABEL: define internal amdgpu_kernel void @__test_block_invoke_2_kernel(<{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i64 addrspace(1)*, i64, i8 }>)

+// CHECK-SAME: #[[ATTR]] !kernel_arg_addr_space !{{.*}} !kernel_arg_access_qual !{{.*}} !kernel_arg_type !{{.*}} !kernel_arg_base_type !{{.*}} !kernel_arg_type_qual !{{.*}}

+// CHECK-LABEL: define internal amdgpu_kernel void @__test_block_invoke_3_kernel(<{ i32, i32, i8 addrspace(4)*, i8 addrspace(1)*, i64 addrspace(1)*, i64, i8 }>, i8 addrspace(3)*)

+// CHECK-SAME: #[[ATTR]] !kernel_arg_addr_space !{{.*}} !kernel_arg_access_qual !{{.*}} !kernel_arg_type !{{.*}} !kernel_arg_base_type !{{.*}} !kernel_arg_type_qual !{{.*}}

+// CHECK: attributes #[[ATTR]] = { nounwind "enqueued-block" }

diff --git a/test/CodeGenOpenCL/amdgpu-nullptr.cl b/test/CodeGenOpenCL/amdgpu-nullptr.cl
index 69f54fcaa483..513d56c19d60 100644
--- a/test/CodeGenOpenCL/amdgpu-nullptr.cl
+++ b/test/CodeGenOpenCL/amdgpu-nullptr.cl

@@ -511,9 +511,9 @@ typedef struct {

// CHECK-LABEL: test_memset_private

// CHECK: call void @llvm.memset.p0i8.i64(i8* nonnull {{.*}}, i8 0, i64 40, i32 8, i1 false)

-StructTy3 test_memset_private(void) {

+void test_memset_private(private StructTy3 *ptr) {

StructTy3 S3 = {0, 0, 0, 0, 0};

- return S3;

+ *ptr = S3;

}

// Test casting literal 0 to pointer.

diff --git a/test/CodeGenOpenCL/atomic-ops-libcall.cl b/test/CodeGenOpenCL/atomic-ops-libcall.cl
new file mode 100644
index 000000000000..a6f7e14f29c3
--- /dev/null
+++ b/test/CodeGenOpenCL/atomic-ops-libcall.cl

@@ -0,0 +1,82 @@

+// RUN: %clang_cc1 < %s -cl-std=CL2.0 -triple spir64 -emit-llvm | FileCheck -check-prefix=SPIR %s

+// RUN: %clang_cc1 < %s -cl-std=CL2.0 -triple armv5e-none-linux-gnueabi -emit-llvm | FileCheck -check-prefix=ARM %s

+typedef enum memory_order {

+ memory_order_relaxed = __ATOMIC_RELAXED,

+ memory_order_acquire = __ATOMIC_ACQUIRE,

+ memory_order_release = __ATOMIC_RELEASE,

+ memory_order_acq_rel = __ATOMIC_ACQ_REL,

+ memory_order_seq_cst = __ATOMIC_SEQ_CST

+} memory_order;

+typedef enum memory_scope {

+ memory_scope_work_item = __OPENCL_MEMORY_SCOPE_WORK_ITEM,

+ memory_scope_work_group = __OPENCL_MEMORY_SCOPE_WORK_GROUP,

+ memory_scope_device = __OPENCL_MEMORY_SCOPE_DEVICE,

+ memory_scope_all_svm_devices = __OPENCL_MEMORY_SCOPE_ALL_SVM_DEVICES,

+#if defined(cl_intel_subgroups) || defined(cl_khr_subgroups)

+ memory_scope_sub_group = __OPENCL_MEMORY_SCOPE_SUB_GROUP

+#endif

+} memory_scope;

+void f(atomic_int *i, global atomic_int *gi, local atomic_int *li, private atomic_int *pi, atomic_uint *ui, int cmp, int order, int scope) {

+ int x;

+ // SPIR: {{%[^ ]*}} = call i32 @__opencl_atomic_load_4(i8 addrspace(4)* {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call i32 @__opencl_atomic_load_4(i8* {{%[0-9]+}}, i32 5, i32 1)

+ x = __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: call void @__opencl_atomic_store_4(i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: call void @__opencl_atomic_store_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ __opencl_atomic_store(i, 1, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: %[[GP:[0-9]+]] = addrspacecast i8 addrspace(1)* {{%[0-9]+}} to i8 addrspace(4)*

+ // SPIR: call void @__opencl_atomic_store_4(i8 addrspace(4)* %[[GP]], i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: call void @__opencl_atomic_store_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ __opencl_atomic_store(gi, 1, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: %[[GP:[0-9]+]] = addrspacecast i8 addrspace(3)* {{%[0-9]+}} to i8 addrspace(4)*

+ // SPIR: call void @__opencl_atomic_store_4(i8 addrspace(4)* %[[GP]], i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: call void @__opencl_atomic_store_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ __opencl_atomic_store(li, 1, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: %[[GP:[0-9]+]] = addrspacecast i8* {{%[0-9]+}} to i8 addrspace(4)*

+ // SPIR: call void @__opencl_atomic_store_4(i8 addrspace(4)* %[[GP]], i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: call void @__opencl_atomic_store_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ __opencl_atomic_store(pi, 1, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_add_4(i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ x = __opencl_atomic_fetch_add(i, 3, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_min_4(i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_min_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ x = __opencl_atomic_fetch_min(i, 3, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_umin_4(i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call i32 @__opencl_atomic_fetch_umin_4(i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 1)

+ x = __opencl_atomic_fetch_min(ui, 3, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8* {{%[0-9]+}}, i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 1)

+ x = __opencl_atomic_compare_exchange_strong(i, &cmp, 1, memory_order_seq_cst, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 1)

+ // ARM: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8* {{%[0-9]+}}, i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 1)

+ x = __opencl_atomic_compare_exchange_weak(i, &cmp, 1, memory_order_seq_cst, memory_order_seq_cst, memory_scope_work_group);

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 2)

+ // ARM: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8* {{%[0-9]+}}, i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 2)

+ x = __opencl_atomic_compare_exchange_weak(i, &cmp, 1, memory_order_seq_cst, memory_order_seq_cst, memory_scope_device);

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 3)

+ // ARM: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8* {{%[0-9]+}}, i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 3)

+ x = __opencl_atomic_compare_exchange_weak(i, &cmp, 1, memory_order_seq_cst, memory_order_seq_cst, memory_scope_all_svm_devices);

+#ifdef cl_khr_subgroups

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 5, i32 5, i32 4)

+ x = __opencl_atomic_compare_exchange_weak(i, &cmp, 1, memory_order_seq_cst, memory_order_seq_cst, memory_scope_sub_group);

+#endif

+ // SPIR: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8 addrspace(4)* {{%[0-9]+}}, i8 addrspace(4)* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 %{{.*}}, i32 %{{.*}}, i32 %{{.*}})

+ // ARM: {{%[^ ]*}} = call zeroext i1 @__opencl_atomic_compare_exchange_4(i8* {{%[0-9]+}}, i8* {{%[0-9]+}}, i32 {{%[0-9]+}}, i32 %{{.*}}, i32 %{{.*}}, i32 %{{.*}})

+ x = __opencl_atomic_compare_exchange_weak(i, &cmp, 1, order, order, scope);

diff --git a/test/CodeGenOpenCL/atomic-ops.cl b/test/CodeGenOpenCL/atomic-ops.cl
new file mode 100644
index 000000000000..160f7fbd528d
--- /dev/null
+++ b/test/CodeGenOpenCL/atomic-ops.cl

@@ -0,0 +1,291 @@

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-llvm -O0 -o - -triple=amdgcn-amd-amdhsa-amdgizcl | opt -instnamer -S | FileCheck %s

+// Also test serialization of atomic operations here, to avoid duplicating the test.

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-pch -O0 -o %t -triple=amdgcn-amd-amdhsa-amdgizcl

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -include-pch %t -O0 -triple=amdgcn-amd-amdhsa-amdgizcl -emit-llvm -o - | opt -instnamer -S | FileCheck %s

+#ifndef ALREADY_INCLUDED

+#define ALREADY_INCLUDED

+typedef __INTPTR_TYPE__ intptr_t;

+typedef int int8 __attribute__((ext_vector_type(8)));

+typedef enum memory_order {

+ memory_order_relaxed = __ATOMIC_RELAXED,

+ memory_order_acquire = __ATOMIC_ACQUIRE,

+ memory_order_release = __ATOMIC_RELEASE,

+ memory_order_acq_rel = __ATOMIC_ACQ_REL,

+ memory_order_seq_cst = __ATOMIC_SEQ_CST

+} memory_order;

+typedef enum memory_scope {

+ memory_scope_work_item = __OPENCL_MEMORY_SCOPE_WORK_ITEM,

+ memory_scope_work_group = __OPENCL_MEMORY_SCOPE_WORK_GROUP,

+ memory_scope_device = __OPENCL_MEMORY_SCOPE_DEVICE,

+ memory_scope_all_svm_devices = __OPENCL_MEMORY_SCOPE_ALL_SVM_DEVICES,

+#if defined(cl_intel_subgroups) || defined(cl_khr_subgroups)

+ memory_scope_sub_group = __OPENCL_MEMORY_SCOPE_SUB_GROUP

+#endif

+} memory_scope;

+atomic_int j;

+void fi1(atomic_int *i) {

+ // CHECK-LABEL: @fi1

+ // CHECK: load atomic i32, i32* %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ int x = __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: load atomic i32, i32* %{{[.0-9A-Z_a-z]+}} syncscope("agent") seq_cst

+ x = __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_device);

+ // CHECK: load atomic i32, i32* %{{[.0-9A-Z_a-z]+}} seq_cst

+ x = __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_all_svm_devices);

+ // CHECK: load atomic i32, i32* %{{[.0-9A-Z_a-z]+}} syncscope("subgroup") seq_cst

+ x = __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_sub_group);

+void fi2(atomic_int *i) {

+ // CHECK-LABEL: @fi2

+ // CHECK: store atomic i32 %{{[.0-9A-Z_a-z]+}}, i32* %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ __opencl_atomic_store(i, 1, memory_order_seq_cst, memory_scope_work_group);

+void test_addr(global atomic_int *ig, private atomic_int *ip, local atomic_int *il) {

+ // CHECK-LABEL: @test_addr

+ // CHECK: store atomic i32 %{{[.0-9A-Z_a-z]+}}, i32 addrspace(1)* %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ __opencl_atomic_store(ig, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: store atomic i32 %{{[.0-9A-Z_a-z]+}}, i32 addrspace(5)* %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ __opencl_atomic_store(ip, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: store atomic i32 %{{[.0-9A-Z_a-z]+}}, i32 addrspace(3)* %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ __opencl_atomic_store(il, 1, memory_order_seq_cst, memory_scope_work_group);

+void fi3(atomic_int *i, atomic_uint *ui) {

+ // CHECK-LABEL: @fi3

+ // CHECK: atomicrmw and i32* %{{[.0-9A-Z_a-z]+}}, i32 %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ int x = __opencl_atomic_fetch_and(i, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: atomicrmw min i32* %{{[.0-9A-Z_a-z]+}}, i32 %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ x = __opencl_atomic_fetch_min(i, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: atomicrmw max i32* %{{[.0-9A-Z_a-z]+}}, i32 %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ x = __opencl_atomic_fetch_max(i, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: atomicrmw umin i32* %{{[.0-9A-Z_a-z]+}}, i32 %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ x = __opencl_atomic_fetch_min(ui, 1, memory_order_seq_cst, memory_scope_work_group);

+ // CHECK: atomicrmw umax i32* %{{[.0-9A-Z_a-z]+}}, i32 %{{[.0-9A-Z_a-z]+}} syncscope("workgroup") seq_cst

+ x = __opencl_atomic_fetch_max(ui, 1, memory_order_seq_cst, memory_scope_work_group);

+bool fi4(atomic_int *i) {

+ // CHECK-LABEL: @fi4(

+ // CHECK: [[PAIR:%[.0-9A-Z_a-z]+]] = cmpxchg i32* [[PTR:%[.0-9A-Z_a-z]+]], i32 [[EXPECTED:%[.0-9A-Z_a-z]+]], i32 [[DESIRED:%[.0-9A-Z_a-z]+]] syncscope("workgroup") acquire acquire

+ // CHECK: [[OLD:%[.0-9A-Z_a-z]+]] = extractvalue { i32, i1 } [[PAIR]], 0

+ // CHECK: [[CMP:%[.0-9A-Z_a-z]+]] = extractvalue { i32, i1 } [[PAIR]], 1

+ // CHECK: br i1 [[CMP]], label %[[STORE_EXPECTED:[.0-9A-Z_a-z]+]], label %[[CONTINUE:[.0-9A-Z_a-z]+]]

+ // CHECK: store i32 [[OLD]]

+ int cmp = 0;

+ return __opencl_atomic_compare_exchange_strong(i, &cmp, 1, memory_order_acquire, memory_order_acquire, memory_scope_work_group);

+void fi5(atomic_int *i, int scope) {

+ // CHECK-LABEL: @fi5

+ // CHECK: switch i32 %{{.*}}, label %[[opencl_allsvmdevices:.*]] [

+ // CHECK-NEXT: i32 1, label %[[opencl_workgroup:.*]]

+ // CHECK-NEXT: i32 2, label %[[opencl_device:.*]]

+ // CHECK-NEXT: i32 4, label %[[opencl_subgroup:.*]]

+ // CHECK-NEXT: ]

+ // CHECK: [[opencl_workgroup]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("workgroup") seq_cst

+ // CHECK: br label %[[continue:.*]]

+ // CHECK: [[opencl_device]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("agent") seq_cst

+ // CHECK: br label %[[continue]]

+ // CHECK: [[opencl_allsvmdevices]]:

+ // CHECK: load atomic i32, i32* %{{.*}} seq_cst

+ // CHECK: br label %[[continue]]

+ // CHECK: [[opencl_subgroup]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("subgroup") seq_cst

+ // CHECK: br label %[[continue]]

+ // CHECK: [[continue]]:

+ int x = __opencl_atomic_load(i, memory_order_seq_cst, scope);

+void fi6(atomic_int *i, int order, int scope) {

+ // CHECK-LABEL: @fi6

+ // CHECK: switch i32 %{{.*}}, label %[[monotonic:.*]] [

+ // CHECK-NEXT: i32 1, label %[[acquire:.*]]

+ // CHECK-NEXT: i32 2, label %[[acquire:.*]]

+ // CHECK-NEXT: i32 5, label %[[seqcst:.*]]

+ // CHECK-NEXT: ]

+ // CHECK: [[monotonic]]:

+ // CHECK: switch i32 %{{.*}}, label %[[MON_ALL:.*]] [

+ // CHECK-NEXT: i32 1, label %[[MON_WG:.*]]

+ // CHECK-NEXT: i32 2, label %[[MON_DEV:.*]]

+ // CHECK-NEXT: i32 4, label %[[MON_SUB:.*]]

+ // CHECK-NEXT: ]

+ // CHECK: [[acquire]]:

+ // CHECK: switch i32 %{{.*}}, label %[[ACQ_ALL:.*]] [

+ // CHECK-NEXT: i32 1, label %[[ACQ_WG:.*]]

+ // CHECK-NEXT: i32 2, label %[[ACQ_DEV:.*]]

+ // CHECK-NEXT: i32 4, label %[[ACQ_SUB:.*]]

+ // CHECK-NEXT: ]

+ // CHECK: [[seqcst]]:

+ // CHECK: switch i32 %{{.*}}, label %[[SEQ_ALL:.*]] [

+ // CHECK-NEXT: i32 1, label %[[SEQ_WG:.*]]

+ // CHECK-NEXT: i32 2, label %[[SEQ_DEV:.*]]

+ // CHECK-NEXT: i32 4, label %[[SEQ_SUB:.*]]

+ // CHECK-NEXT: ]

+ // CHECK: [[MON_WG]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("workgroup") monotonic

+ // CHECK: [[MON_DEV]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("agent") monotonic

+ // CHECK: [[MON_ALL]]:

+ // CHECK: load atomic i32, i32* %{{.*}} monotonic

+ // CHECK: [[MON_SUB]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("subgroup") monotonic

+ // CHECK: [[ACQ_WG]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("workgroup") acquire

+ // CHECK: [[ACQ_DEV]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("agent") acquire

+ // CHECK: [[ACQ_ALL]]:

+ // CHECK: load atomic i32, i32* %{{.*}} acquire

+ // CHECK: [[ACQ_SUB]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("subgroup") acquire

+ // CHECK: [[SEQ_WG]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("workgroup") seq_cst

+ // CHECK: [[SEQ_DEV]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("agent") seq_cst

+ // CHECK: [[SEQ_ALL]]:

+ // CHECK: load atomic i32, i32* %{{.*}} seq_cst

+ // CHECK: [[SEQ_SUB]]:

+ // CHECK: load atomic i32, i32* %{{.*}} syncscope("subgroup") seq_cst

+ int x = __opencl_atomic_load(i, order, scope);

+float ff1(global atomic_float *d) {

+ // CHECK-LABEL: @ff1

+ // CHECK: load atomic i32, i32 addrspace(1)* {{.*}} syncscope("workgroup") monotonic

+ return __opencl_atomic_load(d, memory_order_relaxed, memory_scope_work_group);

+void ff2(atomic_float *d) {

+ // CHECK-LABEL: @ff2

+ // CHECK: store atomic i32 {{.*}} syncscope("workgroup") release

+ __opencl_atomic_store(d, 1, memory_order_release, memory_scope_work_group);

+float ff3(atomic_float *d) {

+ // CHECK-LABEL: @ff3

+ // CHECK: atomicrmw xchg i32* {{.*}} syncscope("workgroup") seq_cst

+ return __opencl_atomic_exchange(d, 2, memory_order_seq_cst, memory_scope_work_group);

+// CHECK-LABEL: @atomic_init_foo

+void atomic_init_foo()

+ // CHECK-NOT: atomic

+ // CHECK: store

+ __opencl_atomic_init(&j, 42);

+ // CHECK-NOT: atomic

+ // CHECK: }

+// CHECK-LABEL: @failureOrder

+void failureOrder(atomic_int *ptr, int *ptr2) {

+ // CHECK: cmpxchg i32* {{%[0-9A-Za-z._]+}}, i32 {{%[0-9A-Za-z._]+}}, i32 {{%[0-9A-Za-z_.]+}} syncscope("workgroup") acquire monotonic

+ __opencl_atomic_compare_exchange_strong(ptr, ptr2, 43, memory_order_acquire, memory_order_relaxed, memory_scope_work_group);

+ // CHECK: cmpxchg weak i32* {{%[0-9A-Za-z._]+}}, i32 {{%[0-9A-Za-z._]+}}, i32 {{%[0-9A-Za-z_.]+}} syncscope("workgroup") seq_cst acquire

+ __opencl_atomic_compare_exchange_weak(ptr, ptr2, 43, memory_order_seq_cst, memory_order_acquire, memory_scope_work_group);

+// CHECK-LABEL: @generalFailureOrder

+void generalFailureOrder(atomic_int *ptr, int *ptr2, int success, int fail) {

+ __opencl_atomic_compare_exchange_strong(ptr, ptr2, 42, success, fail, memory_scope_work_group);

+ // CHECK: switch i32 {{.*}}, label %[[MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: i32 1, label %[[ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 2, label %[[ACQUIRE]]

+ // CHECK-NEXT: i32 3, label %[[RELEASE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 4, label %[[ACQREL:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 5, label %[[SEQCST:[0-9a-zA-Z._]+]]

+ // CHECK: [[MONOTONIC]]

+ // CHECK: switch {{.*}}, label %[[MONOTONIC_MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: ]

+ // CHECK: [[ACQUIRE]]

+ // CHECK: switch {{.*}}, label %[[ACQUIRE_MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: i32 1, label %[[ACQUIRE_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 2, label %[[ACQUIRE_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: ]

+ // CHECK: [[RELEASE]]

+ // CHECK: switch {{.*}}, label %[[RELEASE_MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: ]

+ // CHECK: [[ACQREL]]

+ // CHECK: switch {{.*}}, label %[[ACQREL_MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: i32 1, label %[[ACQREL_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 2, label %[[ACQREL_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: ]

+ // CHECK: [[SEQCST]]

+ // CHECK: switch {{.*}}, label %[[SEQCST_MONOTONIC:[0-9a-zA-Z._]+]] [

+ // CHECK-NEXT: i32 1, label %[[SEQCST_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 2, label %[[SEQCST_ACQUIRE:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: i32 5, label %[[SEQCST_SEQCST:[0-9a-zA-Z._]+]]

+ // CHECK-NEXT: ]

+ // CHECK: [[MONOTONIC_MONOTONIC]]

+ // CHECK: cmpxchg {{.*}} monotonic monotonic

+ // CHECK: br

+ // CHECK: [[ACQUIRE_MONOTONIC]]

+ // CHECK: cmpxchg {{.*}} acquire monotonic

+ // CHECK: br

+ // CHECK: [[ACQUIRE_ACQUIRE]]

+ // CHECK: cmpxchg {{.*}} acquire acquire

+ // CHECK: br

+ // CHECK: [[ACQREL_MONOTONIC]]

+ // CHECK: cmpxchg {{.*}} acq_rel monotonic

+ // CHECK: br

+ // CHECK: [[ACQREL_ACQUIRE]]

+ // CHECK: cmpxchg {{.*}} acq_rel acquire

+ // CHECK: br

+ // CHECK: [[SEQCST_MONOTONIC]]

+ // CHECK: cmpxchg {{.*}} seq_cst monotonic

+ // CHECK: br

+ // CHECK: [[SEQCST_ACQUIRE]]

+ // CHECK: cmpxchg {{.*}} seq_cst acquire

+ // CHECK: br

+ // CHECK: [[SEQCST_SEQCST]]

+ // CHECK: cmpxchg {{.*}} seq_cst seq_cst

+ // CHECK: br

+int test_volatile(volatile atomic_int *i) {

+ // CHECK-LABEL: @test_volatile

+ // CHECK: %[[i_addr:.*]] = alloca i32

+ // CHECK-NEXT: %[[atomicdst:.*]] = alloca i32

+ // CHECK-NEXT: store i32* %i, i32* addrspace(5)* %[[i_addr]]

+ // CHECK-NEXT: %[[addr:.*]] = load i32*, i32* addrspace(5)* %[[i_addr]]

+ // CHECK-NEXT: %[[res:.*]] = load atomic volatile i32, i32* %[[addr]] syncscope("workgroup") seq_cst

+ // CHECK-NEXT: store i32 %[[res]], i32 addrspace(5)* %[[atomicdst]]

+ // CHECK-NEXT: %[[retval:.*]] = load i32, i32 addrspace(5)* %[[atomicdst]]

+ // CHECK-NEXT: ret i32 %[[retval]]

+ return __opencl_atomic_load(i, memory_order_seq_cst, memory_scope_work_group);

+#endif

diff --git a/test/CodeGenOpenCL/blocks.cl b/test/CodeGenOpenCL/blocks.cl
index 5f0cceaf6cdb..146d9dc113a8 100644
--- a/test/CodeGenOpenCL/blocks.cl
+++ b/test/CodeGenOpenCL/blocks.cl

@@ -1,17 +1,54 @@

-// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-llvm -o - -O0 -triple spir-unknown-unknown | FileCheck -check-prefix=GENERIC -check-prefix=COMMON %s

-// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-llvm -o - -O0 -triple amdgcn-amd-amdhsa-opencl | FileCheck -check-prefix=AMD -check-prefix=COMMON %s

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-llvm -o - -O0 -triple spir-unknown-unknown | FileCheck -check-prefixes=COMMON,SPIR %s

+// RUN: %clang_cc1 %s -cl-std=CL2.0 -emit-llvm -o - -O0 -triple amdgcn-amd-amdhsa-opencl | FileCheck -check-prefixes=COMMON,AMD %s

-// Checking for null instead of @__NSConcreteGlobalBlock symbol

-// COMMON: @__block_literal_global = internal addrspace(1) constant { i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } { i8** null

+// COMMON: %struct.__opencl_block_literal_generic = type { i32, i32, i8 addrspace(4)* }

+// SPIR: @__block_literal_global = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 12, i32 4, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* @block_A_block_invoke to i8*) to i8 addrspace(4)*) }

+// AMD: @__block_literal_global = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 16, i32 8, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* @block_A_block_invoke to i8*) to i8 addrspace(4)*) }

+// COMMON-NOT: .str

+// COMMON-LABEL: define internal {{.*}}void @block_A_block_invoke(i8 addrspace(4)* %.block_descriptor, i8 addrspace(3)* %a)

void (^block_A)(local void *) = ^(local void *a) {

return;

};

+// COMMON-LABEL: define {{.*}}void @foo()

void foo(){

int i;

-// Checking for null instead of @_NSConcreteStackBlock symbol

-// COMMON: store i8* null, i8** %block.isa

+ // COMMON-NOT: %block.isa

+ // COMMON-NOT: %block.flags

+ // COMMON-NOT: %block.reserved

+ // COMMON-NOT: %block.descriptor

+ // COMMON: %[[block_size:.*]] = getelementptr inbounds <{ i32, i32, i8 addrspace(4)*, i32 }>, <{ i32, i32, i8 addrspace(4)*, i32 }>* %block, i32 0, i32 0

+ // SPIR: store i32 16, i32* %[[block_size]]

+ // AMD: store i32 20, i32* %[[block_size]]

+ // COMMON: %[[block_align:.*]] = getelementptr inbounds <{ i32, i32, i8 addrspace(4)*, i32 }>, <{ i32, i32, i8 addrspace(4)*, i32 }>* %block, i32 0, i32 1

+ // SPIR: store i32 4, i32* %[[block_align]]

+ // AMD: store i32 8, i32* %[[block_align]]

+ // COMMON: %[[block_invoke:.*]] = getelementptr inbounds <{ i32, i32, i8 addrspace(4)*, i32 }>, <{ i32, i32, i8 addrspace(4)*, i32 }>* %[[block:.*]], i32 0, i32 2

+ // COMMON: store i8 addrspace(4)* addrspacecast (i8* bitcast (i32 (i8 addrspace(4)*)* @__foo_block_invoke to i8*) to i8 addrspace(4)*), i8 addrspace(4)** %[[block_invoke]]

+ // COMMON: %[[block_captured:.*]] = getelementptr inbounds <{ i32, i32, i8 addrspace(4)*, i32 }>, <{ i32, i32, i8 addrspace(4)*, i32 }>* %[[block]], i32 0, i32 3

+ // COMMON: %[[i_value:.*]] = load i32, i32* %i

+ // COMMON: store i32 %[[i_value]], i32* %[[block_captured]],

+ // COMMON: %[[blk_ptr:.*]] = bitcast <{ i32, i32, i8 addrspace(4)*, i32 }>* %[[block]] to i32 ()*

+ // COMMON: %[[blk_gen_ptr:.*]] = addrspacecast i32 ()* %[[blk_ptr]] to i32 () addrspace(4)*

+ // COMMON: store i32 () addrspace(4)* %[[blk_gen_ptr]], i32 () addrspace(4)** %[[block_B:.*]],

+ // COMMON: %[[blk_gen_ptr:.*]] = load i32 () addrspace(4)*, i32 () addrspace(4)** %[[block_B]]

+ // COMMON: %[[block_literal:.*]] = bitcast i32 () addrspace(4)* %[[blk_gen_ptr]] to %struct.__opencl_block_literal_generic addrspace(4)*

+ // COMMON: %[[invoke_addr:.*]] = getelementptr inbounds %struct.__opencl_block_literal_generic, %struct.__opencl_block_literal_generic addrspace(4)* %[[block_literal]], i32 0, i32 2

+ // COMMON: %[[blk_gen_ptr:.*]] = bitcast %struct.__opencl_block_literal_generic addrspace(4)* %[[block_literal]] to i8 addrspace(4)*

+ // COMMON: %[[invoke_func_ptr:.*]] = load i8 addrspace(4)*, i8 addrspace(4)* addrspace(4)* %[[invoke_addr]]

+ // COMMON: %[[invoke_func:.*]] = addrspacecast i8 addrspace(4)* %[[invoke_func_ptr]] to i32 (i8 addrspace(4)*)*

+ // COMMON: call {{.*}}i32 %[[invoke_func]](i8 addrspace(4)* %[[blk_gen_ptr]])

int (^ block_B)(void) = ^{

return i;

};

+ block_B();

}

+// COMMON-LABEL: define internal {{.*}}i32 @__foo_block_invoke(i8 addrspace(4)* %.block_descriptor)

+// COMMON: %[[block:.*]] = bitcast i8 addrspace(4)* %.block_descriptor to <{ i32, i32, i8 addrspace(4)*, i32 }> addrspace(4)*

+// COMMON: %[[block_capture_addr:.*]] = getelementptr inbounds <{ i32, i32, i8 addrspace(4)*, i32 }>, <{ i32, i32, i8 addrspace(4)*, i32 }> addrspace(4)* %[[block]], i32 0, i32 3

+// COMMON: %[[block_capture:.*]] = load i32, i32 addrspace(4)* %[[block_capture_addr]]

+// COMMON-NOT: define{{.*}}@__foo_block_invoke_kernel

diff --git a/test/CodeGenOpenCL/builtins-amdgcn.cl b/test/CodeGenOpenCL/builtins-amdgcn.cl
index f75620ba603a..9f036547bf41 100644
--- a/test/CodeGenOpenCL/builtins-amdgcn.cl
+++ b/test/CodeGenOpenCL/builtins-amdgcn.cl

@@ -421,6 +421,25 @@ void test_read_exec(global ulong* out) {

// CHECK: declare i64 @llvm.read_register.i64(metadata) #[[NOUNWIND_READONLY:[0-9]+]]

+// CHECK-LABEL: @test_read_exec_lo(

+// CHECK: call i32 @llvm.read_register.i32(metadata ![[EXEC_LO:[0-9]+]]) #[[READ_EXEC_ATTRS]]

+void test_read_exec_lo(global uint* out) {

+ *out = __builtin_amdgcn_read_exec_lo();

+// CHECK-LABEL: @test_read_exec_hi(

+// CHECK: call i32 @llvm.read_register.i32(metadata ![[EXEC_HI:[0-9]+]]) #[[READ_EXEC_ATTRS]]

+void test_read_exec_hi(global uint* out) {

+ *out = __builtin_amdgcn_read_exec_hi();

+// CHECK-LABEL: @test_dispatch_ptr

+// CHECK: call i8 addrspace(2)* @llvm.amdgcn.dispatch.ptr()

+void test_dispatch_ptr(__attribute__((address_space(2))) unsigned char ** out)

+ *out = __builtin_amdgcn_dispatch_ptr();

// CHECK-LABEL: @test_kernarg_segment_ptr

// CHECK: call i8 addrspace(2)* @llvm.amdgcn.kernarg.segment.ptr()

void test_kernarg_segment_ptr(__attribute__((address_space(2))) unsigned char ** out)

@@ -492,3 +511,5 @@ void test_s_getpc(global ulong* out)

// CHECK-DAG: attributes #[[NOUNWIND_READONLY:[0-9]+]] = { nounwind readonly }

// CHECK-DAG: attributes #[[READ_EXEC_ATTRS]] = { convergent }

// CHECK-DAG: ![[EXEC]] = !{!"exec"}

+// CHECK-DAG: ![[EXEC_LO]] = !{!"exec_lo"}

+// CHECK-DAG: ![[EXEC_HI]] = !{!"exec_hi"}

diff --git a/test/CodeGenOpenCL/cl20-device-side-enqueue.cl b/test/CodeGenOpenCL/cl20-device-side-enqueue.cl
index def290661534..0bf87c25bd83 100644
--- a/test/CodeGenOpenCL/cl20-device-side-enqueue.cl
+++ b/test/CodeGenOpenCL/cl20-device-side-enqueue.cl

@@ -1,13 +1,35 @@

// RUN: %clang_cc1 %s -cl-std=CL2.0 -ffake-address-space-map -O0 -emit-llvm -o - -triple "spir-unknown-unknown" | FileCheck %s --check-prefix=COMMON --check-prefix=B32

// RUN: %clang_cc1 %s -cl-std=CL2.0 -ffake-address-space-map -O0 -emit-llvm -o - -triple "spir64-unknown-unknown" | FileCheck %s --check-prefix=COMMON --check-prefix=B64

+#pragma OPENCL EXTENSION cl_khr_subgroups : enable

typedef void (^bl_t)(local void *);

typedef struct {int a;} ndrange_t;

-// N.B. The check here only exists to set BL_GLOBAL

-// COMMON: @block_G = addrspace(1) constant void (i8 addrspace(3)*) addrspace(4)* addrspacecast (void (i8 addrspace(3)*) addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* [[BL_GLOBAL:@__block_literal_global(\.[0-9]+)?]] to void (i8 addrspace(3)*) addrspace(1)*) to void (i8 addrspace(3)*) addrspace(4)*)

+// COMMON: %struct.__opencl_block_literal_generic = type { i32, i32, i8 addrspace(4)* }

+// For a block global variable, first emit the block literal as a global variable, then emit the block variable itself.

+// COMMON: [[BL_GLOBAL:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* [[INV_G:@[^ ]+]] to i8*) to i8 addrspace(4)*) }

+// COMMON: @block_G = addrspace(1) constant void (i8 addrspace(3)*) addrspace(4)* addrspacecast (void (i8 addrspace(3)*) addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BL_GLOBAL]] to void (i8 addrspace(3)*) addrspace(1)*) to void (i8 addrspace(3)*) addrspace(4)*)

+// For anonymous blocks without captures, emit block literals as global variable.

+// COMMON: [[BLG1:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG2:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG3:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG4:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG5:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG6:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*, i8 addrspace(3)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG7:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG8:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*)* [[INVG8:@[^ ]+]] to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG9:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*, i8 addrspace(3)*)* [[INVG9:@[^ ]+]] to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG10:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// COMMON: [[BLG11:@__block_literal_global[^ ]*]] = internal addrspace(1) constant { i32, i32, i8 addrspace(4)* } { i32 {{[0-9]+}}, i32 {{[0-9]+}}, i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*)* {{@[^ ]+}} to i8*) to i8 addrspace(4)*) }

+// Emits block literal [[BL_GLOBAL]], invoke function [[INV_G]] and global block variable @block_G

+// COMMON: define internal spir_func void [[INV_G]](i8 addrspace(4)* %{{.*}}, i8 addrspace(3)* %{{.*}})

const bl_t block_G = (bl_t) ^ (local void *a) {};

+// COMMON-LABEL: define spir_kernel void @device_side_enqueue(i32 addrspace(1)* %{{.*}}, i32 addrspace(1)* %b, i32 %i)

kernel void device_side_enqueue(global int *a, global int *b, int i) {

// COMMON: %default_queue = alloca %opencl.queue_t*

queue_t default_queue;

@@ -22,73 +44,125 @@ kernel void device_side_enqueue(global int *a, global int *b, int i) {

// COMMON: %event_wait_list2 = alloca [1 x %opencl.clk_event_t*]

clk_event_t event_wait_list2[] = {clk_event};

+ // Emits block literal on stack and block kernel [[INVLK1]].

// COMMON: [[NDR:%[a-z0-9]+]] = alloca %struct.ndrange_t, align 4

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

- // COMMON: [[BL:%[0-9]+]] = bitcast <{ i8*, i32, i32, i8*, %struct.__block_descriptor addrspace(2)*, i32{{.*}}, i32{{.*}}, i32{{.*}} }>* %block to void ()*

+ // COMMON: store i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*)* [[INVL1:@__device_side_enqueue_block_invoke[^ ]*]] to i8*) to i8 addrspace(4)*), i8 addrspace(4)** %block.invoke

+ // B32: [[BL:%[0-9]+]] = bitcast <{ i32, i32, i8 addrspace(4)*, i32 addrspace(1)*, i32, i32 addrspace(1)* }>* %block to void ()*

+ // B64: [[BL:%[0-9]+]] = bitcast <{ i32, i32, i8 addrspace(4)*, i32 addrspace(1)*, i32 addrspace(1)*, i32 }>* %block to void ()*

// COMMON: [[BL_I8:%[0-9]+]] = addrspacecast void ()* [[BL]] to i8 addrspace(4)*

- // COMMON: call i32 @__enqueue_kernel_basic(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* byval [[NDR]]{{(.[0-9]+)?}}, i8 addrspace(4)* [[BL_I8]])

+ // COMMON-LABEL: call i32 @__enqueue_kernel_basic(

+ // COMMON-SAME: %opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* byval [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVLK1:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* [[BL_I8]])

enqueue_kernel(default_queue, flags, ndrange,

^(void) {

a[i] = b[i];

});

+ // Emits block literal on stack and block kernel [[INVLK2]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

// COMMON: [[WAIT_EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** %event_wait_list to %opencl.clk_event_t{{.*}}* addrspace(4)*

// COMMON: [[EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** %clk_event to %opencl.clk_event_t{{.*}}* addrspace(4)*

- // COMMON: [[BL:%[0-9]+]] = bitcast <{ i8*, i32, i32, i8*, %struct.__block_descriptor addrspace(2)*, i32{{.*}}, i32{{.*}}, i32{{.*}} }>* %block3 to void ()*

+ // COMMON: store i8 addrspace(4)* addrspacecast (i8* bitcast (void (i8 addrspace(4)*)* [[INVL2:@__device_side_enqueue_block_invoke[^ ]*]] to i8*) to i8 addrspace(4)*), i8 addrspace(4)** %block.invoke

+ // COMMON: [[BL:%[0-9]+]] = bitcast <{ i32, i32, i8 addrspace(4)*, i32{{.*}}, i32{{.*}}, i32{{.*}} }>* %block3 to void ()*

// COMMON: [[BL_I8:%[0-9]+]] = addrspacecast void ()* [[BL]] to i8 addrspace(4)*

- // COMMON: call i32 @__enqueue_kernel_basic_events(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}}* addrspace(4)* [[WAIT_EVNT]], %opencl.clk_event_t{{.*}}* addrspace(4)* [[EVNT]], i8 addrspace(4)* [[BL_I8]])

+ // COMMON-LABEL: call i32 @__enqueue_kernel_basic_events

+ // COMMON-SAME: (%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}}* addrspace(4)* [[WAIT_EVNT]], %opencl.clk_event_t{{.*}}* addrspace(4)* [[EVNT]],

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVLK2:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* [[BL_I8]])

enqueue_kernel(default_queue, flags, ndrange, 2, &event_wait_list, &clk_event,

^(void) {

a[i] = b[i];

});

+ // Emits global block literal [[BLG1]] and block kernel [[INVGK1]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

- // B32: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{(.[0-9]+)?}}, i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i32 256)

- // B64: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{(.[0-9]+)?}}, i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i64 256)

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 256, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 256, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_vaargs(

+ // COMMON-SAME: %opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK1:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG1]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange,

^(local void *p) {

return;

256);

char c;

+ // Emits global block literal [[BLG2]] and block kernel [[INVGK2]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

- // B32: [[SIZE:%[0-9]+]] = zext i8 {{%[0-9]+}} to i32

- // B64: [[SIZE:%[0-9]+]] = zext i8 {{%[0-9]+}} to i64

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 %{{.*}}, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 %{{.*}}, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_vaargs(

+ // COMMON-SAME: %opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK2:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG2]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange,

^(local void *p) {

return;

c);

+ // Emits global block literal [[BLG3]] and block kernel [[INVGK3]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

// COMMON: [[AD:%arraydecay[0-9]*]] = getelementptr inbounds [1 x %opencl.clk_event_t*], [1 x %opencl.clk_event_t*]* %event_wait_list2, i32 0, i32 0

// COMMON: [[WAIT_EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** [[AD]] to %opencl.clk_event_t{{.*}}* addrspace(4)*

// COMMON: [[EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** %clk_event to %opencl.clk_event_t{{.*}}* addrspace(4)*

- // B32: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i32, %opencl.clk_event_t{{.*}}* addrspace(4)*, %opencl.clk_event_t{{.*}}* addrspace(4)*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_events_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}} [[WAIT_EVNT]], %opencl.clk_event_t{{.*}} [[EVNT]], i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i32 256)

- // B64: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i32, %opencl.clk_event_t{{.*}}* addrspace(4)*, %opencl.clk_event_t{{.*}}* addrspace(4)*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_events_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}} [[WAIT_EVNT]], %opencl.clk_event_t{{.*}} [[EVNT]], i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i64 256)

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 256, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 256, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_events_vaargs

+ // COMMON-SAME: (%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}} [[WAIT_EVNT]], %opencl.clk_event_t{{.*}} [[EVNT]],

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK3:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG3]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange, 2, event_wait_list2, &clk_event,

^(local void *p) {

return;

256);

+ // Emits global block literal [[BLG4]] and block kernel [[INVGK4]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

// COMMON: [[AD:%arraydecay[0-9]*]] = getelementptr inbounds [1 x %opencl.clk_event_t*], [1 x %opencl.clk_event_t*]* %event_wait_list2, i32 0, i32 0

// COMMON: [[WAIT_EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** [[AD]] to %opencl.clk_event_t{{.*}}* addrspace(4)*

// COMMON: [[EVNT:%[0-9]+]] = addrspacecast %opencl.clk_event_t{{.*}}** %clk_event to %opencl.clk_event_t{{.*}}* addrspace(4)*

- // B32: [[SIZE:%[0-9]+]] = zext i8 {{%[0-9]+}} to i32

- // B32: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i32, %opencl.clk_event_t{{.*}}* addrspace(4)*, %opencl.clk_event_t{{.*}}* addrspace(4)*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_events_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}}* addrspace(4)* [[WAIT_EVNT]], %opencl.clk_event_t{{.*}}* addrspace(4)* [[EVNT]], i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i32 [[SIZE]])

- // B64: [[SIZE:%[0-9]+]] = zext i8 {{%[0-9]+}} to i64

- // B64: call i32 (%opencl.queue_t{{.*}}*, i32, %struct.ndrange_t*, i32, %opencl.clk_event_t{{.*}}* addrspace(4)*, %opencl.clk_event_t{{.*}}* addrspace(4)*, i8 addrspace(4)*, i32, ...) @__enqueue_kernel_events_vaargs(%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* {{.*}}, i32 2, %opencl.clk_event_t{{.*}}* addrspace(4)* [[WAIT_EVNT]], %opencl.clk_event_t{{.*}}* addrspace(4)* [[EVNT]], i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* @__block_literal_global{{(.[0-9]+)?}} to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1, i64 [[SIZE]])

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 %{{.*}}, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 %{{.*}}, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_events_vaargs

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK4:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG4]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange, 2, event_wait_list2, &clk_event,

^(local void *p) {

return;

@@ -96,46 +170,170 @@ kernel void device_side_enqueue(global int *a, global int *b, int i) {

c);

long l;

+ // Emits global block literal [[BLG5]] and block kernel [[INVGK5]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

- // B32: [[SIZE:%[0-9]+]] = trunc i64 {{%[0-9]+}} to i32

- // B64: [[SIZE:%[0-9]+]] = load i64, i64* %l

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 %{{.*}}, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 %{{.*}}, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_vaargs

+ // COMMON-SAME: (%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK5:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG5]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange,

^(local void *p) {

return;

l);

+ // Emits global block literal [[BLG6]] and block kernel [[INVGK6]].

+ // COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

+ // COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

+ // B32: %[[TMP:.*]] = alloca [3 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [3 x i32], [3 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 1, i32* %[[TMP1]], align 4

+ // B32: %[[TMP2:.*]] = getelementptr [3 x i32], [3 x i32]* %[[TMP]], i32 0, i32 1

+ // B32: store i32 2, i32* %[[TMP2]], align 4

+ // B32: %[[TMP3:.*]] = getelementptr [3 x i32], [3 x i32]* %[[TMP]], i32 0, i32 2

+ // B32: store i32 4, i32* %[[TMP3]], align 4

+ // B64: %[[TMP:.*]] = alloca [3 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [3 x i64], [3 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 1, i64* %[[TMP1]], align 8

+ // B64: %[[TMP2:.*]] = getelementptr [3 x i64], [3 x i64]* %[[TMP]], i32 0, i32 1

+ // B64: store i64 2, i64* %[[TMP2]], align 8

+ // B64: %[[TMP3:.*]] = getelementptr [3 x i64], [3 x i64]* %[[TMP]], i32 0, i32 2

+ // B64: store i64 4, i64* %[[TMP3]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_vaargs

+ // COMMON-SAME: (%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK6:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG6]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 3,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

+ enqueue_kernel(default_queue, flags, ndrange,

+ ^(local void *p1, local void *p2, local void *p3) {

+ return;

+ },

+ 1, 2, 4);

+ // Emits global block literal [[BLG7]] and block kernel [[INVGK7]].

// COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t*, %opencl.queue_t** %default_queue

// COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

+ // B32: %[[TMP:.*]] = alloca [1 x i32]

+ // B32: %[[TMP1:.*]] = getelementptr [1 x i32], [1 x i32]* %[[TMP]], i32 0, i32 0

+ // B32: store i32 0, i32* %[[TMP1]], align 4

+ // B64: %[[TMP:.*]] = alloca [1 x i64]

+ // B64: %[[TMP1:.*]] = getelementptr [1 x i64], [1 x i64]* %[[TMP]], i32 0, i32 0

+ // B64: store i64 4294967296, i64* %[[TMP1]], align 8

+ // COMMON-LABEL: call i32 @__enqueue_kernel_vaargs

+ // COMMON-SAME: (%opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK7:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG7]] to i8 addrspace(1)*) to i8 addrspace(4)*), i32 1,

+ // B32-SAME: i32* %[[TMP1]])

+ // B64-SAME: i64* %[[TMP1]])

enqueue_kernel(default_queue, flags, ndrange,

^(local void *p) {

return;

4294967296L);

+ // Emits global block literal [[BLG8]] and invoke function [[INVG8]].

// The full type of these expressions are long (and repeated elsewhere), so we

// capture it as part of the regex for convenience and clarity.

- // COMMON: store void () addrspace(4)* addrspacecast (void () addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* [[BL_A:@__block_literal_global(\.[0-9]+)?]] to void () addrspace(1)*) to void () addrspace(4)*), void () addrspace(4)** %block_A

+ // COMMON: store void () addrspace(4)* addrspacecast (void () addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to void () addrspace(1)*) to void () addrspace(4)*), void () addrspace(4)** %block_A

void (^const block_A)(void) = ^{

return;

};

- // COMMON: store void (i8 addrspace(3)*) addrspace(4)* addrspacecast (void (i8 addrspace(3)*) addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* [[BL_B:@__block_literal_global(\.[0-9]+)?]] to void (i8 addrspace(3)*) addrspace(1)*) to void (i8 addrspace(3)*) addrspace(4)*), void (i8 addrspace(3)*) addrspace(4)** %block_B

+ // Emits global block literal [[BLG9]] and invoke function [[INVG9]].

+ // COMMON: store void (i8 addrspace(3)*) addrspace(4)* addrspacecast (void (i8 addrspace(3)*) addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG9]] to void (i8 addrspace(3)*) addrspace(1)*) to void (i8 addrspace(3)*) addrspace(4)*), void (i8 addrspace(3)*) addrspace(4)** %block_B

void (^const block_B)(local void *) = ^(local void *a) {

return;

};

- // COMMON: call i32 @__get_kernel_work_group_size_impl(i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* [[BL_A]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ // Uses global block literal [[BLG8]] and invoke function [[INVG8]].

+ // COMMON: [[r1:%.*]] = load i8 addrspace(4)*, i8 addrspace(4)* addrspace(4)* getelementptr inbounds (%struct.__opencl_block_literal_generic, %struct.__opencl_block_literal_generic addrspace(4)* addrspacecast (%struct.__opencl_block_literal_generic addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to %struct.__opencl_block_literal_generic addrspace(1)*) to %struct.__opencl_block_literal_generic addrspace(4)*), i32 0, i32 2)

+ // COMMON: [[r2:%.*]] = addrspacecast i8 addrspace(4)* [[r1]] to void (i8 addrspace(4)*)*

+ // COMMON: call spir_func void [[r2]](i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ block_A();

+ // Emits global block literal [[BLG8]] and block kernel [[INVGK8]]. [[INVGK8]] calls [[INVG8]].

+ // COMMON: [[DEF_Q:%[0-9]+]] = load %opencl.queue_t{{.*}}*, %opencl.queue_t{{.*}}** %default_queue

+ // COMMON: [[FLAGS:%[0-9]+]] = load i32, i32* %flags

+ // COMMON-LABEL: call i32 @__enqueue_kernel_basic(

+ // COMMON-SAME: %opencl.queue_t{{.*}}* [[DEF_Q]], i32 [[FLAGS]], %struct.ndrange_t* byval [[NDR]]{{([0-9]+)?}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK8:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ enqueue_kernel(default_queue, flags, ndrange, block_A);

+ // Uses block kernel [[INVGK8]] and global block literal [[BLG8]].

+ // COMMON: call i32 @__get_kernel_work_group_size_impl(

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK8]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to i8 addrspace(1)*) to i8 addrspace(4)*))

unsigned size = get_kernel_work_group_size(block_A);

+ // Uses global block literal [[BLG8]] and invoke function [[INVG8]]. Make sure no redundant block literal and invoke functions are emitted.

+ // COMMON: [[r2:%.*]] = addrspacecast i8 addrspace(4)* [[r1]] to void (i8 addrspace(4)*)*

+ // COMMON: call spir_func void [[r2]](i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ block_A();

+ // Emits global block literal [[BLG9]] and block kernel [[INVGK9]]. [[INVGK9]] calls [[INV9]].

+ // COMMON: call i32 @__get_kernel_work_group_size_impl(

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK9:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG9]] to i8 addrspace(1)*) to i8 addrspace(4)*))

size = get_kernel_work_group_size(block_B);

- // COMMON: call i32 @__get_kernel_preferred_work_group_multiple_impl(i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i8**, i32, i32, i8*, %struct.__block_descriptor addrspace(2)* } addrspace(1)* [[BL_A]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ // Uses global block literal [[BLG8]] and block kernel [[INVGK8]]. Make sure no redundant block literal ind invoke functions are emitted.

+ // COMMON: call i32 @__get_kernel_preferred_work_group_multiple_impl(

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK8]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG8]] to i8 addrspace(1)*) to i8 addrspace(4)*))

size = get_kernel_preferred_work_group_size_multiple(block_A);

+ // Uses global block literal [[BL_GLOBAL]] and block kernel [[INV_G_K]]. [[INV_G_K]] calls [[INV_G]].

+ // COMMON: call i32 @__get_kernel_preferred_work_group_multiple_impl(

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INV_G_K:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BL_GLOBAL]] to i8 addrspace(1)*) to i8 addrspace(4)*))

size = get_kernel_preferred_work_group_size_multiple(block_G);

+ // Emits global block literal [[BLG10]] and block kernel [[INVGK10]].

+ // COMMON: call i32 @__get_kernel_max_sub_group_size_for_ndrange_impl(%struct.ndrange_t* {{[^,]+}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK10:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG10]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ size = get_kernel_max_sub_group_size_for_ndrange(ndrange, ^(){});

+ // Emits global block literal [[BLG11]] and block kernel [[INVGK11]].

+ // COMMON: call i32 @__get_kernel_sub_group_count_for_ndrange_impl(%struct.ndrange_t* {{[^,]+}},

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8* bitcast ({{.*}} [[INVGK11:[^ ]+_kernel]] to i8*) to i8 addrspace(4)*),

+ // COMMON-SAME: i8 addrspace(4)* addrspacecast (i8 addrspace(1)* bitcast ({ i32, i32, i8 addrspace(4)* } addrspace(1)* [[BLG11]] to i8 addrspace(1)*) to i8 addrspace(4)*))

+ size = get_kernel_sub_group_count_for_ndrange(ndrange, ^(){});

}

+// COMMON: define internal spir_kernel void [[INVLK1]](i8 addrspace(4)*) #{{[0-9]+}} {

+// COMMON: entry:

+// COMMON: call void @__device_side_enqueue_block_invoke(i8 addrspace(4)* %0)

+// COMMON: ret void

+// COMMON: }

+// COMMON: define internal spir_kernel void [[INVLK2]](i8 addrspace(4)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK1]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK2]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK3]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK4]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK5]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK6]](i8 addrspace(4)*, i8 addrspace(3)*, i8 addrspace(3)*, i8 addrspace(3)*) #{{[0-9]+}} {

+// COMMON: entry:

+// COMMON: call void @__device_side_enqueue_block_invoke_8(i8 addrspace(4)* %0, i8 addrspace(3)* %1, i8 addrspace(3)* %2, i8 addrspace(3)* %3)

+// COMMON: ret void

+// COMMON: }

+// COMMON: define internal spir_kernel void [[INVGK7]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_func void [[INVG8]](i8 addrspace(4)*{{.*}})

+// COMMON: define internal spir_func void [[INVG9]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)* %{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK8]](i8 addrspace(4)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK9]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INV_G_K]](i8 addrspace(4)*{{.*}}, i8 addrspace(3)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK10]](i8 addrspace(4)*{{.*}})

+// COMMON: define internal spir_kernel void [[INVGK11]](i8 addrspace(4)*{{.*}})

diff --git a/test/CodeGenOpenCL/convergent.cl b/test/CodeGenOpenCL/convergent.cl
index c6bcb52a6d75..285b637ca687 100644
--- a/test/CodeGenOpenCL/convergent.cl
+++ b/test/CodeGenOpenCL/convergent.cl

@@ -1,9 +1,19 @@

-// RUN: %clang_cc1 -triple spir-unknown-unknown -emit-llvm %s -o - | opt -instnamer -S | FileCheck %s

+// RUN: %clang_cc1 -triple spir-unknown-unknown -emit-llvm %s -o - | opt -instnamer -S | FileCheck -enable-var-scope %s

+// This is initially assumed convergent, but can be deduced to not require it.

+// CHECK-LABEL: define spir_func void @non_convfun() local_unnamed_addr #0

+// CHECK: ret void

+__attribute__((noinline))

+void non_convfun(void) {

+ volatile int* p;

+ *p = 0;

void convfun(void) __attribute__((convergent));

-void non_convfun(void);

void nodupfun(void) __attribute__((noduplicate));

+// External functions should be assumed convergent.

void f(void);

void g(void);

@@ -17,19 +27,23 @@ void g(void);

// non_convfun();

// }

-// CHECK: define spir_func void @test_merge_if(i32 %[[a:.+]])

-// CHECK: %[[tobool:.+]] = icmp eq i32 %[[a]], 0

+// CHECK-LABEL: define spir_func void @test_merge_if(i32 %a) local_unnamed_addr #1 {

+// CHECK: %[[tobool:.+]] = icmp eq i32 %a, 0

// CHECK: br i1 %[[tobool]], label %[[if_end3_critedge:.+]], label %[[if_then:.+]]

// CHECK: [[if_then]]:

// CHECK: tail call spir_func void @f()

// CHECK: tail call spir_func void @non_convfun()

// CHECK: tail call spir_func void @g()

// CHECK: br label %[[if_end3:.+]]

// CHECK: [[if_end3_critedge]]:

// CHECK: tail call spir_func void @non_convfun()

// CHECK: br label %[[if_end3]]

// CHECK: [[if_end3]]:

-// CHECK-LABEL: ret void

+// CHECK: ret void

void test_merge_if(int a) {

if (a) {

@@ -41,13 +55,13 @@ void test_merge_if(int a) {

}

-// CHECK-DAG: declare spir_func void @f()

-// CHECK-DAG: declare spir_func void @non_convfun()

-// CHECK-DAG: declare spir_func void @g()

+// CHECK-DAG: declare spir_func void @f() local_unnamed_addr #2

+// CHECK-DAG: declare spir_func void @g() local_unnamed_addr #2

// Test two if's are not merged.

-// CHECK: define spir_func void @test_no_merge_if(i32 %[[a:.+]])

-// CHECK: %[[tobool:.+]] = icmp eq i32 %[[a]], 0

+// CHECK-LABEL: define spir_func void @test_no_merge_if(i32 %a) local_unnamed_addr #1

+// CHECK: %[[tobool:.+]] = icmp eq i32 %a, 0

// CHECK: br i1 %[[tobool]], label %[[if_end:.+]], label %[[if_then:.+]]

// CHECK: [[if_then]]:

// CHECK: tail call spir_func void @f()

@@ -56,7 +70,7 @@ void test_merge_if(int a) {

// CHECK: br label %[[if_end]]

// CHECK: [[if_end]]:

// CHECK: %[[tobool_pr:.+]] = phi i1 [ true, %[[if_then]] ], [ false, %{{.+}} ]

-// CHECK: tail call spir_func void @convfun() #[[attr5:.+]]

+// CHECK: tail call spir_func void @convfun() #[[attr4:.+]]

// CHECK: br i1 %[[tobool_pr]], label %[[if_then2:.+]], label %[[if_end3:.+]]

// CHECK: [[if_then2]]:

// CHECK: tail call spir_func void @g()

@@ -74,20 +88,20 @@ void test_no_merge_if(int a) {

}

-// CHECK: declare spir_func void @convfun(){{[^#]*}} #[[attr2:[0-9]+]]

+// CHECK: declare spir_func void @convfun(){{[^#]*}} #2

// Test loop is unrolled for convergent function.

-// CHECK-LABEL: define spir_func void @test_unroll()

-// CHECK: tail call spir_func void @convfun() #[[attr5:[0-9]+]]

-// CHECK: tail call spir_func void @convfun() #[[attr5]]

+// CHECK-LABEL: define spir_func void @test_unroll() local_unnamed_addr #1

+// CHECK: tail call spir_func void @convfun() #[[attr4:[0-9]+]]

+// CHECK: tail call spir_func void @convfun() #[[attr4]]

// CHECK-LABEL: ret void

void test_unroll() {

@@ -101,7 +115,7 @@ void test_unroll() {

// CHECK: [[for_cond_cleanup:.+]]:

// CHECK: ret void

// CHECK: [[for_body]]:

-// CHECK: tail call spir_func void @nodupfun() #[[attr6:[0-9]+]]

+// CHECK: tail call spir_func void @nodupfun() #[[attr5:[0-9]+]]

// CHECK-NOT: call spir_func void @nodupfun()

// CHECK: br i1 %{{.+}}, label %[[for_body]], label %[[for_cond_cleanup]]

@@ -112,7 +126,16 @@ void test_not_unroll() {

// CHECK: declare spir_func void @nodupfun(){{[^#]*}} #[[attr3:[0-9]+]]

-// CHECK-DAG: attributes #[[attr2]] = { {{[^}]*}}convergent{{[^}]*}} }

-// CHECK-DAG: attributes #[[attr3]] = { {{[^}]*}}noduplicate{{[^}]*}} }

-// CHECK-DAG: attributes #[[attr5]] = { {{[^}]*}}convergent{{[^}]*}} }

-// CHECK-DAG: attributes #[[attr6]] = { {{[^}]*}}noduplicate{{[^}]*}} }

+// CHECK-LABEL: @assume_convergent_asm

+// CHECK: tail call void asm sideeffect "s_barrier", ""() #4

+kernel void assume_convergent_asm()

+ __asm__ volatile("s_barrier");

+// CHECK: attributes #0 = { noinline norecurse nounwind "

+// CHECK: attributes #1 = { {{[^}]*}}convergent{{[^}]*}} }

+// CHECK: attributes #2 = { {{[^}]*}}convergent{{[^}]*}} }

+// CHECK: attributes #3 = { {{[^}]*}}convergent noduplicate{{[^}]*}} }

+// CHECK: attributes #4 = { {{[^}]*}}convergent{{[^}]*}} }

+// CHECK: attributes #5 = { {{[^}]*}}convergent noduplicate{{[^}]*}} }

diff --git a/test/CodeGenOpenCL/func-call-dbg-loc.cl b/test/CodeGenOpenCL/func-call-dbg-loc.cl
new file mode 100644
index 000000000000..4ed082fa9f1c
--- /dev/null
+++ b/test/CodeGenOpenCL/func-call-dbg-loc.cl

@@ -0,0 +1,18 @@

+// RUN: %clang_cc1 -triple amdgcn---amdgizcl -debug-info-kind=limited -O0 -emit-llvm -o - %s | FileCheck %s

+typedef struct

+ int a;

+} Struct;

+Struct func1();

+void func2(Struct S);

+void func3()

+ // CHECK: call i32 @func1() #{{[0-9]+}}, !dbg ![[LOC:[0-9]+]]

+ // CHECK: call void @func2(i32 %{{[0-9]+}}) #{{[0-9]+}}, !dbg ![[LOC]]

+ func2(func1());

diff --git a/test/CodeGenOpenCL/kernel-arg-info.cl b/test/CodeGenOpenCL/kernel-arg-info.cl
index 463cc4451114..fa48ad28f767 100644
--- a/test/CodeGenOpenCL/kernel-arg-info.cl
+++ b/test/CodeGenOpenCL/kernel-arg-info.cl

@@ -78,6 +78,21 @@ kernel void foo5(myImage img1, write_only image1d_t img2) {

typedef char char16 __attribute__((ext_vector_type(16)));

__kernel void foo6(__global char16 arg[]) {}

// CHECK: !kernel_arg_type ![[MD61:[0-9]+]]

+// ARGINFO: !kernel_arg_name ![[MD62:[0-9]+]]

+typedef read_only image1d_t ROImage;

+typedef write_only image1d_t WOImage;

+typedef read_write image1d_t RWImage;

+kernel void foo7(ROImage ro, WOImage wo, RWImage rw) {

+// CHECK: define spir_kernel void @foo7{{[^!]+}}

+// CHECK: !kernel_arg_addr_space ![[MD71:[0-9]+]]

+// CHECK: !kernel_arg_access_qual ![[MD72:[0-9]+]]

+// CHECK: !kernel_arg_type ![[MD73:[0-9]+]]

+// CHECK: !kernel_arg_base_type ![[MD74:[0-9]+]]

+// CHECK: !kernel_arg_type_qual ![[MD75:[0-9]+]]

+// CHECK-NOT: !kernel_arg_name

+// ARGINFO: !kernel_arg_name ![[MD76:[0-9]+]]

// CHECK: ![[MD11]] = !{i32 1, i32 1, i32 1, i32 1, i32 2, i32 2, i32 1, i32 1, i32 1, i32 1, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 0, i32 0, i32 0, i32 0}

// CHECK: ![[MD12]] = !{!"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none", !"none"}

@@ -105,4 +120,11 @@ __kernel void foo6(__global char16 arg[]) {}

// CHECK: ![[MD53]] = !{!"image1d_t", !"image1d_t"}

// ARGINFO: ![[MD54]] = !{!"img1", !"img2"}

// CHECK: ![[MD61]] = !{!"char16*"}

+// ARGINFO: ![[MD62]] = !{!"arg"}

+// CHECK: ![[MD71]] = !{i32 1, i32 1, i32 1}

+// CHECK: ![[MD72]] = !{!"read_only", !"write_only", !"read_write"}

+// CHECK: ![[MD73]] = !{!"ROImage", !"WOImage", !"RWImage"}

+// CHECK: ![[MD74]] = !{!"image1d_t", !"image1d_t", !"image1d_t"}

+// CHECK: ![[MD75]] = !{!"", !"", !""}

+// ARGINFO: ![[MD76]] = !{!"ro", !"wo", !"rw"}

diff --git a/test/CodeGenOpenCL/no-half.cl b/test/CodeGenOpenCL/no-half.cl
new file mode 100644
index 000000000000..aee8f678f01a
--- /dev/null
+++ b/test/CodeGenOpenCL/no-half.cl

@@ -0,0 +1,39 @@

+// RUN: %clang_cc1 %s -cl-std=cl2.0 -emit-llvm -o - -triple spir-unknown-unknown | FileCheck %s

+// RUN: %clang_cc1 %s -cl-std=cl1.2 -emit-llvm -o - -triple spir-unknown-unknown | FileCheck %s

+// RUN: %clang_cc1 %s -cl-std=cl1.1 -emit-llvm -o - -triple spir-unknown-unknown | FileCheck %s

+#pragma OPENCL EXTENSION cl_khr_fp64:enable

+// CHECK-LABEL: @test_store_float(float %foo, half addrspace({{.}}){{.*}} %bar)

+__kernel void test_store_float(float foo, __global half* bar)

+ __builtin_store_halff(foo, bar);

+// CHECK: [[HALF_VAL:%.*]] = fptrunc float %foo to half

+// CHECK: store half [[HALF_VAL]], half addrspace({{.}})* %bar, align 2

+// CHECK-LABEL: @test_store_double(double %foo, half addrspace({{.}}){{.*}} %bar)

+__kernel void test_store_double(double foo, __global half* bar)

+ __builtin_store_half(foo, bar);

+// CHECK: [[HALF_VAL:%.*]] = fptrunc double %foo to half

+// CHECK: store half [[HALF_VAL]], half addrspace({{.}})* %bar, align 2

+// CHECK-LABEL: @test_load_float(float addrspace({{.}}){{.*}} %foo, half addrspace({{.}}){{.*}} %bar)

+__kernel void test_load_float(__global float* foo, __global half* bar)

+ foo[0] = __builtin_load_halff(bar);

+// CHECK: [[HALF_VAL:%.*]] = load half, half addrspace({{.}})* %bar

+// CHECK: [[FULL_VAL:%.*]] = fpext half [[HALF_VAL]] to float

+// CHECK: store float [[FULL_VAL]], float addrspace({{.}})* %foo

+// CHECK-LABEL: @test_load_double(double addrspace({{.}}){{.*}} %foo, half addrspace({{.}}){{.*}} %bar)

+__kernel void test_load_double(__global double* foo, __global half* bar)

+ foo[0] = __builtin_load_half(bar);

+// CHECK: [[HALF_VAL:%.*]] = load half, half addrspace({{.}})* %bar

+// CHECK: [[FULL_VAL:%.*]] = fpext half [[HALF_VAL]] to double

+// CHECK: store double [[FULL_VAL]], double addrspace({{.}})* %foo

diff --git a/test/CodeGenOpenCL/opencl_types.cl b/test/CodeGenOpenCL/opencl_types.cl
index 73c57b73098f..3501f9fd34e9 100644
--- a/test/CodeGenOpenCL/opencl_types.cl
+++ b/test/CodeGenOpenCL/opencl_types.cl

@@ -1,5 +1,5 @@

-// RUN: %clang_cc1 %s -triple "spir-unknown-unknown" -emit-llvm -o - -O0 | FileCheck %s --check-prefix=CHECK-SPIR

-// RUN: %clang_cc1 %s -triple "amdgcn--amdhsa" -emit-llvm -o - -O0 | FileCheck %s --check-prefix=CHECK-AMDGCN

+// RUN: %clang_cc1 -cl-std=CL2.0 %s -triple "spir-unknown-unknown" -emit-llvm -o - -O0 | FileCheck %s --check-prefixes=CHECK-COM,CHECK-SPIR

+// RUN: %clang_cc1 -cl-std=CL2.0 %s -triple "amdgcn--amdhsa" -emit-llvm -o - -O0 | FileCheck %s --check-prefixes=CHECK-COM,CHECK-AMDGCN

#define CLK_ADDRESS_CLAMP_TO_EDGE 2

#define CLK_NORMALIZED_COORDS_TRUE 1

@@ -7,7 +7,7 @@

#define CLK_FILTER_LINEAR 0x20

constant sampler_t glb_smp = CLK_ADDRESS_CLAMP_TO_EDGE|CLK_NORMALIZED_COORDS_TRUE|CLK_FILTER_NEAREST;

-// CHECK-SPIR-NOT: constant i32

+// CHECK-COM-NOT: constant i32

void fnc1(image1d_t img) {}

// CHECK-SPIR: @fnc1(%opencl.image1d_ro_t addrspace(1)*

@@ -39,16 +39,29 @@ void fnc4smp(sampler_t s) {}

kernel void foo(image1d_t img) {

sampler_t smp = CLK_ADDRESS_CLAMP_TO_EDGE|CLK_NORMALIZED_COORDS_TRUE|CLK_FILTER_LINEAR;

- // CHECK-SPIR: alloca %opencl.sampler_t addrspace(2)*

+ // CHECK-COM: alloca %opencl.sampler_t addrspace(2)*

event_t evt;

- // CHECK-SPIR: alloca %opencl.event_t*

- // CHECK-SPIR: store %opencl.sampler_t addrspace(2)*

+ // CHECK-COM: alloca %opencl.event_t*

+ clk_event_t clk_evt;

+ // CHECK-SPIR: alloca %opencl.clk_event_t*

+ // CHECK-AMDGCN: alloca %opencl.clk_event_t addrspace(1)*

+ queue_t queue;

+ // CHECK-SPIR: alloca %opencl.queue_t*

+ // CHECK-AMDGCN: alloca %opencl.queue_t addrspace(1)*

+ reserve_id_t rid;

+ // CHECK-SPIR: alloca %opencl.reserve_id_t*

+ // CHECK-AMDGCN: alloca %opencl.reserve_id_t addrspace(1)*

+ // CHECK-COM: store %opencl.sampler_t addrspace(2)*

fnc4smp(smp);

- // CHECK-SPIR: call {{.*}}void @fnc4smp(%opencl.sampler_t addrspace(2)*

+ // CHECK-COM: call {{.*}}void @fnc4smp(%opencl.sampler_t addrspace(2)*

fnc4smp(glb_smp);

- // CHECK-SPIR: call {{.*}}void @fnc4smp(%opencl.sampler_t addrspace(2)*

+ // CHECK-COM: call {{.*}}void @fnc4smp(%opencl.sampler_t addrspace(2)*

}

+kernel void foo_pipe(read_only pipe int p) {}

+// CHECK-SPIR: @foo_pipe(%opencl.pipe_t addrspace(1)* %p)

+// CHECK_AMDGCN: @foo_pipe(%opencl.pipe_t addrspace(1)* %p)

void __attribute__((overloadable)) bad1(image1d_t b, image2d_t c, image2d_t d) {}

// CHECK-SPIR-LABEL: @{{_Z4bad114ocl_image1d_ro14ocl_image2d_roS0_|"\\01\?bad1@@\$\$J0YAXPAUocl_image1d_ro@@PAUocl_image2d_ro@@1@Z"}}

// CHECK-AMDGCN-LABEL: @{{_Z4bad114ocl_image1d_ro14ocl_image2d_roS0_|"\\01\?bad1@@\$\$J0YAXPAUocl_image1d_ro@@PAUocl_image2d_ro@@1@Z"}}(%opencl.image1d_ro_t addrspace(2)*{{.*}}%opencl.image2d_ro_t addrspace(2)*{{.*}}%opencl.image2d_ro_t addrspace(2)*{{.*}})

diff --git a/test/CodeGenOpenCL/pipe_builtin.cl b/test/CodeGenOpenCL/pipe_builtin.cl
index a9b4ab630cef..4b4b4ef97ab2 100644
--- a/test/CodeGenOpenCL/pipe_builtin.cl
+++ b/test/CodeGenOpenCL/pipe_builtin.cl

@@ -1,8 +1,10 @@

-// RUN: %clang_cc1 -emit-llvm -O0 -cl-std=CL2.0 -o - %s | FileCheck %s

+// RUN: %clang_cc1 -emit-llvm -cl-ext=+cl_khr_subgroups -O0 -cl-std=CL2.0 -o - %s | FileCheck %s

// CHECK: %opencl.pipe_t = type opaque

// CHECK: %opencl.reserve_id_t = type opaque

+#pragma OPENCL EXTENSION cl_khr_subgroups : enable

void test1(read_only pipe int p, global int *ptr) {

// CHECK: call i32 @__read_pipe_2(%opencl.pipe_t* %{{.*}}, i8* %{{.*}}, i32 4, i32 4)

read_pipe(p, ptr);

diff --git a/test/CodeGenOpenCL/sampler.cl b/test/CodeGenOpenCL/sampler.cl
index 3a7319cd78d2..22976c57665f 100644
--- a/test/CodeGenOpenCL/sampler.cl
+++ b/test/CodeGenOpenCL/sampler.cl

@@ -20,6 +20,8 @@

constant sampler_t glb_smp = CLK_ADDRESS_CLAMP_TO_EDGE | CLK_NORMALIZED_COORDS_TRUE | CLK_FILTER_LINEAR;

// CHECK-NOT: glb_smp

+int get_sampler_initializer(void);

void fnc4smp(sampler_t s) {}

// CHECK: define spir_func void @fnc4smp(%opencl.sampler_t addrspace(2)* %

@@ -58,4 +60,20 @@ kernel void foo(sampler_t smp_par) {

fnc4smp(5);

// CHECK: [[SAMP:%[0-9]+]] = call %opencl.sampler_t addrspace(2)* @__translate_sampler_initializer(i32 5)

// CHECK: call spir_func void @fnc4smp(%opencl.sampler_t addrspace(2)* [[SAMP]])

+ const sampler_t const_smp = CLK_ADDRESS_CLAMP_TO_EDGE | CLK_NORMALIZED_COORDS_TRUE | CLK_FILTER_LINEAR;

+ fnc4smp(const_smp);

+ // CHECK: [[CONST_SAMP:%[0-9]+]] = call %opencl.sampler_t addrspace(2)* @__translate_sampler_initializer(i32 35)

+ // CHECK: store %opencl.sampler_t addrspace(2)* [[CONST_SAMP]], %opencl.sampler_t addrspace(2)** [[CONST_SMP_PTR:%[a-zA-Z0-9]+]]

+ fnc4smp(const_smp);

+ // CHECK: [[SAMP:%[0-9]+]] = load %opencl.sampler_t addrspace(2)*, %opencl.sampler_t addrspace(2)** [[CONST_SMP_PTR]]

+ // CHECK: call spir_func void @fnc4smp(%opencl.sampler_t addrspace(2)* [[SAMP]])

+ constant sampler_t constant_smp = CLK_ADDRESS_CLAMP_TO_EDGE | CLK_NORMALIZED_COORDS_TRUE | CLK_FILTER_LINEAR;

+ fnc4smp(constant_smp);

+ // CHECK: [[SAMP:%[0-9]+]] = call %opencl.sampler_t addrspace(2)* @__translate_sampler_initializer(i32 35)

+ // CHECK: call spir_func void @fnc4smp(%opencl.sampler_t addrspace(2)* [[SAMP]])

+ // TODO: enable sampler initialization with non-constant integer.

+ //const sampler_t const_smp_func_init = get_sampler_initializer();

}

diff --git a/test/CodeGenOpenCL/vectorLoadStore.cl b/test/CodeGenOpenCL/vectorLoadStore.cl
index 44bc7bd25d45..cb35e6f4689b 100644
--- a/test/CodeGenOpenCL/vectorLoadStore.cl
+++ b/test/CodeGenOpenCL/vectorLoadStore.cl

@@ -1,9 +1,22 @@

-// RUN: %clang_cc1 %s -emit-llvm -O0 -o - | FileCheck %s

+// RUN: %clang_cc1 -cl-std=CL2.0 -triple "spir-unknown-unknown" %s -emit-llvm -O0 -o - | FileCheck %s

-typedef char char3 __attribute((ext_vector_type(3)));;

+typedef char char2 __attribute((ext_vector_type(2)));

+typedef char char3 __attribute((ext_vector_type(3)));

+typedef char char8 __attribute((ext_vector_type(8)));

+typedef float float4 __attribute((ext_vector_type(4)));

// Check for optimized vec3 load/store which treats vec3 as vec4.

void foo(char3 *P, char3 *Q) {

*P = *Q;

// CHECK: %{{.*}} = shufflevector <4 x i8> %{{.*}}, <4 x i8> undef, <3 x i32> <i32 0, i32 1, i32 2>

}

+// CHECK: define spir_func void @alignment()

+void alignment() {

+ __private char2 data_generic[100];

+ __private char8 data_private[100];

+ // CHECK: %{{.*}} = load <4 x float>, <4 x float> addrspace(4)* %{{.*}}, align 2

+ // CHECK: store <4 x float> %{{.*}}, <4 x float>* %{{.*}}, align 8

+ ((private float4 *)data_private)[1] = ((float4 *)data_generic)[2];