llvm.org GIT mirror llvm / 2a5dcad
Merging r367412 and r367429: ------------------------------------------------------------------------ r367412 | rksimon | 2019-07-31 13:35:01 +0200 (Wed, 31 Jul 2019) | 1 line [X86][AVX] Add reduced test case for PR42833 ------------------------------------------------------------------------ ------------------------------------------------------------------------ r367429 | rksimon | 2019-07-31 14:55:39 +0200 (Wed, 31 Jul 2019) | 3 lines [X86][AVX] Ensure chained subvector insertions are the same size (PR42833) Before combining insert_subvector(insert_subvector(vec, sub0, c0), sub1, c1) patterns, ensure that the subvectors are all the same type. On AVX512 targets especially we might have a mixture of 128/256 subvector insertions. ------------------------------------------------------------------------ git-svn-id: https://llvm.org/svn/llvm-project/llvm/branches/release_90@369362 91177308-0d34-0410-b5e6-96231b3b80d8 Hans Wennborg 1 year, 3 months ago
2 changed file(s) with 238 addition(s) and 0 deletion(s). Raw diff Collapse all Expand all
55045504 if (VT.getSizeInBits() == (SubVT.getSizeInBits() * 2) &&
55055505 Idx == (VT.getVectorNumElements() / 2) &&
55065506 Src.getOpcode() == ISD::INSERT_SUBVECTOR &&
5507 Src.getOperand(1).getValueType() == SubVT &&
55075508 isNullConstant(Src.getOperand(2))) {
55085509 Ops.push_back(Src.getOperand(1));
55095510 Ops.push_back(Sub);
4383943840 Vec.getOpcode() == ISD::INSERT_SUBVECTOR &&
4384043841 OpVT.getSizeInBits() == SubVecVT.getSizeInBits() * 2 &&
4384143842 isNullConstant(Vec.getOperand(2)) && !Vec.getOperand(0).isUndef() &&
43843 Vec.getOperand(1).getValueSizeInBits() == SubVecVT.getSizeInBits() &&
4384243844 Vec.hasOneUse()) {
4384343845 Vec = DAG.getNode(ISD::INSERT_SUBVECTOR, dl, OpVT, DAG.getUNDEF(OpVT),
4384443846 Vec.getOperand(1), Vec.getOperand(2));
189189 %3 = shufflevector <16 x i32> zeroinitializer, <16 x i32> %2, <16 x i32>
190190 ret <16 x i32> %3
191191 }
192
193 @b = dso_local local_unnamed_addr global i32 0, align 4
194 @c = dso_local local_unnamed_addr global [49 x i32] zeroinitializer, align 16
195 @d = dso_local local_unnamed_addr global [49 x i32] zeroinitializer, align 16
196
197 define void @PR42833() {
198 ; SSE2-LABEL: PR42833:
199 ; SSE2: # %bb.0:
200 ; SSE2-NEXT: movdqa c+{{.*}}(%rip), %xmm1
201 ; SSE2-NEXT: movdqa c+{{.*}}(%rip), %xmm0
202 ; SSE2-NEXT: movd %xmm0, %eax
203 ; SSE2-NEXT: addl {{.*}}(%rip), %eax
204 ; SSE2-NEXT: movd %eax, %xmm2
205 ; SSE2-NEXT: movaps {{.*#+}} xmm3 =
206 ; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm2[0],xmm3[1,2,3]
207 ; SSE2-NEXT: movdqa %xmm0, %xmm4
208 ; SSE2-NEXT: paddd %xmm3, %xmm4
209 ; SSE2-NEXT: pslld $23, %xmm3
210 ; SSE2-NEXT: paddd {{.*}}(%rip), %xmm3
211 ; SSE2-NEXT: cvttps2dq %xmm3, %xmm3
212 ; SSE2-NEXT: movdqa %xmm0, %xmm5
213 ; SSE2-NEXT: pmuludq %xmm3, %xmm5
214 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
215 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
216 ; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
217 ; SSE2-NEXT: pmuludq %xmm3, %xmm6
218 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[0,2,2,3]
219 ; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
220 ; SSE2-NEXT: movss {{.*#+}} xmm5 = xmm4[0],xmm5[1,2,3]
221 ; SSE2-NEXT: movdqa d+{{.*}}(%rip), %xmm3
222 ; SSE2-NEXT: psubd %xmm1, %xmm3
223 ; SSE2-NEXT: paddd %xmm1, %xmm1
224 ; SSE2-NEXT: movdqa %xmm1, c+{{.*}}(%rip)
225 ; SSE2-NEXT: movaps %xmm5, c+{{.*}}(%rip)
226 ; SSE2-NEXT: movdqa c+{{.*}}(%rip), %xmm1
227 ; SSE2-NEXT: movdqa c+{{.*}}(%rip), %xmm4
228 ; SSE2-NEXT: movdqa d+{{.*}}(%rip), %xmm5
229 ; SSE2-NEXT: movdqa d+{{.*}}(%rip), %xmm6
230 ; SSE2-NEXT: movdqa d+{{.*}}(%rip), %xmm7
231 ; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]
232 ; SSE2-NEXT: psubd %xmm0, %xmm7
233 ; SSE2-NEXT: psubd %xmm4, %xmm6
234 ; SSE2-NEXT: psubd %xmm1, %xmm5
235 ; SSE2-NEXT: movdqa %xmm5, d+{{.*}}(%rip)
236 ; SSE2-NEXT: movdqa %xmm6, d+{{.*}}(%rip)
237 ; SSE2-NEXT: movdqa %xmm3, d+{{.*}}(%rip)
238 ; SSE2-NEXT: movdqa %xmm7, d+{{.*}}(%rip)
239 ; SSE2-NEXT: paddd %xmm4, %xmm4
240 ; SSE2-NEXT: paddd %xmm1, %xmm1
241 ; SSE2-NEXT: movdqa %xmm1, c+{{.*}}(%rip)
242 ; SSE2-NEXT: movdqa %xmm4, c+{{.*}}(%rip)
243 ; SSE2-NEXT: retq
244 ;
245 ; SSE42-LABEL: PR42833:
246 ; SSE42: # %bb.0:
247 ; SSE42-NEXT: movdqa c+{{.*}}(%rip), %xmm1
248 ; SSE42-NEXT: movdqa c+{{.*}}(%rip), %xmm0
249 ; SSE42-NEXT: movd %xmm0, %eax
250 ; SSE42-NEXT: addl {{.*}}(%rip), %eax
251 ; SSE42-NEXT: movdqa {{.*#+}} xmm2 =
252 ; SSE42-NEXT: pinsrd $0, %eax, %xmm2
253 ; SSE42-NEXT: movdqa %xmm0, %xmm3
254 ; SSE42-NEXT: paddd %xmm2, %xmm3
255 ; SSE42-NEXT: pslld $23, %xmm2
256 ; SSE42-NEXT: paddd {{.*}}(%rip), %xmm2
257 ; SSE42-NEXT: cvttps2dq %xmm2, %xmm2
258 ; SSE42-NEXT: pmulld %xmm0, %xmm2
259 ; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm3[0,1],xmm2[2,3,4,5,6,7]
260 ; SSE42-NEXT: movdqa d+{{.*}}(%rip), %xmm3
261 ; SSE42-NEXT: psubd %xmm1, %xmm3
262 ; SSE42-NEXT: paddd %xmm1, %xmm1
263 ; SSE42-NEXT: movdqa %xmm1, c+{{.*}}(%rip)
264 ; SSE42-NEXT: movdqa %xmm2, c+{{.*}}(%rip)
265 ; SSE42-NEXT: movdqa c+{{.*}}(%rip), %xmm1
266 ; SSE42-NEXT: movdqa c+{{.*}}(%rip), %xmm2
267 ; SSE42-NEXT: movdqa d+{{.*}}(%rip), %xmm4
268 ; SSE42-NEXT: movdqa d+{{.*}}(%rip), %xmm5
269 ; SSE42-NEXT: movdqa d+{{.*}}(%rip), %xmm6
270 ; SSE42-NEXT: pinsrd $0, %eax, %xmm0
271 ; SSE42-NEXT: psubd %xmm0, %xmm6
272 ; SSE42-NEXT: psubd %xmm2, %xmm5
273 ; SSE42-NEXT: psubd %xmm1, %xmm4
274 ; SSE42-NEXT: movdqa %xmm4, d+{{.*}}(%rip)
275 ; SSE42-NEXT: movdqa %xmm5, d+{{.*}}(%rip)
276 ; SSE42-NEXT: movdqa %xmm3, d+{{.*}}(%rip)
277 ; SSE42-NEXT: movdqa %xmm6, d+{{.*}}(%rip)
278 ; SSE42-NEXT: paddd %xmm2, %xmm2
279 ; SSE42-NEXT: paddd %xmm1, %xmm1
280 ; SSE42-NEXT: movdqa %xmm1, c+{{.*}}(%rip)
281 ; SSE42-NEXT: movdqa %xmm2, c+{{.*}}(%rip)
282 ; SSE42-NEXT: retq
283 ;
284 ; AVX1-LABEL: PR42833:
285 ; AVX1: # %bb.0:
286 ; AVX1-NEXT: vmovdqa c+{{.*}}(%rip), %xmm0
287 ; AVX1-NEXT: vmovd %xmm0, %eax
288 ; AVX1-NEXT: addl {{.*}}(%rip), %eax
289 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 =
290 ; AVX1-NEXT: vpinsrd $0, %eax, %xmm1, %xmm1
291 ; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm2
292 ; AVX1-NEXT: vmovdqa c+{{.*}}(%rip), %xmm3
293 ; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
294 ; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1
295 ; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
296 ; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm1
297 ; AVX1-NEXT: vpslld $1, %xmm3, %xmm3
298 ; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
299 ; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0],ymm1[1,2,3,4,5,6,7]
300 ; AVX1-NEXT: vmovdqa d+{{.*}}(%rip), %xmm2
301 ; AVX1-NEXT: vpsubd c+{{.*}}(%rip), %xmm2, %xmm2
302 ; AVX1-NEXT: vmovups %ymm1, c+{{.*}}(%rip)
303 ; AVX1-NEXT: vpinsrd $0, %eax, %xmm0, %xmm0
304 ; AVX1-NEXT: vmovdqa d+{{.*}}(%rip), %xmm1
305 ; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm0
306 ; AVX1-NEXT: vmovdqa d+{{.*}}(%rip), %xmm1
307 ; AVX1-NEXT: vmovdqa c+{{.*}}(%rip), %xmm3
308 ; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
309 ; AVX1-NEXT: vmovdqa d+{{.*}}(%rip), %xmm4
310 ; AVX1-NEXT: vmovdqa c+{{.*}}(%rip), %xmm5
311 ; AVX1-NEXT: vpsubd %xmm5, %xmm4, %xmm4
312 ; AVX1-NEXT: vmovdqa %xmm2, d+{{.*}}(%rip)
313 ; AVX1-NEXT: vmovdqa %xmm4, d+{{.*}}(%rip)
314 ; AVX1-NEXT: vmovdqa %xmm1, d+{{.*}}(%rip)
315 ; AVX1-NEXT: vmovdqa %xmm0, d+{{.*}}(%rip)
316 ; AVX1-NEXT: vpaddd %xmm3, %xmm3, %xmm0
317 ; AVX1-NEXT: vpaddd %xmm5, %xmm5, %xmm1
318 ; AVX1-NEXT: vmovdqa %xmm1, c+{{.*}}(%rip)
319 ; AVX1-NEXT: vmovdqa %xmm0, c+{{.*}}(%rip)
320 ; AVX1-NEXT: vzeroupper
321 ; AVX1-NEXT: retq
322 ;
323 ; AVX2-LABEL: PR42833:
324 ; AVX2: # %bb.0:
325 ; AVX2-NEXT: movl {{.*}}(%rip), %eax
326 ; AVX2-NEXT: vmovdqu c+{{.*}}(%rip), %ymm0
327 ; AVX2-NEXT: addl c+{{.*}}(%rip), %eax
328 ; AVX2-NEXT: vmovd %eax, %xmm1
329 ; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0],mem[1,2,3,4,5,6,7]
330 ; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm3
331 ; AVX2-NEXT: vpsllvd %ymm2, %ymm0, %ymm2
332 ; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm3[0],ymm2[1,2,3,4,5,6,7]
333 ; AVX2-NEXT: vmovdqu %ymm2, c+{{.*}}(%rip)
334 ; AVX2-NEXT: vmovdqu c+{{.*}}(%rip), %ymm2
335 ; AVX2-NEXT: vmovdqu d+{{.*}}(%rip), %ymm3
336 ; AVX2-NEXT: vmovdqu d+{{.*}}(%rip), %ymm4
337 ; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]
338 ; AVX2-NEXT: vpsubd %ymm0, %ymm4, %ymm0
339 ; AVX2-NEXT: vpsubd %ymm2, %ymm3, %ymm1
340 ; AVX2-NEXT: vmovdqu %ymm1, d+{{.*}}(%rip)
341 ; AVX2-NEXT: vmovdqu %ymm0, d+{{.*}}(%rip)
342 ; AVX2-NEXT: vpaddd %ymm2, %ymm2, %ymm0
343 ; AVX2-NEXT: vmovdqu %ymm0, c+{{.*}}(%rip)
344 ; AVX2-NEXT: vzeroupper
345 ; AVX2-NEXT: retq
346 ;
347 ; AVX512-LABEL: PR42833:
348 ; AVX512: # %bb.0:
349 ; AVX512-NEXT: movl {{.*}}(%rip), %eax
350 ; AVX512-NEXT: vmovdqu c+{{.*}}(%rip), %ymm0
351 ; AVX512-NEXT: vmovdqu64 c+{{.*}}(%rip), %zmm1
352 ; AVX512-NEXT: addl c+{{.*}}(%rip), %eax
353 ; AVX512-NEXT: vmovd %eax, %xmm2
354 ; AVX512-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0],mem[1,2,3,4,5,6,7]
355 ; AVX512-NEXT: vpaddd %ymm2, %ymm0, %ymm3
356 ; AVX512-NEXT: vpsllvd %ymm2, %ymm0, %ymm0
357 ; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm3[0],ymm0[1,2,3,4,5,6,7]
358 ; AVX512-NEXT: vmovdqa c+{{.*}}(%rip), %xmm2
359 ; AVX512-NEXT: vmovdqu %ymm0, c+{{.*}}(%rip)
360 ; AVX512-NEXT: vmovdqu c+{{.*}}(%rip), %ymm0
361 ; AVX512-NEXT: vmovdqu64 d+{{.*}}(%rip), %zmm3
362 ; AVX512-NEXT: vpinsrd $0, %eax, %xmm2, %xmm2
363 ; AVX512-NEXT: vinserti32x4 $0, %xmm2, %zmm1, %zmm1
364 ; AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm1
365 ; AVX512-NEXT: vpsubd %zmm1, %zmm3, %zmm1
366 ; AVX512-NEXT: vmovdqu64 %zmm1, d+{{.*}}(%rip)
367 ; AVX512-NEXT: vpaddd %ymm0, %ymm0, %ymm0
368 ; AVX512-NEXT: vmovdqu %ymm0, c+{{.*}}(%rip)
369 ; AVX512-NEXT: vzeroupper
370 ; AVX512-NEXT: retq
371 ;
372 ; XOP-LABEL: PR42833:
373 ; XOP: # %bb.0:
374 ; XOP-NEXT: vmovdqa c+{{.*}}(%rip), %xmm0
375 ; XOP-NEXT: vmovd %xmm0, %eax
376 ; XOP-NEXT: addl {{.*}}(%rip), %eax
377 ; XOP-NEXT: vmovdqa {{.*#+}} xmm1 =
378 ; XOP-NEXT: vpinsrd $0, %eax, %xmm1, %xmm1
379 ; XOP-NEXT: vpaddd %xmm1, %xmm0, %xmm2
380 ; XOP-NEXT: vmovdqa c+{{.*}}(%rip), %xmm3
381 ; XOP-NEXT: vpshld %xmm1, %xmm0, %xmm1
382 ; XOP-NEXT: vpslld $1, %xmm3, %xmm3
383 ; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
384 ; XOP-NEXT: vblendps {{.*#+}} ymm1 = ymm2[0],ymm1[1,2,3,4,5,6,7]
385 ; XOP-NEXT: vmovdqa d+{{.*}}(%rip), %xmm2
386 ; XOP-NEXT: vpsubd c+{{.*}}(%rip), %xmm2, %xmm2
387 ; XOP-NEXT: vmovups %ymm1, c+{{.*}}(%rip)
388 ; XOP-NEXT: vpinsrd $0, %eax, %xmm0, %xmm0
389 ; XOP-NEXT: vmovdqa d+{{.*}}(%rip), %xmm1
390 ; XOP-NEXT: vpsubd %xmm0, %xmm1, %xmm0
391 ; XOP-NEXT: vmovdqa d+{{.*}}(%rip), %xmm1
392 ; XOP-NEXT: vmovdqa c+{{.*}}(%rip), %xmm3
393 ; XOP-NEXT: vpsubd %xmm3, %xmm1, %xmm1
394 ; XOP-NEXT: vmovdqa d+{{.*}}(%rip), %xmm4
395 ; XOP-NEXT: vmovdqa c+{{.*}}(%rip), %xmm5
396 ; XOP-NEXT: vpsubd %xmm5, %xmm4, %xmm4
397 ; XOP-NEXT: vmovdqa %xmm2, d+{{.*}}(%rip)
398 ; XOP-NEXT: vmovdqa %xmm4, d+{{.*}}(%rip)
399 ; XOP-NEXT: vmovdqa %xmm1, d+{{.*}}(%rip)
400 ; XOP-NEXT: vmovdqa %xmm0, d+{{.*}}(%rip)
401 ; XOP-NEXT: vpaddd %xmm3, %xmm3, %xmm0
402 ; XOP-NEXT: vpaddd %xmm5, %xmm5, %xmm1
403 ; XOP-NEXT: vmovdqa %xmm1, c+{{.*}}(%rip)
404 ; XOP-NEXT: vmovdqa %xmm0, c+{{.*}}(%rip)
405 ; XOP-NEXT: vzeroupper
406 ; XOP-NEXT: retq
407 %1 = load i32, i32* @b, align 4
408 %2 = load <8 x i32>, <8 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @c, i64 0, i64 32) to <8 x i32>*), align 16
409 %3 = shufflevector <8 x i32> %2, <8 x i32> undef, <16 x i32>
410 %4 = extractelement <8 x i32> %2, i32 0
411 %5 = add i32 %1, %4
412 %6 = insertelement <8 x i32> , i32 %5, i32 0
413 %7 = add <8 x i32> %2, %6
414 %8 = shl <8 x i32> %2, %6
415 %9 = shufflevector <8 x i32> %7, <8 x i32> %8, <8 x i32>
416 store <8 x i32> %9, <8 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @c, i64 0, i64 32) to <8 x i32>*), align 16
417 %10 = load <8 x i32>, <8 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @c, i64 0, i64 40) to <8 x i32>*), align 16
418 %11 = shufflevector <8 x i32> %10, <8 x i32> undef, <16 x i32>
419 %12 = load <16 x i32>, <16 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @d, i64 0, i64 32) to <16 x i32>*), align 16
420 %13 = insertelement <16 x i32> %3, i32 %5, i32 0
421 %14 = shufflevector <16 x i32> %13, <16 x i32> %11, <16 x i32>
422 %15 = sub <16 x i32> %12, %14
423 store <16 x i32> %15, <16 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @d, i64 0, i64 32) to <16 x i32>*), align 16
424 %16 = shl <8 x i32> %10,
425 store <8 x i32> %16, <8 x i32>* bitcast (i32* getelementptr inbounds ([49 x i32], [49 x i32]* @c, i64 0, i64 40) to <8 x i32>*), align 16
426 ret void
427 }