src - FreeBSD source tree

diff options


context:
space:
mode:

author	Dimitry Andric <dim@FreeBSD.org>	2019-08-20 20:50:12 +0000
committer	Dimitry Andric <dim@FreeBSD.org>	2019-08-20 20:50:12 +0000
commit	e6d1592492a3a379186bfb02bd0f4eda0669c0d5 (patch)
tree	599ab169a01f1c86eda9adc774edaedde2f2db5b /lib/Target/AMDGPU/SIFrameLowering.cpp
parent	1a56a5ead7a2e84bee8240f5f6b033b5f1707154 (diff)

vendor/llvm/llvm-trunk-r366426

Diffstat (limited to 'lib/Target/AMDGPU/SIFrameLowering.cpp')

-rw-r--r--

lib/Target/AMDGPU/SIFrameLowering.cpp

810

1 files changed, 560 insertions, 250 deletions

diff --git a/lib/Target/AMDGPU/SIFrameLowering.cpp b/lib/Target/AMDGPU/SIFrameLowering.cpp
index e4633c88e18f..feab6bed2603 100644
--- a/lib/Target/AMDGPU/SIFrameLowering.cpp
+++ b/lib/Target/AMDGPU/SIFrameLowering.cpp

@@ -1,9 +1,8 @@

//===----------------------- SIFrameLowering.cpp --------------------------===//

-// The LLVM Compiler Infrastructure

-//

-// This file is distributed under the University of Illinois Open Source

-// License. See LICENSE.TXT for details.

+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

+// See https://llvm.org/LICENSE.txt for license information.

+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//==-----------------------------------------------------------------------===//

@@ -22,6 +21,8 @@

using namespace llvm;

+#define DEBUG_TYPE "frame-info"

static ArrayRef<MCPhysReg> getAllSGPR128(const GCNSubtarget &ST,

const MachineFunction &MF) {

@@ -35,6 +36,150 @@ static ArrayRef<MCPhysReg> getAllSGPRs(const GCNSubtarget &ST,

ST.getMaxNumSGPRs(MF));

}

+// Find a scratch register that we can use at the start of the prologue to

+// re-align the stack pointer. We avoid using callee-save registers since they

+// may appear to be free when this is called from canUseAsPrologue (during

+// shrink wrapping), but then no longer be free when this is called from

+// emitPrologue.

+//

+// FIXME: This is a bit conservative, since in the above case we could use one

+// of the callee-save registers as a scratch temp to re-align the stack pointer,

+// but we would then have to make sure that we were in fact saving at least one

+// callee-save register in the prologue, which is additional complexity that

+// doesn't seem worth the benefit.

+static unsigned findScratchNonCalleeSaveRegister(MachineRegisterInfo &MRI,

+ LivePhysRegs &LiveRegs,

+ const TargetRegisterClass &RC,

+ bool Unused = false) {

+ // Mark callee saved registers as used so we will not choose them.

+ const MCPhysReg *CSRegs = MRI.getCalleeSavedRegs();

+ for (unsigned i = 0; CSRegs[i]; ++i)

+ LiveRegs.addReg(CSRegs[i]);

+ if (Unused) {

+ // We are looking for a register that can be used throughout the entire

+ // function, so any use is unacceptable.

+ for (unsigned Reg : RC) {

+ if (!MRI.isPhysRegUsed(Reg) && LiveRegs.available(MRI, Reg))

+ return Reg;

+ }

+ } else {

+ for (unsigned Reg : RC) {

+ if (LiveRegs.available(MRI, Reg))

+ return Reg;

+ }

+ // If we require an unused register, this is used in contexts where failure is

+ // an option and has an alternative plan. In other contexts, this must

+ // succeed0.

+ if (!Unused)

+ report_fatal_error("failed to find free scratch register");

+ return AMDGPU::NoRegister;

+static MCPhysReg findUnusedSGPRNonCalleeSaved(MachineRegisterInfo &MRI) {

+ LivePhysRegs LiveRegs;

+ LiveRegs.init(*MRI.getTargetRegisterInfo());

+ return findScratchNonCalleeSaveRegister(

+ MRI, LiveRegs, AMDGPU::SReg_32_XM0_XEXECRegClass, true);

+// We need to specially emit stack operations here because a different frame

+// register is used than in the rest of the function, as getFrameRegister would

+// use.

+static void buildPrologSpill(LivePhysRegs &LiveRegs, MachineBasicBlock &MBB,

+ MachineBasicBlock::iterator I,

+ const SIInstrInfo *TII, unsigned SpillReg,

+ unsigned ScratchRsrcReg, unsigned SPReg, int FI) {

+ MachineFunction *MF = MBB.getParent();

+ MachineFrameInfo &MFI = MF->getFrameInfo();

+ int64_t Offset = MFI.getObjectOffset(FI);

+ MachineMemOperand *MMO = MF->getMachineMemOperand(

+ MachinePointerInfo::getFixedStack(*MF, FI), MachineMemOperand::MOStore, 4,

+ MFI.getObjectAlignment(FI));

+ if (isUInt<12>(Offset)) {

+ BuildMI(MBB, I, DebugLoc(), TII->get(AMDGPU::BUFFER_STORE_DWORD_OFFSET))

+ .addReg(SpillReg, RegState::Kill)

+ .addReg(ScratchRsrcReg)

+ .addReg(SPReg)

+ .addImm(Offset)

+ .addImm(0) // glc

+ .addImm(0) // slc

+ .addImm(0) // tfe

+ .addImm(0) // dlc

+ .addMemOperand(MMO);

+ return;

+ }

+ MCPhysReg OffsetReg = findScratchNonCalleeSaveRegister(

+ MF->getRegInfo(), LiveRegs, AMDGPU::VGPR_32RegClass);

+ BuildMI(MBB, I, DebugLoc(), TII->get(AMDGPU::V_MOV_B32_e32), OffsetReg)

+ .addImm(Offset);

+ BuildMI(MBB, I, DebugLoc(), TII->get(AMDGPU::BUFFER_STORE_DWORD_OFFEN))

+ .addReg(SpillReg, RegState::Kill)

+ .addReg(OffsetReg, RegState::Kill)

+ .addReg(ScratchRsrcReg)

+ .addReg(SPReg)

+ .addImm(0)

+ .addImm(0) // glc

+ .addImm(0) // slc

+ .addImm(0) // tfe

+ .addImm(0) // dlc

+ .addMemOperand(MMO);

+static void buildEpilogReload(LivePhysRegs &LiveRegs, MachineBasicBlock &MBB,

+ MachineBasicBlock::iterator I,

+ const SIInstrInfo *TII, unsigned SpillReg,

+ unsigned ScratchRsrcReg, unsigned SPReg, int FI) {

+ MachineFunction *MF = MBB.getParent();

+ MachineFrameInfo &MFI = MF->getFrameInfo();

+ int64_t Offset = MFI.getObjectOffset(FI);

+ MachineMemOperand *MMO = MF->getMachineMemOperand(

+ MachinePointerInfo::getFixedStack(*MF, FI), MachineMemOperand::MOLoad, 4,

+ MFI.getObjectAlignment(FI));

+ if (isUInt<12>(Offset)) {

+ BuildMI(MBB, I, DebugLoc(),

+ TII->get(AMDGPU::BUFFER_LOAD_DWORD_OFFSET), SpillReg)

+ .addReg(ScratchRsrcReg)

+ .addReg(SPReg)

+ .addImm(Offset)

+ .addImm(0) // glc

+ .addImm(0) // slc

+ .addImm(0) // tfe

+ .addImm(0) // dlc

+ .addMemOperand(MMO);

+ return;

+ }

+ MCPhysReg OffsetReg = findScratchNonCalleeSaveRegister(

+ MF->getRegInfo(), LiveRegs, AMDGPU::VGPR_32RegClass);

+ BuildMI(MBB, I, DebugLoc(), TII->get(AMDGPU::V_MOV_B32_e32), OffsetReg)

+ .addImm(Offset);

+ BuildMI(MBB, I, DebugLoc(),

+ TII->get(AMDGPU::BUFFER_LOAD_DWORD_OFFEN), SpillReg)

+ .addReg(OffsetReg, RegState::Kill)

+ .addReg(ScratchRsrcReg)

+ .addReg(SPReg)

+ .addImm(0)

+ .addImm(0) // glc

+ .addImm(0) // slc

+ .addImm(0) // tfe

+ .addImm(0) // dlc

+ .addMemOperand(MMO);

void SIFrameLowering::emitFlatScratchInit(const GCNSubtarget &ST,

MachineFunction &MF,

MachineBasicBlock &MBB) const {

@@ -71,6 +216,24 @@ void SIFrameLowering::emitFlatScratchInit(const GCNSubtarget &ST,

// Do a 64-bit pointer add.

if (ST.flatScratchIsPointer()) {

+ if (ST.getGeneration() >= AMDGPUSubtarget::GFX10) {

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADD_U32), FlatScrInitLo)

+ .addReg(FlatScrInitLo)

+ .addReg(ScratchWaveOffsetReg);

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADDC_U32), FlatScrInitHi)

+ .addReg(FlatScrInitHi)

+ .addImm(0);

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::S_SETREG_B32)).

+ addReg(FlatScrInitLo).

+ addImm(int16_t(AMDGPU::Hwreg::ID_FLAT_SCR_LO |

+ (31 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_)));

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::S_SETREG_B32)).

+ addReg(FlatScrInitHi).

+ addImm(int16_t(AMDGPU::Hwreg::ID_FLAT_SCR_HI |

+ (31 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_)));

+ return;

+ }

BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADD_U32), AMDGPU::FLAT_SCR_LO)

.addReg(FlatScrInitLo)

.addReg(ScratchWaveOffsetReg);

@@ -81,6 +244,8 @@ void SIFrameLowering::emitFlatScratchInit(const GCNSubtarget &ST,

return;

}

+ assert(ST.getGeneration() < AMDGPUSubtarget::GFX10);

// Copy the size in bytes.

BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), AMDGPU::FLAT_SCR_LO)

.addReg(FlatScrInitHi, RegState::Kill);

@@ -145,34 +310,30 @@ unsigned SIFrameLowering::getReservedPrivateSegmentBufferReg(

return ScratchRsrcReg;

}

-// Shift down registers reserved for the scratch wave offset and stack pointer

-// SGPRs.

-std::pair<unsigned, unsigned>

+// Shift down registers reserved for the scratch wave offset.

+std::pair<unsigned, bool>

SIFrameLowering::getReservedPrivateSegmentWaveByteOffsetReg(

- const GCNSubtarget &ST,

- const SIInstrInfo *TII,

- const SIRegisterInfo *TRI,

- SIMachineFunctionInfo *MFI,

- MachineFunction &MF) const {

+ const GCNSubtarget &ST, const SIInstrInfo *TII, const SIRegisterInfo *TRI,

+ SIMachineFunctionInfo *MFI, MachineFunction &MF) const {

MachineRegisterInfo &MRI = MF.getRegInfo();

unsigned ScratchWaveOffsetReg = MFI->getScratchWaveOffsetReg();

+ assert(MFI->isEntryFunction());

// No replacement necessary.

if (ScratchWaveOffsetReg == AMDGPU::NoRegister ||

- !MRI.isPhysRegUsed(ScratchWaveOffsetReg)) {

- assert(MFI->getStackPtrOffsetReg() == AMDGPU::SP_REG);

- return std::make_pair(AMDGPU::NoRegister, AMDGPU::NoRegister);

+ (!hasFP(MF) && !MRI.isPhysRegUsed(ScratchWaveOffsetReg))) {

+ return std::make_pair(AMDGPU::NoRegister, false);

}

- unsigned SPReg = MFI->getStackPtrOffsetReg();

if (ST.hasSGPRInitBug())

- return std::make_pair(ScratchWaveOffsetReg, SPReg);

+ return std::make_pair(ScratchWaveOffsetReg, false);

unsigned NumPreloaded = MFI->getNumPreloadedSGPRs();

ArrayRef<MCPhysReg> AllSGPRs = getAllSGPRs(ST, MF);

if (NumPreloaded > AllSGPRs.size())

- return std::make_pair(ScratchWaveOffsetReg, SPReg);

+ return std::make_pair(ScratchWaveOffsetReg, false);

AllSGPRs = AllSGPRs.slice(NumPreloaded);

@@ -193,10 +354,11 @@ SIFrameLowering::getReservedPrivateSegmentWaveByteOffsetReg(

unsigned ReservedRegCount = 13;

if (AllSGPRs.size() < ReservedRegCount)

- return std::make_pair(ScratchWaveOffsetReg, SPReg);

+ return std::make_pair(ScratchWaveOffsetReg, false);

bool HandledScratchWaveOffsetReg =

ScratchWaveOffsetReg != TRI->reservedPrivateSegmentWaveByteOffsetReg(MF);

+ bool FPAdjusted = false;

for (MCPhysReg Reg : AllSGPRs.drop_back(ReservedRegCount)) {

// Pick the first unallocated SGPR. Be careful not to pick an alias of the

@@ -206,24 +368,25 @@ SIFrameLowering::getReservedPrivateSegmentWaveByteOffsetReg(

HandledScratchWaveOffsetReg = true;

MRI.replaceRegWith(ScratchWaveOffsetReg, Reg);

+ if (MFI->getScratchWaveOffsetReg() == MFI->getStackPtrOffsetReg()) {

+ assert(!hasFP(MF));

+ MFI->setStackPtrOffsetReg(Reg);

+ }

MFI->setScratchWaveOffsetReg(Reg);

+ MFI->setFrameOffsetReg(Reg);

ScratchWaveOffsetReg = Reg;

+ FPAdjusted = true;

break;

}

- return std::make_pair(ScratchWaveOffsetReg, SPReg);

+ return std::make_pair(ScratchWaveOffsetReg, FPAdjusted);

}

void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

MachineBasicBlock &MBB) const {

- // Emit debugger prologue if "amdgpu-debugger-emit-prologue" attribute was

- // specified.

- const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

- if (ST.debuggerEmitPrologue())

- emitDebuggerPrologue(MF, MBB);

assert(&MF.front() == &MBB && "Shrink-wrapping not yet supported");

SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

@@ -234,6 +397,7 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

// FIXME: We should be cleaning up these unused SGPR spill frame indices

// somewhere.

+ const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

const SIInstrInfo *TII = ST.getInstrInfo();

const SIRegisterInfo *TRI = &TII->getRegisterInfo();

MachineRegisterInfo &MRI = MF.getRegInfo();

@@ -251,38 +415,13 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

if (MFI->hasFlatScratchInit())

emitFlatScratchInit(ST, MF, MBB);

- unsigned SPReg = MFI->getStackPtrOffsetReg();

- if (SPReg != AMDGPU::SP_REG) {

- assert(MRI.isReserved(SPReg) && "SPReg used but not reserved");

- DebugLoc DL;

- const MachineFrameInfo &FrameInfo = MF.getFrameInfo();

- int64_t StackSize = FrameInfo.getStackSize();

- if (StackSize == 0) {

- BuildMI(MBB, MBB.begin(), DL, TII->get(AMDGPU::COPY), SPReg)

- .addReg(MFI->getScratchWaveOffsetReg());

- } else {

- BuildMI(MBB, MBB.begin(), DL, TII->get(AMDGPU::S_ADD_U32), SPReg)

- .addReg(MFI->getScratchWaveOffsetReg())

- .addImm(StackSize * ST.getWavefrontSize());

- }

unsigned ScratchRsrcReg

= getReservedPrivateSegmentBufferReg(ST, TII, TRI, MFI, MF);

unsigned ScratchWaveOffsetReg;

- std::tie(ScratchWaveOffsetReg, SPReg)

- = getReservedPrivateSegmentWaveByteOffsetReg(ST, TII, TRI, MFI, MF);

- // It's possible to have uses of only ScratchWaveOffsetReg without

- // ScratchRsrcReg if it's only used for the initialization of flat_scratch,

- // but the inverse is not true.

- if (ScratchWaveOffsetReg == AMDGPU::NoRegister) {

- assert(ScratchRsrcReg == AMDGPU::NoRegister);

- return;

- }

+ bool FPAdjusted;

+ std::tie(ScratchWaveOffsetReg, FPAdjusted) =

+ getReservedPrivateSegmentWaveByteOffsetReg(ST, TII, TRI, MFI, MF);

// We need to insert initialization of the scratch resource descriptor.

unsigned PreloadedScratchWaveOffsetReg = MFI->getPreloadedReg(

@@ -294,18 +433,19 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

AMDGPUFunctionArgInfo::PRIVATE_SEGMENT_BUFFER);

}

- bool OffsetRegUsed = MRI.isPhysRegUsed(ScratchWaveOffsetReg);

+ bool OffsetRegUsed = ScratchWaveOffsetReg != AMDGPU::NoRegister &&

+ MRI.isPhysRegUsed(ScratchWaveOffsetReg);

bool ResourceRegUsed = ScratchRsrcReg != AMDGPU::NoRegister &&

MRI.isPhysRegUsed(ScratchRsrcReg);

+ // FIXME: Hack to not crash in situations which emitted an error.

+ if (PreloadedScratchWaveOffsetReg == AMDGPU::NoRegister)

+ return;

// We added live-ins during argument lowering, but since they were not used

// they were deleted. We're adding the uses now, so add them back.

- if (OffsetRegUsed) {

- assert(PreloadedScratchWaveOffsetReg != AMDGPU::NoRegister &&

- "scratch wave offset input is required");

- MRI.addLiveIn(PreloadedScratchWaveOffsetReg);

- MBB.addLiveIn(PreloadedScratchWaveOffsetReg);

- }

+ MRI.addLiveIn(PreloadedScratchWaveOffsetReg);

+ MBB.addLiveIn(PreloadedScratchWaveOffsetReg);

if (ResourceRegUsed && PreloadedPrivateBufferReg != AMDGPU::NoRegister) {

assert(ST.isAmdHsaOrMesa(F) || ST.isMesaGfxShader(F));

@@ -318,7 +458,7 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

if (&OtherBB == &MBB)

continue;

- if (OffsetRegUsed)

+ if (OffsetRegUsed || FPAdjusted)

OtherBB.addLiveIn(ScratchWaveOffsetReg);

if (ResourceRegUsed)

@@ -346,11 +486,16 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

.addReg(PreloadedPrivateBufferReg, RegState::Kill);

}

- if (OffsetRegUsed &&

- PreloadedScratchWaveOffsetReg != ScratchWaveOffsetReg) {

+ unsigned SPReg = MFI->getStackPtrOffsetReg();

+ assert(SPReg != AMDGPU::SP_REG);

+ // FIXME: Remove the isPhysRegUsed checks

+ const bool HasFP = hasFP(MF);

+ if (HasFP || OffsetRegUsed) {

+ assert(ScratchWaveOffsetReg);

BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), ScratchWaveOffsetReg)

- .addReg(PreloadedScratchWaveOffsetReg,

- MRI.isPhysRegUsed(ScratchWaveOffsetReg) ? 0 : RegState::Kill);

+ .addReg(PreloadedScratchWaveOffsetReg, HasFP ? RegState::Kill : 0);

}

if (CopyBuffer && !CopyBufferFirst) {

@@ -358,9 +503,26 @@ void SIFrameLowering::emitEntryFunctionPrologue(MachineFunction &MF,

.addReg(PreloadedPrivateBufferReg, RegState::Kill);

}

- if (ResourceRegUsed)

+ if (ResourceRegUsed) {

emitEntryFunctionScratchSetup(ST, MF, MBB, MFI, I,

PreloadedPrivateBufferReg, ScratchRsrcReg);

+ }

+ if (HasFP) {

+ DebugLoc DL;

+ const MachineFrameInfo &FrameInfo = MF.getFrameInfo();

+ int64_t StackSize = FrameInfo.getStackSize();

+ // On kernel entry, the private scratch wave offset is the SP value.

+ if (StackSize == 0) {

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), SPReg)

+ .addReg(MFI->getScratchWaveOffsetReg());

+ } else {

+ BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADD_U32), SPReg)

+ .addReg(MFI->getScratchWaveOffsetReg())

+ .addImm(StackSize * ST.getWavefrontSize());

+ }

}

// Emit scratch setup code for AMDPAL or Mesa, assuming ResourceRegUsed is set.

@@ -405,7 +567,7 @@ void SIFrameLowering::emitEntryFunctionScratchSetup(const GCNSubtarget &ST,

}

MF.getRegInfo().addLiveIn(GitPtrLo);

- MF.front().addLiveIn(GitPtrLo);

+ MBB.addLiveIn(GitPtrLo);

BuildMI(MBB, I, DL, SMovB32, RsrcLo)

.addReg(GitPtrLo)

.addReg(ScratchRsrcReg, RegState::ImplicitDefine);

@@ -421,12 +583,15 @@ void SIFrameLowering::emitEntryFunctionScratchSetup(const GCNSubtarget &ST,

MachineMemOperand::MOLoad |

MachineMemOperand::MOInvariant |

MachineMemOperand::MODereferenceable,

- 0, 0);

+ 16, 4);

unsigned Offset = Fn.getCallingConv() == CallingConv::AMDGPU_CS ? 16 : 0;

+ const GCNSubtarget &Subtarget = MF.getSubtarget<GCNSubtarget>();

+ unsigned EncodedOffset = AMDGPU::getSMRDEncodedOffset(Subtarget, Offset);

BuildMI(MBB, I, DL, LoadDwordX4, ScratchRsrcReg)

.addReg(Rsrc01)

- .addImm(Offset) // offset

+ .addImm(EncodedOffset) // offset

.addImm(0) // glc

+ .addImm(0) // dlc

.addReg(ScratchRsrcReg, RegState::ImplicitDefine)

.addMemOperand(MMO);

return;

@@ -462,13 +627,17 @@ void SIFrameLowering::emitEntryFunctionScratchSetup(const GCNSubtarget &ST,

MachineMemOperand::MOLoad |

MachineMemOperand::MOInvariant |

MachineMemOperand::MODereferenceable,

- 0, 0);

+ 8, 4);

BuildMI(MBB, I, DL, LoadDwordX2, Rsrc01)

.addReg(MFI->getImplicitBufferPtrUserSGPR())

.addImm(0) // offset

.addImm(0) // glc

+ .addImm(0) // dlc

.addMemOperand(MMO)

.addReg(ScratchRsrcReg, RegState::ImplicitDefine);

+ MF.getRegInfo().addLiveIn(MFI->getImplicitBufferPtrUserSGPR());

+ MBB.addLiveIn(MFI->getImplicitBufferPtrUserSGPR());

}

} else {

unsigned Rsrc0 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub0);

@@ -494,38 +663,14 @@ void SIFrameLowering::emitEntryFunctionScratchSetup(const GCNSubtarget &ST,

}

-// Find a scratch register that we can use at the start of the prologue to

-// re-align the stack pointer. We avoid using callee-save registers since they

-// may appear to be free when this is called from canUseAsPrologue (during

-// shrink wrapping), but then no longer be free when this is called from

-// emitPrologue.

-//

-// FIXME: This is a bit conservative, since in the above case we could use one

-// of the callee-save registers as a scratch temp to re-align the stack pointer,

-// but we would then have to make sure that we were in fact saving at least one

-// callee-save register in the prologue, which is additional complexity that

-// doesn't seem worth the benefit.

-static unsigned findScratchNonCalleeSaveRegister(MachineBasicBlock &MBB) {

- MachineFunction *MF = MBB.getParent();

- const GCNSubtarget &Subtarget = MF->getSubtarget<GCNSubtarget>();

- const SIRegisterInfo &TRI = *Subtarget.getRegisterInfo();

- LivePhysRegs LiveRegs(TRI);

- LiveRegs.addLiveIns(MBB);

- // Mark callee saved registers as used so we will not choose them.

- const MCPhysReg *CSRegs = TRI.getCalleeSavedRegs(MF);

- for (unsigned i = 0; CSRegs[i]; ++i)

- LiveRegs.addReg(CSRegs[i]);

- MachineRegisterInfo &MRI = MF->getRegInfo();

- for (unsigned Reg : AMDGPU::SReg_32_XM0RegClass) {

- if (LiveRegs.available(MRI, Reg))

- return Reg;

+bool SIFrameLowering::isSupportedStackID(TargetStackID::Value ID) const {

+ switch (ID) {

+ case TargetStackID::Default:

+ case TargetStackID::NoAlloc:

+ case TargetStackID::SGPRSpill:

+ return true;

}

- return AMDGPU::NoRegister;

+ llvm_unreachable("Invalid TargetStackID::Value");

}

void SIFrameLowering::emitPrologue(MachineFunction &MF,

@@ -537,31 +682,105 @@ void SIFrameLowering::emitPrologue(MachineFunction &MF,

}

const MachineFrameInfo &MFI = MF.getFrameInfo();

+ MachineRegisterInfo &MRI = MF.getRegInfo();

const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

const SIInstrInfo *TII = ST.getInstrInfo();

const SIRegisterInfo &TRI = TII->getRegisterInfo();

unsigned StackPtrReg = FuncInfo->getStackPtrOffsetReg();

unsigned FramePtrReg = FuncInfo->getFrameOffsetReg();

+ LivePhysRegs LiveRegs;

MachineBasicBlock::iterator MBBI = MBB.begin();

DebugLoc DL;

- // XXX - Is this the right predicate?

- bool NeedFP = hasFP(MF);

+ bool HasFP = false;

uint32_t NumBytes = MFI.getStackSize();

uint32_t RoundedSize = NumBytes;

- const bool NeedsRealignment = TRI.needsStackRealignment(MF);

+ // To avoid clobbering VGPRs in lanes that weren't active on function entry,

+ // turn on all lanes before doing the spill to memory.

+ unsigned ScratchExecCopy = AMDGPU::NoRegister;

+ // Emit the copy if we need an FP, and are using a free SGPR to save it.

+ if (FuncInfo->SGPRForFPSaveRestoreCopy != AMDGPU::NoRegister) {

+ BuildMI(MBB, MBBI, DL, TII->get(AMDGPU::COPY), FuncInfo->SGPRForFPSaveRestoreCopy)

+ .addReg(FramePtrReg)

+ .setMIFlag(MachineInstr::FrameSetup);

+ }

+ for (const SIMachineFunctionInfo::SGPRSpillVGPRCSR &Reg

+ : FuncInfo->getSGPRSpillVGPRs()) {

+ if (!Reg.FI.hasValue())

+ continue;

+ if (ScratchExecCopy == AMDGPU::NoRegister) {

+ if (LiveRegs.empty()) {

+ LiveRegs.init(TRI);

+ LiveRegs.addLiveIns(MBB);

+ if (FuncInfo->SGPRForFPSaveRestoreCopy)

+ LiveRegs.removeReg(FuncInfo->SGPRForFPSaveRestoreCopy);

+ }

+ ScratchExecCopy

+ = findScratchNonCalleeSaveRegister(MRI, LiveRegs,

+ *TRI.getWaveMaskRegClass());

+ assert(FuncInfo->SGPRForFPSaveRestoreCopy != ScratchExecCopy);

+ const unsigned OrSaveExec = ST.isWave32() ?

+ AMDGPU::S_OR_SAVEEXEC_B32 : AMDGPU::S_OR_SAVEEXEC_B64;

+ BuildMI(MBB, MBBI, DL, TII->get(OrSaveExec),

+ ScratchExecCopy)

+ .addImm(-1);

+ }

- if (NeedsRealignment) {

- assert(NeedFP);

+ buildPrologSpill(LiveRegs, MBB, MBBI, TII, Reg.VGPR,

+ FuncInfo->getScratchRSrcReg(),

+ StackPtrReg,

+ Reg.FI.getValue());

+ }

+ if (ScratchExecCopy != AMDGPU::NoRegister) {

+ // FIXME: Split block and make terminator.

+ unsigned ExecMov = ST.isWave32() ? AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;

+ unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;

+ BuildMI(MBB, MBBI, DL, TII->get(ExecMov), Exec)

+ .addReg(ScratchExecCopy, RegState::Kill);

+ LiveRegs.addReg(ScratchExecCopy);

+ }

+ if (FuncInfo->FramePointerSaveIndex) {

+ const int FI = FuncInfo->FramePointerSaveIndex.getValue();

+ assert(!MFI.isDeadObjectIndex(FI) &&

+ MFI.getStackID(FI) == TargetStackID::SGPRSpill);

+ ArrayRef<SIMachineFunctionInfo::SpilledReg> Spill

+ = FuncInfo->getSGPRToVGPRSpills(FI);

+ assert(Spill.size() == 1);

+ // Save FP before setting it up.

+ // FIXME: This should respect spillSGPRToVGPR;

+ BuildMI(MBB, MBBI, DL, TII->getMCOpcodeFromPseudo(AMDGPU::V_WRITELANE_B32),

+ Spill[0].VGPR)

+ .addReg(FramePtrReg)

+ .addImm(Spill[0].Lane)

+ .addReg(Spill[0].VGPR, RegState::Undef);

+ }

+ if (TRI.needsStackRealignment(MF)) {

+ HasFP = true;

const unsigned Alignment = MFI.getMaxAlignment();

RoundedSize += Alignment;

+ if (LiveRegs.empty()) {

+ LiveRegs.init(TRI);

+ LiveRegs.addLiveIns(MBB);

+ LiveRegs.addReg(FuncInfo->SGPRForFPSaveRestoreCopy);

+ }

- unsigned ScratchSPReg = findScratchNonCalleeSaveRegister(MBB);

- assert(ScratchSPReg != AMDGPU::NoRegister);

+ unsigned ScratchSPReg = findScratchNonCalleeSaveRegister(

+ MRI, LiveRegs, AMDGPU::SReg_32_XM0RegClass);

+ assert(ScratchSPReg != AMDGPU::NoRegister &&

+ ScratchSPReg != FuncInfo->SGPRForFPSaveRestoreCopy);

// s_add_u32 tmp_reg, s32, NumBytes

// s_and_b32 s32, tmp_reg, 0b111...0000

@@ -574,7 +793,7 @@ void SIFrameLowering::emitPrologue(MachineFunction &MF,

.addImm(-Alignment * ST.getWavefrontSize())

.setMIFlag(MachineInstr::FrameSetup);

FuncInfo->setIsStackRealigned(true);

- } else if (NeedFP) {

+ } else if ((HasFP = hasFP(MF))) {

// If we need a base pointer, set it up here. It's whatever the value of

// the stack pointer is at this point. Any variable size objects will be

// allocated after this, so we can still use the base pointer to reference

@@ -584,21 +803,20 @@ void SIFrameLowering::emitPrologue(MachineFunction &MF,

.setMIFlag(MachineInstr::FrameSetup);

}

- if (RoundedSize != 0 && hasSP(MF)) {

+ if (HasFP && RoundedSize != 0) {

BuildMI(MBB, MBBI, DL, TII->get(AMDGPU::S_ADD_U32), StackPtrReg)

.addReg(StackPtrReg)

.addImm(RoundedSize * ST.getWavefrontSize())

.setMIFlag(MachineInstr::FrameSetup);

}

- for (const SIMachineFunctionInfo::SGPRSpillVGPRCSR &Reg

- : FuncInfo->getSGPRSpillVGPRs()) {

- if (!Reg.FI.hasValue())

- continue;

- TII->storeRegToStackSlot(MBB, MBBI, Reg.VGPR, true,

- Reg.FI.getValue(), &AMDGPU::VGPR_32RegClass,

- &TII->getRegisterInfo());

- }

+ assert((!HasFP || (FuncInfo->SGPRForFPSaveRestoreCopy != AMDGPU::NoRegister ||

+ FuncInfo->FramePointerSaveIndex)) &&

+ "Needed to save FP but didn't save it anywhere");

+ assert((HasFP || (FuncInfo->SGPRForFPSaveRestoreCopy == AMDGPU::NoRegister &&

+ !FuncInfo->FramePointerSaveIndex)) &&

+ "Saved FP but didn't need it");

}

void SIFrameLowering::emitEpilogue(MachineFunction &MF,

@@ -609,39 +827,87 @@ void SIFrameLowering::emitEpilogue(MachineFunction &MF,

const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

const SIInstrInfo *TII = ST.getInstrInfo();

+ MachineRegisterInfo &MRI = MF.getRegInfo();

MachineBasicBlock::iterator MBBI = MBB.getFirstTerminator();

+ LivePhysRegs LiveRegs;

+ DebugLoc DL;

+ const MachineFrameInfo &MFI = MF.getFrameInfo();

+ uint32_t NumBytes = MFI.getStackSize();

+ uint32_t RoundedSize = FuncInfo->isStackRealigned() ?

+ NumBytes + MFI.getMaxAlignment() : NumBytes;

+ if (RoundedSize != 0 && hasFP(MF)) {

+ const unsigned StackPtrReg = FuncInfo->getStackPtrOffsetReg();

+ BuildMI(MBB, MBBI, DL, TII->get(AMDGPU::S_SUB_U32), StackPtrReg)

+ .addReg(StackPtrReg)

+ .addImm(RoundedSize * ST.getWavefrontSize())

+ .setMIFlag(MachineInstr::FrameDestroy);

+ }

+ if (FuncInfo->SGPRForFPSaveRestoreCopy != AMDGPU::NoRegister) {

+ BuildMI(MBB, MBBI, DL, TII->get(AMDGPU::COPY), FuncInfo->getFrameOffsetReg())

+ .addReg(FuncInfo->SGPRForFPSaveRestoreCopy)

+ .setMIFlag(MachineInstr::FrameSetup);

+ }

+ if (FuncInfo->FramePointerSaveIndex) {

+ const int FI = FuncInfo->FramePointerSaveIndex.getValue();

+ assert(!MF.getFrameInfo().isDeadObjectIndex(FI) &&

+ MF.getFrameInfo().getStackID(FI) == TargetStackID::SGPRSpill);

+ ArrayRef<SIMachineFunctionInfo::SpilledReg> Spill

+ = FuncInfo->getSGPRToVGPRSpills(FI);

+ assert(Spill.size() == 1);

+ BuildMI(MBB, MBBI, DL, TII->getMCOpcodeFromPseudo(AMDGPU::V_READLANE_B32),

+ FuncInfo->getFrameOffsetReg())

+ .addReg(Spill[0].VGPR)

+ .addImm(Spill[0].Lane);

+ }

+ unsigned ScratchExecCopy = AMDGPU::NoRegister;

for (const SIMachineFunctionInfo::SGPRSpillVGPRCSR &Reg

: FuncInfo->getSGPRSpillVGPRs()) {

if (!Reg.FI.hasValue())

continue;

- TII->loadRegFromStackSlot(MBB, MBBI, Reg.VGPR,

- Reg.FI.getValue(), &AMDGPU::VGPR_32RegClass,

- &TII->getRegisterInfo());

- }

- unsigned StackPtrReg = FuncInfo->getStackPtrOffsetReg();

- if (StackPtrReg == AMDGPU::NoRegister)

- return;

+ const SIRegisterInfo &TRI = TII->getRegisterInfo();

+ if (ScratchExecCopy == AMDGPU::NoRegister) {

+ // See emitPrologue

+ if (LiveRegs.empty()) {

+ LiveRegs.init(*ST.getRegisterInfo());

+ LiveRegs.addLiveOuts(MBB);

+ LiveRegs.stepBackward(*MBBI);

+ }

- const MachineFrameInfo &MFI = MF.getFrameInfo();

- uint32_t NumBytes = MFI.getStackSize();

+ ScratchExecCopy = findScratchNonCalleeSaveRegister(

+ MRI, LiveRegs, *TRI.getWaveMaskRegClass());

+ LiveRegs.removeReg(ScratchExecCopy);

- DebugLoc DL;

+ const unsigned OrSaveExec =

+ ST.isWave32() ? AMDGPU::S_OR_SAVEEXEC_B32 : AMDGPU::S_OR_SAVEEXEC_B64;

- // FIXME: Clarify distinction between no set SP and SP. For callee functions,

- // it's really whether we need SP to be accurate or not.

+ BuildMI(MBB, MBBI, DL, TII->get(OrSaveExec), ScratchExecCopy)

+ .addImm(-1);

+ }

- if (NumBytes != 0 && hasSP(MF)) {

- uint32_t RoundedSize = FuncInfo->isStackRealigned() ?

- NumBytes + MFI.getMaxAlignment() : NumBytes;

+ buildEpilogReload(LiveRegs, MBB, MBBI, TII, Reg.VGPR,

+ FuncInfo->getScratchRSrcReg(),

+ FuncInfo->getStackPtrOffsetReg(), Reg.FI.getValue());

+ }

- BuildMI(MBB, MBBI, DL, TII->get(AMDGPU::S_SUB_U32), StackPtrReg)

- .addReg(StackPtrReg)

- .addImm(RoundedSize * ST.getWavefrontSize());

+ if (ScratchExecCopy != AMDGPU::NoRegister) {

+ // FIXME: Split block and make terminator.

+ unsigned ExecMov = ST.isWave32() ? AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;

+ unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;

+ BuildMI(MBB, MBBI, DL, TII->get(ExecMov), Exec)

+ .addReg(ScratchExecCopy, RegState::Kill);

}

+// Note SGPRSpill stack IDs should only be used for SGPR spilling to VGPRs, not

+// memory. They should have been removed by now.

static bool allStackObjectsAreDead(const MachineFrameInfo &MFI) {

for (int I = MFI.getObjectIndexBegin(), E = MFI.getObjectIndexEnd();

I != E; ++I) {

@@ -652,6 +918,22 @@ static bool allStackObjectsAreDead(const MachineFrameInfo &MFI) {

return true;

}

+#ifndef NDEBUG

+static bool allSGPRSpillsAreDead(const MachineFrameInfo &MFI,

+ Optional<int> FramePointerSaveIndex) {

+ for (int I = MFI.getObjectIndexBegin(), E = MFI.getObjectIndexEnd();

+ I != E; ++I) {

+ if (!MFI.isDeadObjectIndex(I) &&

+ MFI.getStackID(I) == TargetStackID::SGPRSpill &&

+ FramePointerSaveIndex && I != FramePointerSaveIndex) {

+ return false;

+ }

+ return true;

+#endif

int SIFrameLowering::getFrameIndexReference(const MachineFunction &MF, int FI,

unsigned &FrameReg) const {

const SIRegisterInfo *RI = MF.getSubtarget<GCNSubtarget>().getRegisterInfo();

@@ -665,81 +947,145 @@ void SIFrameLowering::processFunctionBeforeFrameFinalized(

RegScavenger *RS) const {

MachineFrameInfo &MFI = MF.getFrameInfo();

- if (!MFI.hasStackObjects())

- return;

const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

- const SIInstrInfo *TII = ST.getInstrInfo();

- const SIRegisterInfo &TRI = TII->getRegisterInfo();

+ const SIRegisterInfo *TRI = ST.getRegisterInfo();

SIMachineFunctionInfo *FuncInfo = MF.getInfo<SIMachineFunctionInfo>();

- bool AllSGPRSpilledToVGPRs = false;

- if (TRI.spillSGPRToVGPR() && FuncInfo->hasSpilledSGPRs()) {

- AllSGPRSpilledToVGPRs = true;

- // Process all SGPR spills before frame offsets are finalized. Ideally SGPRs

- // are spilled to VGPRs, in which case we can eliminate the stack usage.

- //

- // XXX - This operates under the assumption that only other SGPR spills are

- // users of the frame index. I'm not 100% sure this is correct. The

- // StackColoring pass has a comment saying a future improvement would be to

- // merging of allocas with spill slots, but for now according to

- // MachineFrameInfo isSpillSlot can't alias any other object.

- for (MachineBasicBlock &MBB : MF) {

- MachineBasicBlock::iterator Next;

- for (auto I = MBB.begin(), E = MBB.end(); I != E; I = Next) {

- MachineInstr &MI = *I;

- Next = std::next(I);

- if (TII->isSGPRSpill(MI)) {

- int FI = TII->getNamedOperand(MI, AMDGPU::OpName::addr)->getIndex();

- assert(MFI.getStackID(FI) == SIStackID::SGPR_SPILL);

- if (FuncInfo->allocateSGPRSpillToVGPR(MF, FI)) {

- bool Spilled = TRI.eliminateSGPRToVGPRSpillFrameIndex(MI, FI, RS);

- (void)Spilled;

- assert(Spilled && "failed to spill SGPR to VGPR when allocated");

- } else

- AllSGPRSpilledToVGPRs = false;

- }

- FuncInfo->removeSGPRToVGPRFrameIndices(MFI);

- }

+ FuncInfo->removeDeadFrameIndices(MFI);

+ assert(allSGPRSpillsAreDead(MFI, None) &&

+ "SGPR spill should have been removed in SILowerSGPRSpills");

// FIXME: The other checks should be redundant with allStackObjectsAreDead,

// but currently hasNonSpillStackObjects is set only from source

// allocas. Stack temps produced from legalization are not counted currently.

- if (FuncInfo->hasNonSpillStackObjects() || FuncInfo->hasSpilledVGPRs() ||

- !AllSGPRSpilledToVGPRs || !allStackObjectsAreDead(MFI)) {

+ if (!allStackObjectsAreDead(MFI)) {

assert(RS && "RegScavenger required if spilling");

- // We force this to be at offset 0 so no user object ever has 0 as an

- // address, so we may use 0 as an invalid pointer value. This is because

- // LLVM assumes 0 is an invalid pointer in address space 0. Because alloca

- // is required to be address space 0, we are forced to accept this for

- // now. Ideally we could have the stack in another address space with 0 as a

- // valid pointer, and -1 as the null value.

- //

- // This will also waste additional space when user stack objects require > 4

- // byte alignment.

- //

- // The main cost here is losing the offset for addressing modes. However

- // this also ensures we shouldn't need a register for the offset when

- // emergency scavenging.

- int ScavengeFI = MFI.CreateFixedObject(

- TRI.getSpillSize(AMDGPU::SGPR_32RegClass), 0, false);

- RS->addScavengingFrameIndex(ScavengeFI);

+ if (FuncInfo->isEntryFunction()) {

+ int ScavengeFI = MFI.CreateFixedObject(

+ TRI->getSpillSize(AMDGPU::SGPR_32RegClass), 0, false);

+ RS->addScavengingFrameIndex(ScavengeFI);

+ } else {

+ int ScavengeFI = MFI.CreateStackObject(

+ TRI->getSpillSize(AMDGPU::SGPR_32RegClass),

+ TRI->getSpillAlignment(AMDGPU::SGPR_32RegClass),

+ false);

+ RS->addScavengingFrameIndex(ScavengeFI);

+ }

}

-void SIFrameLowering::determineCalleeSaves(MachineFunction &MF, BitVector &SavedRegs,

+// Only report VGPRs to generic code.

+void SIFrameLowering::determineCalleeSaves(MachineFunction &MF,

+ BitVector &SavedVGPRs,

RegScavenger *RS) const {

+ TargetFrameLowering::determineCalleeSaves(MF, SavedVGPRs, RS);

+ SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

+ if (MFI->isEntryFunction())

+ return;

+ const MachineFrameInfo &FrameInfo = MF.getFrameInfo();

+ const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

+ const SIRegisterInfo *TRI = ST.getRegisterInfo();

+ // Ignore the SGPRs the default implementation found.

+ SavedVGPRs.clearBitsNotInMask(TRI->getAllVGPRRegMask());

+ // hasFP only knows about stack objects that already exist. We're now

+ // determining the stack slots that will be created, so we have to predict

+ // them. Stack objects force FP usage with calls.

+ //

+ // Note a new VGPR CSR may be introduced if one is used for the spill, but we

+ // don't want to report it here.

+ //

+ // FIXME: Is this really hasReservedCallFrame?

+ const bool WillHaveFP =

+ FrameInfo.hasCalls() &&

+ (SavedVGPRs.any() || !allStackObjectsAreDead(FrameInfo));

+ // VGPRs used for SGPR spilling need to be specially inserted in the prolog,

+ // so don't allow the default insertion to handle them.

+ for (auto SSpill : MFI->getSGPRSpillVGPRs())

+ SavedVGPRs.reset(SSpill.VGPR);

+ const bool HasFP = WillHaveFP || hasFP(MF);

+ if (!HasFP)

+ return;

+ if (MFI->haveFreeLanesForSGPRSpill(MF, 1)) {

+ int NewFI = MF.getFrameInfo().CreateStackObject(4, 4, true, nullptr,

+ TargetStackID::SGPRSpill);

+ // If there is already a VGPR with free lanes, use it. We may already have

+ // to pay the penalty for spilling a CSR VGPR.

+ if (!MFI->allocateSGPRSpillToVGPR(MF, NewFI))

+ llvm_unreachable("allocate SGPR spill should have worked");

+ MFI->FramePointerSaveIndex = NewFI;

+ LLVM_DEBUG(

+ auto Spill = MFI->getSGPRToVGPRSpills(NewFI).front();

+ dbgs() << "Spilling FP to " << printReg(Spill.VGPR, TRI)

+ << ':' << Spill.Lane << '\n');

+ return;

+ }

+ MFI->SGPRForFPSaveRestoreCopy = findUnusedSGPRNonCalleeSaved(MF.getRegInfo());

+ if (!MFI->SGPRForFPSaveRestoreCopy) {

+ // There's no free lane to spill, and no free register to save FP, so we're

+ // forced to spill another VGPR to use for the spill.

+ int NewFI = MF.getFrameInfo().CreateStackObject(4, 4, true, nullptr,

+ TargetStackID::SGPRSpill);

+ if (!MFI->allocateSGPRSpillToVGPR(MF, NewFI))

+ llvm_unreachable("allocate SGPR spill should have worked");

+ MFI->FramePointerSaveIndex = NewFI;

+ LLVM_DEBUG(

+ auto Spill = MFI->getSGPRToVGPRSpills(NewFI).front();

+ dbgs() << "FP requires fallback spill to " << printReg(Spill.VGPR, TRI)

+ << ':' << Spill.Lane << '\n';);

+ } else {

+ LLVM_DEBUG(dbgs() << "Saving FP with copy to " <<

+ printReg(MFI->SGPRForFPSaveRestoreCopy, TRI) << '\n');

+ }

+void SIFrameLowering::determineCalleeSavesSGPR(MachineFunction &MF,

+ BitVector &SavedRegs,

+ RegScavenger *RS) const {

TargetFrameLowering::determineCalleeSaves(MF, SavedRegs, RS);

const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

+ if (MFI->isEntryFunction())

+ return;

+ const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

+ const SIRegisterInfo *TRI = ST.getRegisterInfo();

// The SP is specifically managed and we don't want extra spills of it.

SavedRegs.reset(MFI->getStackPtrOffsetReg());

+ SavedRegs.clearBitsInMask(TRI->getAllVGPRRegMask());

+bool SIFrameLowering::assignCalleeSavedSpillSlots(

+ MachineFunction &MF, const TargetRegisterInfo *TRI,

+ std::vector<CalleeSavedInfo> &CSI) const {

+ if (CSI.empty())

+ return true; // Early exit if no callee saved registers are modified!

+ const SIMachineFunctionInfo *FuncInfo = MF.getInfo<SIMachineFunctionInfo>();

+ if (!FuncInfo->SGPRForFPSaveRestoreCopy)

+ return false;

+ for (auto &CS : CSI) {

+ if (CS.getReg() == FuncInfo->getFrameOffsetReg()) {

+ if (FuncInfo->SGPRForFPSaveRestoreCopy != AMDGPU::NoRegister)

+ CS.setDstReg(FuncInfo->SGPRForFPSaveRestoreCopy);

+ break;

+ }

+ return false;

}

MachineBasicBlock::iterator SIFrameLowering::eliminateCallFramePseudoInstr(

@@ -757,8 +1103,7 @@ MachineBasicBlock::iterator SIFrameLowering::eliminateCallFramePseudoInstr(

bool IsDestroy = Opc == TII->getCallFrameDestroyOpcode();

uint64_t CalleePopAmount = IsDestroy ? I->getOperand(1).getImm() : 0;

- const TargetFrameLowering *TFI = MF.getSubtarget().getFrameLowering();

- if (!TFI->hasReservedCallFrame(MF)) {

+ if (!hasReservedCallFrame(MF)) {

unsigned Align = getStackAlignment();

Amount = alignTo(Amount, Align);

@@ -777,60 +1122,25 @@ MachineBasicBlock::iterator SIFrameLowering::eliminateCallFramePseudoInstr(

return MBB.erase(I);

}

-void SIFrameLowering::emitDebuggerPrologue(MachineFunction &MF,

- MachineBasicBlock &MBB) const {

- const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

- const SIInstrInfo *TII = ST.getInstrInfo();

- const SIRegisterInfo *TRI = &TII->getRegisterInfo();

- const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

- MachineBasicBlock::iterator I = MBB.begin();

- DebugLoc DL;

- // For each dimension:

- for (unsigned i = 0; i < 3; ++i) {

- // Get work group ID SGPR, and make it live-in again.

- unsigned WorkGroupIDSGPR = MFI->getWorkGroupIDSGPR(i);

- MF.getRegInfo().addLiveIn(WorkGroupIDSGPR);

- MBB.addLiveIn(WorkGroupIDSGPR);

- // Since SGPRs are spilled into VGPRs, copy work group ID SGPR to VGPR in

- // order to spill it to scratch.

- unsigned WorkGroupIDVGPR =

- MF.getRegInfo().createVirtualRegister(&AMDGPU::VGPR_32RegClass);

- BuildMI(MBB, I, DL, TII->get(AMDGPU::V_MOV_B32_e32), WorkGroupIDVGPR)

- .addReg(WorkGroupIDSGPR);

- // Spill work group ID.

- int WorkGroupIDObjectIdx = MFI->getDebuggerWorkGroupIDStackObjectIndex(i);

- TII->storeRegToStackSlot(MBB, I, WorkGroupIDVGPR, false,

- WorkGroupIDObjectIdx, &AMDGPU::VGPR_32RegClass, TRI);

- // Get work item ID VGPR, and make it live-in again.

- unsigned WorkItemIDVGPR = MFI->getWorkItemIDVGPR(i);

- MF.getRegInfo().addLiveIn(WorkItemIDVGPR);

- MBB.addLiveIn(WorkItemIDVGPR);

- // Spill work item ID.

- int WorkItemIDObjectIdx = MFI->getDebuggerWorkItemIDStackObjectIndex(i);

- TII->storeRegToStackSlot(MBB, I, WorkItemIDVGPR, false,

- WorkItemIDObjectIdx, &AMDGPU::VGPR_32RegClass, TRI);

- }

bool SIFrameLowering::hasFP(const MachineFunction &MF) const {

- // All stack operations are relative to the frame offset SGPR.

- // TODO: Still want to eliminate sometimes.

const MachineFrameInfo &MFI = MF.getFrameInfo();

+ if (MFI.hasCalls()) {

+ // All offsets are unsigned, so need to be addressed in the same direction

+ // as stack growth.

+ // FIXME: This function is pretty broken, since it can be called before the

+ // frame layout is determined or CSR spills are inserted.

+ if (MFI.getStackSize() != 0)

+ return true;

+ // For the entry point, the input wave scratch offset must be copied to the

+ // API SP if there are calls.

+ if (MF.getInfo<SIMachineFunctionInfo>()->isEntryFunction())

+ return true;

+ }

- // XXX - Is this only called after frame is finalized? Should be able to check

- // frame size.

- return MFI.hasStackObjects() && !allStackObjectsAreDead(MFI);

-bool SIFrameLowering::hasSP(const MachineFunction &MF) const {

- const SIRegisterInfo *TRI = MF.getSubtarget<GCNSubtarget>().getRegisterInfo();

- // All stack operations are relative to the frame offset SGPR.

- const MachineFrameInfo &MFI = MF.getFrameInfo();

- return MFI.hasCalls() || MFI.hasVarSizedObjects() || TRI->needsStackRealignment(MF);

+ return MFI.hasVarSizedObjects() || MFI.isFrameAddressTaken() ||

+ MFI.hasStackMap() || MFI.hasPatchPoint() ||

+ MF.getSubtarget<GCNSubtarget>().getRegisterInfo()->needsStackRealignment(MF) ||

+ MF.getTarget().Options.DisableFramePointerElim(MF);

}