Also wenn du das tatsächlich so machen willst, wirst du nur dann 100% effizienten Assembler Code erreichen, wenn du ihn selber schreibst.
(inline asm wäre ein gangbarer Weg)