Ethernet ist schon von hause aus nicht echtzeitfähig.
Auch in einem geswitchten Netz gibt es noch Broadcasts und Multicast, so das es auch dort (auf der Switch Backplane) zu colissions kommen kann.

TCP ist im Gegensatz zu UDP zwar ein verlässliches Protokoll, aber auch von hause aus nicht echtzeitfähig.
Deshalb ist bei Streaming Anwendungen halt QoS so wichtig, sonst bekommt man z.B. die "super" VoIP" Sprachqualität oder Videos die ständig ruckeln.

Token Ring als Netzwerk und Token Passing wären von hause bedingt echtzeitfähig, da dort zumindest prinzipiell eine reproduzierbare Zustellzeit für den Durchlauf durch den Ring gegeben ist.

Da Ethernet und TCP/IP aber viel verbreiteter ist als Token Ring, gibt es grade für die Automatisierungstechnik bestreben es echtzeitfähig zu machen.
http://www.realtime-ethernet.de/
Eine davon ist halt ModBus TCP.

CAN-Bus ist halt nur Elektrik (Layer1) und Bitlayer (Layer2), da gibt es keinen Standart auf den Layern 3 bis 7.
ModBus TCP nutzt Ethernet für Layer 1 und 2 und TCP/IP für Layer 3.
Der Vorteil wäre, das die Hardware schon da ist und Du "nur" noch den Protokoll Stack implementieren mußt.

Wenn man denn Feldbus Technik einsetzten will, ist CAN-Bus eine recht gute Wahl, da er durch den Einsatz im Automobilbereich auf allen Kontinenten etabliert ist.
Bei anderen Feldbussen ist das nicht gegeben.