Ich vermute, daß das an den nicht synchonisierten Takten der Rechner oder Endgeräte liegt. Im digitalen Telefonnetz gibt es einen zentralen 8kHz Takt, mit dem alle Geräte phasenstarr synchronisiert werden. Im Internet gibt es so etwas nicht. Die Takte der Rechner sind nicht besonders präzise, häufig werden sie auch noch moduliert (spread spectrum). Die Sprachdaten werden also mit anderer Geschwindigkeit abgespielt als aufgezeichnet. Bei zwei Teilnehmern kann man das verschummeln, Sprachpausen etwas kürzen oder verlängern. Bei einer Konferenz ist das viel schwieriger.

Das "Hintergrundrauschen" des Trägers, welches man bei gemutetem Mikro hat, ist während diesen Aussetzern weiterhin da.
Da kannst du dich auch täuschen. Um Bandbreite zu sparen wird häufig "Stille" garnicht übertragen, sondern erst im Empfänger künstlich erzeugt, heißt dann "comfort noise".

MfG Klebwax