Es gibt Netztypen, die ihre Topologie selbständig finden. S. Zell, da ist das erklärt.

Wenn Du ein FF-Netz mit einem Backprop (oder verwandten) Training verwenden willst, kannst Du mit der Größe der verdeckten Schicht experimentieren. Da Du 7 Gruppen hast, könntest Du mit 7 oder 14 Neuronen in der verdeckten Schicht beginnen.

Sollten die Parameter zwischen den Gruppen voneinander unabhängig sein, ist es vielleicht besser mehrere einzelne Netze zu Trainieren (also max 7) und dann deren Ausgabe auf ein weiteres Netz zu geben, dass die Ausgaben generiert. Es könnte sein, dass die Generalisierungsfähigkeit dadurch verbessert wird. Auf jeden Fall sinkt die zum Training erforderliche Rechenleistung, da die Gewichtsmatrizen erheblich kleiner werden.