Nehmt Euch das einfache Prezeptron vor, das ist quasi ein Neuron.

Eine weitere Annahme: unsere Training/Erkennungsdaten bestehen aus 2 Dimensionen, und könnten somit in ein Koordinatensystem auf Millimeterpapier eingezeichnet werden, wie Positionen auf einer Landkarte.

Es definiert sich aus dem Eingabevektor multipliziert mit dem Gewichtsvektor und addiert bzw. vermindert um eine Schwelle. Diese Formel findet Ihr überall.

Damit definiert es eine Gerade die die senkrecht zum Gewichtsvektor steht.
Die Gerade selber trennt unsere Trainings/Erkennungsdatenfläche in 2 Zonen, nämliche die links und rechts davon. Alle Elemente die auf der einen Seite liegen erkennt das Perzeptron, alle auf der anderen verwirft es. Durch die Änderung der Gewichte schafft Ihr es diese Trennebene rotieren zu lassen. Damit könnte ihr mehr oder weniger gut erreichen, die guten von den schlechten Testeingaben zu trennen, nichts anderes macht das Perzeptron. Mit der Änderung des Schwellenwertes schafft Ihr es diese Trenngerade zu verschieben. Damit kann man also die Gerade recht gut positionieren, die Guten ins Kröpfchen, die Schlechten Ihr wisst schon...
Nun kann es aber vorkommmen, dass trotz bester Ausrichtung der Gerade nicht alle Trainingsdaten korrekt klassifiziert werden können, weil etwa schlechteund gute Daten zu sehr aneinander liegen. Die Daten sind dann nur schwer oder vielleicht gar nicht separierbar. Deswegen muss man dafuer sorgen, dass diese breiter gefächert sind. Das kann man schaffen indem man weitere Merkmale hinzunimmt. Das Perzeptron, welches eine Trenngerade bildet, hat nämlich nur 2 Eingänge, wie die x und y Koordinate. Möchte man eine weitere Dimension, wie die z Koordinate hinzufügen, wird die Gerade, die die Fläche teilt, zu einer Trennebene im Raum. Nimmt man noch weitere Dimensionen hinzu wie vielleicht Farbe, Geschmack spricht man von Hyperebenen im Hyperraum. Für mehr als 3D gibt es wohl keine Begriffe mehr. Das kann man sich schlecht vorstellen, also bleibt man zur Veranschaulichung meist in 2D. Trotzdem kann man sich locker in 4,5 oder 6 Dimensionen (also Eingabewerte) bewegen.

Wenn man aber nun nicht mehr Eingabewerte als 2 hat und die Daten trotzdem durch ein Perzeptron schlecht separierbar sind, liegt es nahe, ein weiteres Perzeptron hinzuzunehmen und diese beiden zu verknüpfen. So kann man die beiden Trenngeraden der Perzeptrone so ausrichten , dass sie besser die Daten separieren.

Nehmen wir mal 3 Gearden also 3 Perzeptrone, diese 3 Geraden bilden ein Dreieck. Wir nehmen mal an sie sind nicht parallele. Man kann sich jetzt vorstellen dass alle Testdaten in diesem Dreieck einer Klasse angehören und alle anderen ausserhalb. Damit hätten wir schon unser Ziel der Klassifizierung erreicht. Natürlich kann die Problematik komplexer sein und die Daten lassen sich nicht von einem Dreieck eingrenzen, dann nimmt man weitere Perzeptrone um Vielecke zu bilden. Reicht das nicht und man findet in diesem Vieleck immernoch falsch klassifizierte Daten, kann man nun eine Neue Schicht Perzeptrone hinzufügen. Mit ihnen kann man dann auch definierte Vielecke,Dreiecke oder.... umklassifizieren, da man sie in der zweiten Schicht mit negativen Gewichten verknüpfen kann. So könnten in Dreieck 1 alle Daten gute sein, aber dafuer muessen sie ausserhalb des Dreiecks 2 sein. So arbeitet man sich schrittweise an die Lösung heran und umzingelt quasi die Daten.

Zum Glück muss man das nicht selber machen, dafür gibt es beispielweise den Backpropagationalgo. Auch die Netzarchitektur kann man bei komplexeren Problemen nicht vorhersehen, man nimmt einfach ein paar Schichten mit einigen Neuronen pro schicht und probiert ein bisschen. Es ist etwa wie Backen, man muss ein bisschen spielen um das passende Rezept zu finden.