Also üblicherweise macht man das so:
1. eines der Bilder in kleine Segmente unterteilen (z.B. 32x32px oder was auch immer angebracht erscheint)
2. alle Segmente einer (in diesem Fall) 32px hohen Zeile in der zugehörigen Zeile auf dem zweiten Bild suchen. Das klappt am besten über Korrelation, du lässt das Segment also Pixel für Pixel die Zeile entlangwandern, und erhältst im Idealfall irgendwo ein Maximum. Da wurde es dann wiedergefunden.
3. Für alle auf diesem Weg gefundenen Segmente muss die X-Verschiebung berechnet werden. Wenn also das Segment von 1-32px in der ersten Zeile auf dem zweiten Bild bei 20-51px gefunden wird, dann ergibt das eine Verschiebung von 19px nach rechts.
Diese Verschiebungen entlang der X-Achse sind quasi schon sowas wie deine "rohen" 3D-Daten. Wenn du Daten benötigst die einen Bezug zur realen Welt haben (also nicht in Pixeln sondern z.B. in Metern), dann musst du danach mit dieser Formel weitermachen: Zentralprojektion
Nicht erschrecken, viele der Parameter lassen sich durch eine Kalibrierung ermitteln. Dabei nimmst du ein bekanntes Objekt auf (das kann im einfachsten Fall eine simple Platte sein, auf der du Markierungen mit bekannten Abständen anbringst), und berechnest daraus dann - unter anderem - die sog. äußere Orientierung (also die Orientierung der Kameras zueinander)
Lesezeichen