Zum Beispiel:Zitat von Johannes
1. Finde markante Punkte in beiden Bildern. Hierfür nutzt man meist den Harris-Operator. Dieser wird (ähnlich wie ein Operator zur Kantenfindung) auf beide Bilder angewendet. Ergebnis sind zwei Mengen von Punkten (linkes Bild und rechtes Bild), die der Operator für "markant" hielt. Je nach Parametern und Bild können das mehrere hundert Punkte pro Bild sein.
2. Zuordnen der markanten Punkte zwischen linkem und rechten Bild. Jetzt muß man herausfinden, welche Punkte vom rechten Bild denen vom linken Bild entsprechen, d.h. welche ein Abbild vom selben Weltpunkt sind. Bedingt durch die Kamerageometrie gibt es hilfreiche Einschränkungen. Zum Beispiel wird sich im idealen Fall zwischen linkem und rechten Bild nur die x-Koordinate ändern, die y-Koordinate bleibt gleich (oder schwankt max. um +-1 Pixel).
Man muß also für einen gegebenen Punkt aus dem linken Bild nur die Punkte aus dem rechten betrachten, die etwa auf der selben Höhe liegen. Die endgültige Identifizierung des passenden Punktes geschieht meist mit einem auf Korrelation basierten Verfahren (Korrelation zwischen den 11x11 Nachbarschaften der in Frage kommenden Punkt-Paare).
Man wird nicht jedem Punkt einen Partner aus dem anderen Bild zuordnen können. Meist klappt das nur für etwa 50-75% der Punkte.
3. Ausrechnen der Entfernungen. Man hat jetzt also für viele der vom Harris Operator gefundenen markanten Punkte die Koordinaten im linken und rechten Bild. Damit kann mal wie im Posting oben beschrieben, die Entfernung ausrechnen.
4. Anwendung: Gelingt es, die markanten Punkte nicht nur zwischen dem linken und rechtem Bild zuzuordnen, sondern auch zwischen zwei Bildernpaaren zwischen denen sich die Kamera bewegt hat, kann man die Bewegung der Kamera errechnen. Man kennt ja die 3D-Koordinaten einiger Punkte vor und nach der Bewegung.
5. Weitere Anwendung: Erstellen einer 3D-Karte, Identifizieren von Objekten, ...
6. Das hier beschriebene Verfahren nennt sich "sparse stereo", da nur für einige Pixel die Tiefeninformationen zur Verfügung gestellt werden. Bei "dense stereo" Algorithmen sind für (im Idealfall) jeden Pixel die Tiefeninformationen verfügbar. Vielleicht kann Fisch-Ei ja was zu den dense stereo Algorithmen sagen.
Siehe auch http://www-user.tu-chemnitz.de/~niko...eit/node5.html
Lesezeichen