Mal eine kleine Rechnung.
Angenommen, Du nimmst ein Bild von lediglich 100 * 100 Pixeln, was wahrhaftig nicht besonders gut ist. Dann wären das schonmal 10000 Pixel.
Bei der Angestrebten Farberkennung muss für jedes Pixel der R, G und B - Wert vorliegen. Werte von 0 bis 255, also 3 Byte pro Pixel. Macht 30000 Byte pro Minibild. Soll die Farberkennung auch bei Lichtverhältnissen arbeiten, wie sie ausserhalb eines optimalen Labors normal sind, so denke ich, kommt man um eine Umwandlung von RGB nach HSV nicht herum. Im HSV - Format haben wir wie bei RGB auch wieder drei Werte. H : 0..255 S : 0..255 und V : 0..360. Oops. 360. Also kein Byte, sondern schon mindestens 2 Byte wenn wir bei Integerwerten bleiben wollen. Macht also für das HSV-Bild nochmal mindestens 40000 Byte. Und da ist noch keine Zeile Code geschrieben.
Also. Nach meiner Einschätzung möchte ich vermuten, daß man für eine auch nur halbwegs brauchbare Bildverarbeitung, die man auch noch bezahlen kann, um einen E-Bay Laptop und eine einfache (USB)-Webcam nicht herumkommt.