Youtube: Wie Dokumente beim Scannen verändert werden können.

Der Titel „Traue keinem Scan, den du nicht selbst gefälscht hast“ hört sich etwas reißerisch an. Ob man hinsichtlich des geschilderten Sachverhalts direkt von Fälschung sprechen kann, sei dahingestellt. Tatsache ist allerdings, daß man beim Scannen mit bestimmten Xerox-Geräten nicht sicher sein kann, daß hinten raus kommt, was man vorne reingesteckt hat. Wer ein rechtsverbindliches Archiv aufgebaut und die Originale nicht mehr hat, kann sich auf den Inhalt nicht verlassen!

Traue keinem Scan, den du nicht selbst gefälscht hast.
(Youtube)

Der Vortrag stammt zwar von 2015, ist m. E. aber trotzdem nicht veraltet: Einerseits sollte man mit „pattern matching“ rechnen, andererseits ist nicht gesagt, daß alle betroffenen Geräte gepatcht wurden — immerhin ist zum Zeitpunkt des Vortrages der Fehler seit 8 Jahren bekannt.

Die Xerox WorkCentre sind Scan-Kopier-Fax-Geräte die in großen Firmen alles Digitalisieren. Leider gibt es lange Zeit ein delikates Problem: Um insbesondere gescannte Dokumente als PDF und zur Datenübertragung möglichst klein zu halten, wird eine spezielle Datenkomprimierung angewandt. Diese faßt nicht einfach eine Gruppe von Pixeln zu einem „Durchschnittspixel“ zusammen, sondern erkennt Muster, speichert es einmal und ersetzt es dann dokumentenweit. Eines dieser häufig erkannten Muster nennt man Buchstaben…

JBig2 Pattern Matching (Quelle: Kriesel a. a. O.)

JBig2 Pattern Matching
(Quelle: Kriesel a. a. O.)

Der Vortragende David Kiesel wird von einer Firma darauf angesprochen, daß bei kopierten (gescannten und später gedruckten) Bauplänen die Größenangaben vom Original abweichen würden. Der Fehler fällt zufällig wegen mangelnder Plausibilität auf! Was ist passiert? Die Mustersuche aka Pattern Matching findet „6“ und „8“ ähnlich genug, um sie als ein und das selbe Muster zu speichern — übrig bleibt die 8. „i“ und „I“ sind ja sowieso das selbe und „O“ und „Q“ auch.

JBig2 Fehlerkennung (Quelle: Kriesel)

JBig2 Fehlerhafte Zuordnung
(Quelle: Kriesel a. a. O.)

So wird in solchen Geräten ein Dokument nicht einfach fotomechanisch erfaßt, sondern die erfaßten Daten ausgewertet und interpretiert. So pfiffig die Idee hinter „pattern matching“ ist, das allein scheint schon fragwürdig, da das Dokument somit in großem Stil überarbeitet wird: Nur ein „e“ ist echt, alle anderen sind nicht die ursprünglich gescannten, sondern nur Clone des ersten — ohne daß man es dem Dokument ansieht (wenn man danach sucht, fällt natürlich auf, daß sie unnatürlich identisch sind). Ärgerlich auch, daß dem Hersteller der Fehler bekannt(!!!) ist und er ihn später im Handbuch (Seite 107 von ca. 300) als „Feature“ des „Normal“-Modus erwähnt. Leider stellt sich empirisch heraus, daß auch die höherwertigeren Modi nicht ganz fehlerfrei arbeiten.

Man kann sich auf derart angefertigte Kopien/Scans nicht mehr verlassen! Pech, wer damit ein Archiv aufgebaut und die Originale nicht mehr griffbereit hat! Xerox hat zwar einen Patch herausgebracht, aber gerade als Mitarbeiter eines Büros kennt man sich damit nicht aus und weiß nicht, ob „irgendjemand“ ihn auch eingespielt hat. Und Millionen zuvor gescannter Dokumente sind in Umlauf… Wenn du irgendwann einmal Probleme hast, weil Zahlen eines gescannten Dokumentes nicht plausibel sind (und du ganz sicher bist, daß sie auf dem Original anders lauten), frage nach, ob es auf Xerox erfaßt wurde!

Schreibe einen Kommentar