Xerox

Xerox scanner/kopimaskiner ændrer tal

7 aug. 2013 06:40 - Via D. Kriesel - af Pernicious , indsendt af p1x3l

Vil man scanne et dokument, så skal man passe på hvis det sker på en Xerox Workcenter. I Tyskland har en blogger fundet ud af, at de indscannede dokumenter kan have ændrede tal.

Fejlen opstår hvis der bliver scannet med en opløsning på omkring 200 dpi, og skrifttypen er 6 eller 7 punkt stor. Opløsningen er nok til, at det er muligt at se hvad der står, men i nogle tilfælde ændrer Xerox-maskinen resultatet.

Vedkommende som har fundet fejlen har verificeret den på Xerox WorkCentre 7535 og 7556, men flere læsere af bloggen hvor fejlen er offentliggjort, har oplyst den findes på en lang række andre modeller.

Årsagen ser ud til at være kompressionsalgoritmen Xerox anvender. Til at komprimere billedet anvender de JBIG2, der kan indeksere billedet i små felter og genbruge felter, for at spare på pladsen. Når et tal, for eksempel 6, bliver scannet, så tror kopimaskinen nogle gange at det er et 8-tal, hvis dette tal også er blevet scannet.

Xerox er opmærksom på problemet og har haft en snak med bloggeren. De anbefaler at man ikke vælge kvaliteten Normal, men High eller Higher, da disse ikke anvender JBIG2. Standardindstillingen er High.

Forside
⟨
Forum
⟨
Nyheder

Gå til bund

#1 - tentakkelmonster
7. aug. 2013 07:07

Mjaeh, det er jo åbenbart næsten OCR, der foregår i den algoritme, og den slags bør altid checkes efter af et menneske bagefter.

#2 - BurningShadow
7. aug. 2013 07:47

Var det ikke bedre, at se at få rettet fejlen i JBIG2, og så opdatere udstyret?

#3 - ITemplate
7. aug. 2013 07:53

#1: Det har intet med OCR at gøre. Det er brugen af kompression der er problemet her.

#2: Fejlen er at Xerox bruger billed kompressionen når den scanner fx. tekst. Det burde de nok få udfaset...

#4 - TrolleRolle
7. aug. 2013 08:33

Nu ved jeg ikke lige om jeg fandt det billigste sted, men en Xerox WorkCentre 7535 koster over 80.000 danske kroner.

Det er sgu lidt ufatteligt at de ikke havde råd til at smide et par GB ram ekstra i, så de kunne spare den komprimeringsalgoritme.

#5 - sivsko
7. aug. 2013 09:06

#4 Alt efter hvad du vil hav i din maskine koster den. DTU giver ca 35K for en med A3, hæftemaskine, enkelt sorter.
Hvis du vil hav multi sorter så koster den.

#6 - nyhjem
7. aug. 2013 10:29

TrolleRolle (4) skrev:
Nu ved jeg ikke lige om jeg fandt det billigste sted, men en Xerox WorkCentre 7535 koster over 80.000 danske kroner.

Det er sgu lidt ufatteligt at de ikke havde råd til at smide et par GB ram ekstra i, så de kunne spare den komprimeringsalgoritme.

Det har de også.. På standard indstillingen er dette slet ikke noget problem.
Problemet er at scanneren kan scanne til PDF filer, og disse fylder ret meget, hvis de ikke bliver komprimeret.
Derfor vælger mange brugere at sætte kvaliteten lidt ned, så deres PDF dokumenter fylder mindre, og nemmere kan sendes med email.
Når man sætter kvaliteten af scanningen ned, og skifter den over til at bruge kompression.. :)

#7 - cryo
7. aug. 2013 11:02

ITemplate (3) skrev:
#2: Fejlen er at Xerox bruger billed kompressionen når den scanner fx. tekst. Det burde de nok få udfaset...

JBIG2 er lavet til tekst, så det er nok ikke en fejl. Problemet er nok at de bruger den i lossy mode, ved en for lav indstilling. Det er en kendt begrænsning i JBIG2. Den kan også bruges i lossless mode, dog, hvor problemet ikke opstår.

#8 - XorpiZ
7. aug. 2013 13:34

Scankvaliteten på omtalte maskiner er jeg i øvrigt ikke videre imponeret over.

Bare det at scanne en side med tekst er en udfordring for den (uanset om man vælger OCR eller ej). Er kvaliteten for lav, bliver det ulæseligt og er kvaliteten for høj, så er det næsten endnu værre.

#9 - ShamblerDK
7. aug. 2013 13:37

Det her er jo faktisk temmelig alvorligt. Vi snakker kæmpe virksomheder der får rod i tallene. Man stoler jo på sit udstyr, så de fejl bliver nok først opdaget langt nede af linjen. Jeg kan dårligt nok overskue konsekvenserne af denne opdagelse, men jeg gætter på det her bliver til en meget større skandale end den er nu.

#10 - ITemplate
7. aug. 2013 13:59

cryo (7) skrev:
JBIG2 er lavet til tekst, så det er nok ikke en fejl.

Jo det er en fejl synes jeg. Og mon ikke Xerox tænker det samme nu...

EDIT:
Jeg ser med glæde, at fyren der har fundet denne fejl er enig i den betragtning:

Personally, I would never ever implement patch based image compression algorithms for text data...

Kilde

#11 - tentakkelmonster
7. aug. 2013 16:37

I stand corrected. Det var langt mindre OCR-agtigt, end jeg troede. Wikipedia siger:

wikipedia skrev:
Textual regions are compressed as follows: the foreground pixels in the regions are grouped into symbols. A dictionary of symbols is then created and encoded, typically also using context-dependent arithmetic coding, and the regions are encoded by describing which symbols appear where. Typically, a symbol will correspond to a character of text, but this is not required by the compression method.

Forside
⟨
Forum
⟨
Nyheder

Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login

mboost-dp1

Nyheder

Seneste kommentarer i nyheder

Seneste kommentarer i forum

Xerox scanner/kopimaskiner ændrer tal