Google

Google: Nu med tekstgenkendelse i billeder

9 nov. 2008 07:00 - Via Google Blog - af Pernicious , indsendt af ChristianLJ

På nettet er der mange mennesker, som gerne vil dele informationer, der kun eksisterer på tryk, hvorfor løsningen er at scanne dokumenterne og så dele billederne af teksten. Informationerne bliver på den måde tilgængelige, men de er ikke nemme at finde.

Årsagen er, at søgemaskiner ikke kan indeksere dem særlig godt, men det vil ændre sig nu. Scanner man dokumenterne og gemmer dem som billeder i et pdf-dokument, så vil Google fremover kunne indeksere indholdet.

Ved at anvende tekstgenkendelse (OCR – Optical Character Recognition) på pdf-dokumenterne, kan Google konvertere teksten i billederne til tekst, der kan indekseres.

Google påpeger, at ligesom ved alt tekstgenkendelsessoftware, så er konverteringen ikke 100 % korrekt, f.eks. kan en computer have svært ved at kende forskel på 0 og o.

Forside
⟨
Forum
⟨
Nyheder

Gå til bund

#1 - ghostface
9. nov. 2008 09:17

Gad vide om de har fået nogle nye folk på projektet? Evt de samme som gang på gang er med til at bryde googles egen CAPTCHA.

Men det er lækkert den viden som normalt kun benyttes (og udvikles) af malware kongerne også kommer os andre til gode nu.

Kudos til google.

#2 - SpYkE112
9. nov. 2008 09:18

Hvorfor lige pdf??

#3 - myplacedk
9. nov. 2008 09:26

ghostface (1) skrev:
Men det er lækkert den viden som normalt kun benyttes (og udvikles) af malware kongerne også kommer os andre til gode nu.

What? Så unormalt er det da heller ikke at lave tekst-genkendelse.

Eksempel: De gange jeg har kigget i tinglysningsdokumenter, har det været de gamle dokumenter scannet ind som PDF, hvor man så godt nok kigger på billederne (med folder, æselsører, håndskrift osv.), men teksten er alligevel søgbar. Man kan enda markere noget tekst og kopiere til udklipsholder.

#4 - myplacedk
9. nov. 2008 09:27

SpYkE112 (2) skrev:
Hvorfor lige pdf??

Fordi det er den typiske måde at udgive den slags på. Det er vist mest nørder der laver en zip-fil med billeder i.

#5 - Daniel-Dane
9. nov. 2008 09:38

myplacedk (4) skrev:
Fordi det er den typiske måde at udgive den slags på. Det er vist mest nørder der laver en zip-fil med billeder i.

Nørder bruge ikke zip-filer. :P

#6 - Daniel-Dane
9. nov. 2008 09:38

DOH! Double-post.

#7 - SpYkE112
9. nov. 2008 10:30

Min pointe var måske mere at man burde have valgt et lidt mere åbent format? Adobe er jo ikke kendt for at være gennemsigtige i deres formater..

#8 - utdiscant
9. nov. 2008 10:39

SpYkE112 (7) skrev:
Min pointe var måske mere at man burde have valgt et lidt mere åbent format? Adobe er jo ikke kendt for at være gennemsigtige i deres formater..

http://www.theinquirer.net/gb/inquirer/news/2007/1...

#9 - myplacedk
9. nov. 2008 10:48

SpYkE112 (7) skrev:
Min pointe var måske mere at man burde have valgt et lidt mere åbent format?

Det er ikke Google der vælger formatet, de læser bare hvad der findes.

Forestil dig at Google ikke kan lide HTML, og stopper med at indexere det.

#10 - Bean
9. nov. 2008 12:49

#5
Nørder bruge .rar :)

#11 - Panda.dk
9. nov. 2008 12:53

Jeg laver ikke .rar men unrar .rar filer eller vhad det hedder :D

#12 - Daniel-Dane
9. nov. 2008 13:04

Rigtige nørder bruger da det bedste kompression, der er: 7-zip (og det er ikke løgn). Og "bruge" i #5 er "bruger", jeg ramte bare "Citer indlæg" i stedet for "ret", og så forsvandt den (bug?). :S

#1
Min gamle printer har OCR. Den er dog bare ret så out-dated.

Efter hvad jeg har set, så er PDF det mest brugte til at gemme dokumenter som billeder.

P.S.
Jeg er glad for, at min double-post er informativ. ;D

#13 - TrolleRolle
9. nov. 2008 13:33

Hvis man læser artiklen vil man forstå at Google længe har indexseret normale PDF-filer. Dvs. filer hvor teksten står som tekst.
Det nye er at de nu også laver OCR på de PDF-filer som bare indeholder store billeder. De gør det fordi der, som nævnt i artiklen, er mange dokumenter som scannes ind og gemmes på denne måde.

Dvs. det er IKKE fordi PDF er den mest udbredte måde at pakke billeder ind på.(Det håber jeg dælme ikke det er.) De har valgt PDF fordi der i forvejen er mange PDF'er med tekst.

Det er nok kun en start, men de skal vel begynde et sted. Tænk bare på hvor mange billeder der skulle OCR'es uden grund, hvis Google havde valgt at inkludere ALLE billeder på nettet i deres indexering.

Og til #1, Tekstgenkendelse har eksisteret, og blevet brugt mange steder, i mange år før nogen overhovedet tænkte på CAPTCHA. Der er altså ikke tale om nogen "halv-kriminel" teknologi, som kun bruges af malware konger.

#14 - myplacedk
9. nov. 2008 13:44

TrolleRolle (13) skrev:
Dvs. det er IKKE fordi PDF er den mest udbredte måde at pakke billeder ind på.(Det håber jeg dælme ikke det er.) De har valgt PDF fordi der i forvejen er mange PDF'er med tekst.

Jeg har set to måder at udgive indscannede dokumenter:
1) En samling bitmap-filer (evt. samlet i et eller andet pakke-format)
2) Som PDF

Den første mulighed er ret upraktisk for ikke-nørder, og personligt har jeg kun set det til comic-book rips osv.

Selv med kun én side er der fordele for ikke-nørderne i at wrappe det i en PDF: Udskrift er nemt. Ingen bøvl med margin, sideformater, zoom osv.

Fx. på mit arbejde, der kan "kopi-maskinen" få en stak dokumenter i ark-føderen, og sekunder senere har jeg en PDF på min computer, klar til at emaile eller whatever, og senere klar til at blive skrevet ud igen.

Hvordan skulle man ellers organisere alle "indscanningerne", på en brugervenlig måde?

#15 - TrolleRolle
9. nov. 2008 14:11

#14 Ja du har nok ret i at PDF er den mest udbredte måde at udgive den slags dokumenter på.

Jeg tror jeg blev lidt forvirret over alt den snak om zip, rar osv. og tænkte på når man bare sender feriebillederne ned til en kammerat. Der vil jeg nu hellere have en zip end en pdf.

Så længe vi kan blive enige om at den mest forkerte måde at udgive billeder på, er at putte dem ind i et Word-dokument som attachment til en email, så er jeg tilfreds :-D

#16 - myplacedk
9. nov. 2008 14:54

#15
Well, nu er det jo dokumenter, og ikke feriebilleder det handler om. ;-)

Jeg fik engang en email, som indeholdt et Word-dokument, som indeholdet en PowerPoint-præsentation (yep, det kan man åbenbart godt), som indeholdet et jpeg-billede. Doh...

#17 - kasperd
9. nov. 2008 15:47

15 skrev:
Så længe vi kan blive enige om at den mest forkerte måde at udgive billeder på, er at putte dem ind i et Word-dokument som attachment til en email, så er jeg tilfreds :-D

Det er jeg ikke enig i. Uanset hvor forkert du synes noget er, så findes der sandsynligvis personer, der kunne finde på at gøre noget endnu mere forkert.

Jeg har set et screenshot af IE sat ind i et MSworddokument, så redigeret lidt. Derefter blev der så taget et screenshot af MSword, og da billedet ikke blev vist helt i fuld størrelse i MSword blev resultatet af det selvfølgelig, at screenshottet blev skaleret lidt ned. Det nye screenshot blev så sat ind i et MSworddukoment og vedhæftet til en email.

Teksten fra det originale screenshot havde nok været lidt nemmere at læse, hvis det bare var blevet gemt som en png fil.

Forside
⟨
Forum
⟨
Nyheder

Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login

mboost-dp1

Nyheder

Seneste kommentarer i nyheder

Seneste kommentarer i forum

Google: Nu med tekstgenkendelse i billeder