mboost-dp1

unknown

Gratis Dansk netordbog skrevet af kinesere

- Via Politiken - , redigeret af rackbox

Om to uger vil en ny online ordbog få hjemstavn på internettet. 20 kinesere har skrevet de 28 bind i Ordbog over det Danske sprog ind – og den kommer online d. 15. november og kan læses af alle.

Grunden til man hyrede kinesere til at skrive det ind, er at det er meget billigere og mere præcist end at skanne. Prisen på kr. 800.000,- skal sammenlignes med antageligvis flere millioner, hvis ordbogen skulle scannes ind og fejlrettes bagefter.

To hold skrev det hele ind og til sidst sammenlignede man teksten, som havde en fejlpromille på 0,01 – også selvom (eller måske fordi) kineserne ikke fattede et suk af hvad de skrev.





Gå til bund
Gravatar #1 - GReaper
6. nov. 2005 18:43
"Grunden til man hyrede kinesere til at skrive det ind, er at det er meget billigere og mere præcist end at skanne"
...!?!

Jeg synes da at kinesere er nogle af de værste til at oversætte
Gravatar #2 - rackbox
6. nov. 2005 18:45
De skulle heller ikke oversætte noget, men blot taste efter en tekst.

Der var iøvrigt gode erfaringer fra Tyskland, står der...
Gravatar #3 - BurningShadow
6. nov. 2005 18:46
#1

Men det skulle de jo så netop heller ikke. De skulle bare skrive af.

[edit]
Æv, #2 kom først...
[/edit]
Gravatar #4 - CyBeRDuDe
6. nov. 2005 19:00
Øhhh.. Jeg forstår ikke helt hvorfor at indskrive en udprintet version af en tekst kan være mere præcis end en scanning?????
Ville en scanning (sådan havde jeg forstået scanning virkede) ikke være en tro kopi af det udprintede?... Fejlrettes??...
Jo der kan da være sider der blevet scannet dårligt ind, men så kunne man bruge 500.000 kr på verdens bedste scanner og så sætte en person til at arbejde med det i 1 uges tid...
Er der andre her der ikke rigtigt forstår logigikken i det her?... :S... Eller er det bare mig?...
Gravatar #5 - asger
6. nov. 2005 19:04
He he

Griner'n kommentar:

også selvom (eller måske fordi) kineserne ikke fattede et suk af hvad de skrev.
Gravatar #6 - MacMiskenn
6. nov. 2005 19:05
#4
Når det menes at der skal fejlrettes efter det er blevet scannet ind, er det fordi der findes programmer som kan genkende tekst på billeder og derved lave dem om til tekstdokumenter(f.eks. OmniPage).

Men oftest sker der fejl når billederne bliver konventeret, så derfor ville det kræve at der blev fejlrettet bagefter.
Gravatar #7 - rackbox
6. nov. 2005 19:15
Det, som #6 omtaler, hedder OCR (Optical Character Recognition) og er en fin metode til mange formål. Desværre er det ikke 100% pålideligt og det betyder at man bliver nødt til at læse ALT igennem, selvom der kun er 1% fejl eller færre. Der er jo intet der fortæller dig hvor den ene procent fejl er henne, hehe
Gravatar #8 - Lobais
6. nov. 2005 19:16
Hvis de alligevel har fået tilladelse af et eller andet firma, til at skrive deres leksikon ind, hvorfor fik de så ikke bare filerne, som de så ud før de blev printet?

Men ud over det, er det da rat med et gratis dansk leksikon. Er der nogen der ved om det er så frit, at man f.eks. må bruge det i sine programmer?
Gravatar #9 - dkr
6. nov. 2005 19:21
ud over lønnen er der også en anden grund til at bruge nogle der ikke fatter en brik, de sætter ikke spørgsmålstegn ved noget de skriver bare af.

og jo OCR er ikke altid ret præcist, slet ikke hvis det er en bare lidt ringe kopi.
Gravatar #10 - dkr
6. nov. 2005 19:22
har folk overvejet at det kun findes trykt
Gravatar #11 - Azuria
6. nov. 2005 19:29
#1 Som #2 siger... men ret det har du..
http://epx.dk/filer/brugsvejledning.jpg

Kunne være dejligt om denne ordbog kom med i en define søgning på google..
Gravatar #12 - inzano
6. nov. 2005 19:36
#11 hahaha
Gravatar #13 - Stauning
6. nov. 2005 19:40
#4
De skriver at man i sverige brugte 15! år fordi der var så mange OCR fejl (eller måske nærmere det tog tid at finde det hele)

#8
Jeg tror ikke du skal regne med du kan bruge det i programmer, men du kan bruge det via nettet.

Hvilket også er på tide, den "ordbog" som dansk sprog nævn har er totalt elendig.


Iøvrigt, hvorfor er dette en WNZ? Det er da meget interessant :)
Gravatar #14 - rackbox
6. nov. 2005 19:46
#13 Det er mig der godkendte nyheden.. Havde faktisk osse lidt svært ved at placere den, men på forsiden skulle den i hvert fald :-)

#11 Den er en af de mere seriøse, den fil du linker til, hehe. Jeg har da osse set sjove "undersættelser" i tidens løb. Prøv eks. http://www.engrish.com/

Nå, on topic: 28 bind + 5 supplementsbind. Damn det er et stort værk! Vidste slet ikke at vi havde så mange ord på dansk :-)
Gravatar #15 - exp
6. nov. 2005 19:49
#8
Husk lige, at samlingen blev påbegyndt omkring år 1900 - dengang havde de færreste en computer ;-)
Gravatar #16 - CyBeRDuDe
6. nov. 2005 20:43
#6 :)
Takker. Hehe. Kender udemærket godt teknologien. Hmm... glemte vist bare at bruge det indre af det der sidder oven over min hals :P.

#13 Ja, har du ret i, kunne være næste gang man skulle læse HELE artiklen inden man skriver... :P...

Jeg troede dog ikke at OCR havde så meget mere fejl end manuel indtastning.
Men alligevel, for 500.000 - 800.000 (hvis de blev brugt rigtigt) ville man vel godt kunne købe en über scanner så man kan få en ordentligt indscanning som ville lindre antal OCR fejl?
Gravatar #17 - SuX
6. nov. 2005 20:54
Det må godt nok have været kedligt!
Gravatar #18 - gameovernet
6. nov. 2005 21:17
Det var da det stiveste... kan godt forstå at alt arbejde flyttes til asien når de er billigere end en scanner.
Gravatar #19 - drzero
6. nov. 2005 21:31
#8: Det er Det Danske Sprog- og Litteraturselskab (hvor jeg arbejder) der har lavet og udgivet ordbogen, og nu også er tæt på at have en netudgave på trapperne, så det har ikke været så svært at få tilladelsen :) Desværre fandtes ordbogen kun i papirform da den er fra før it-alderen.
Derudover skal det liges nævnes at ODS (Ordbog over det Danske Sprog) dækker dansk op til 1955, så den er ikke videre interessant for "almindelige" mennesker. Det er vores næste netordbog derimod - DDO (Den Danske Ordbog) dækker sproget fra 1955 op til 2000. Sidste bind udkommer her inden længe og der har vi hele molevitten i XML, så der behøver vi ikke at hyre kinesere til at taste. Jeg ved dog ikke hvornår DDO forventes at komme på nettet.
Til sidst kan jeg nævne at man frit kan bruge den online, men det er ikke muligt f.eks. at inkludere den (hverken ODS eller DDO) som f.eks. OpenOffice ordbog. Jeg har forsøgt at bearbejde selskabet inde fra for at muliggøre en sådan brug, men der er desværre visse rettighedsmæssige problemer som komplicerer sagen noget.
Gravatar #20 - dkr
6. nov. 2005 21:46
"den kommer online d. 15. november og kan læses af alle."

jeg håber det gælder alle som fx blinde/svagtsende, det det langtfra er alt man kan læse som synshandicappede. samtidig håber jeg at man kan bruge den med FF og andre.
Gravatar #21 - chrisped
6. nov. 2005 21:50
Holy crap, hvor må det være et røvsygt arbejde.

Melder historien noget om selvmordsraten i de to tastegrupper i forhold til resten af befolkningen?
Gravatar #22 - valeur
6. nov. 2005 21:57
To hold skrev det hele ind og til sidst sammenlignede man teksten, som havde en fejlpromille på 0,01 - også selvom (eller måske fordi) kineserne ikke fattede et suk af hvad de skrev.

Hehe - jeg er ikke utilbøjelig til at give dig ret hvad angår den sidste kommentar.
Men som jeg forstår det, er det netop fordi man har haft to hold til uafhængigt af hinanden at skrive teksterne og derefter kunnet nøjes med at kikke (og rette) forskellene at man regner med at fejlraten er så lav som angivet.
Det samme nummer kan formentlig ikke laves med scanning og efterfølgende OCR.
Gravatar #23 - ChrashOverride
6. nov. 2005 21:57
Humor nok..
Men ved ikke rigtigt om jeg får en lidt dårlig smag i munden.

På den ene side føler jeg lidt det er groft udnyttelse.

På den anden siden har de sikkert fået nok ud af det til at kunne leve ergo ingen sultne kineser.

Men intersant nok at man fandt frem til det.

Dog har dette sikkert givet HP og andre leverandøre noget at tænke på vedr deres scanner software at man kan hyre kineser til at lave "scanningen for sig" Scanneren blev netop opfundet pga at det A. tog for lang tid at skrive af, B. det var billiger i time løn samt mindre resource krævende.

Dette er dog en af de ting jeg elsker ved kineseren.
De er et af de mest ihærdige folke færd jeg længe har stødt på.
Gravatar #24 - bugger
6. nov. 2005 22:27
#23 Jeg har en ualmindelig god smag i munden.

- Det er ikke farlig kemikaliearbejde.
- Det er arbejde ufaglærte fattige kinesere kan udføre.
- Mon ikke de har været glade for at tjene penge?

Vi er alt for forkælede i DK til selv at udføre kedeligt arbejde.

Mon ikke snart Google stjæler idéen ;)?
Gravatar #25 - graynote
6. nov. 2005 22:29
mhh...en fejlpromille på 0,01 - læste man korrektur?

..og hvis man gjorde, kunne man da ikke bare have gjort det på scannede sider?

..og læste man ikke korrektur, hvordan ved man da, at fejlraten er netop dét?


/graynote
Gravatar #26 - ChrashOverride
6. nov. 2005 22:41
#24
Jo du har sikkert ret, det er bare det med børne fabrikker og andre ting som ryger først ind på nethinden må jeg nok sige.
Men som jeg også selv sage det får de sikkert mad på bordet hvilket ikker er helt dårligt.

Google... Hmm ved jeg ikke måske køber de fabriken eller hvad det nu er er og sætter dem til at lave en masse arbejde.
Gravatar #27 - BurningShadow
6. nov. 2005 22:46
Det gode ved kineserer at at de ikke kræver driverer, så de kan bruges på alle de obskurer styresystemer der findes...

Jeg tror jeg vil have en kineser derhjemme. Nogen der ved hvor de kan købes? Jeg har kikket på EDBpriser, men har ikke kunnet finde nogle ;-(
Gravatar #28 - bibz.dk
6. nov. 2005 22:53
20 kinesere har skrevet de 28 bind "i Ordbog" over det Danske sprog ind....

skrevet de 28 bind i Ordbog???? lyder det ikke fjollet eller er det bare mig der ikke lige fatter det?
Gravatar #29 - demiurgos
6. nov. 2005 22:56
#28 (bibz.dk)

"20 kinesere har skrevet de 28 bind i Ordbog over det Danske sprog ind..."

Giver det bedre mening nu?

EDIT: "sprog" burde dog skrives med stort.
Gravatar #30 - mim
6. nov. 2005 23:02
#25 Som jeg læser det har de sat to hold på opgaven, bagefter laver de en diff på de to holds resultater, og herfra kan de så finde en fejlprocent, hvis man går ud fra at de to hold ikke har lavet de samme fejl.
Gravatar #31 - moestrup
6. nov. 2005 23:03
#25
læs artiklen:
Vi fik faktisk skrevet ODS ind i to uafhængige versioner. Ved efterfølgende at køre de to versioner sammen kunne man nøjes med at mærke forskellene på de to versioner op og derefter rette til det rigtige. Det har betydet, at vi har fået en udgave, hvor fejlprocenten menes at være på 0,01 promille«, siger Henrik Andersson.

Nå der var en der var hurtigere, men her er hvad der står!
Gravatar #32 - bibz.dk
6. nov. 2005 23:04
næ, synes stadig det lyder "wag"....

"20 kinesere har skriver de 28 bind ind over det danske sprog"

Lyder da bedre..... eller fatter jeg det måske stadig ikke, hvad han mener.....

Det er vel en ordbog de bare har skrevet ind, eller?

Måske er jeg også bare for træt... could be

// ouT
Gravatar #33 - munthe
6. nov. 2005 23:15
De kunne jo saa have scannet det og lagt det op frit, saa kunne den danske befolkning rette det lobende, det burde da vaere billigere,..
Gravatar #34 - xiphias
6. nov. 2005 23:17
#32
"De 28 bind som ordbogen "Ordbog over det Danske Sprog" fylder, er blevet skrevet ind af 20 kinesere"

Bedre nu? :p
Gravatar #35 - Joatmon
6. nov. 2005 23:17
#32

Den ordbog de har tastet hedder "Ordbog over det Danske sprog"

/Joatmon
Gravatar #36 - hindu
6. nov. 2005 23:20
#33
Hvis man slår et ord op, så er det vel fordi man IKKE kan stave til det ;)
Gravatar #37 - bibz.dk
6. nov. 2005 23:20
#34

På den måde..... hvorfor har "skribenten" ikke skrivet det på den måde, så alle trætte sjæle også kunne forstå den :-P

// oUT
Gravatar #38 - Knudsen^^
6. nov. 2005 23:24
#33 - Nej, den danske befolkning kunne ikke rette det løbende, se bare hvordan det er gået wikipedia f.eks. For mange klaphatte der laver bevidste fejl eller idioter der tror de ved noget og retter noget rigtigt til noget forkert..
Gravatar #39 - rabonzo
7. nov. 2005 04:00
HEUREKA!!

Endlig fandt jeg ud af den Lorte Stofanet reklame... "Vi sender internettet på overarbejde"... De der lynkinsere... Det er sgu da dem der er tale om?!?
Gravatar #40 - Nuclear Warhead
7. nov. 2005 16:00
#13: Ordbogen fra Dansk Sprognævn er en Retskrivningsordbog, ikke en betydningsordbog.
#36: Så ville man bruge en retskrivningsordbog

Og så er det heller ikke et leksikon som nogle vist skriver, men en ordbog over det danske sprogs brug fra Holbergs tid til ca. 1950 (plus supplementbind vist).

Og jeg synes det er superfedt at den kommer online, den har jo ikke været til at opdrive i antikvariater og lign.
Gravatar #41 - graynote
7. nov. 2005 18:25
#31 moestrup:

Ah..yeah...det kunne være en idé ..hehe..

Tak, også til #30, for klarificeringen, min dovenskab til trods. :)


/graynote
Gravatar #42 - Kamon
7. nov. 2005 19:17
#20

En blind kan godt læse det, hvis han har en logtekst (en maskine man kan føle blinskiften på) :).

Det var da godt klaret af de kineser. Der står da ikke noget om hvor lang tid det tog.
Gravatar #43 - eruantalon
7. nov. 2005 20:10
#14 Ja meget stor. Min far har hele værket stående på reolen. Der findes bare ikke det gamle ord man ikke kan slå op. En ordentlig moppedreng!!!
Gravatar #44 - drzero
7. nov. 2005 22:11
#42: Det tog ikke særlig lang tid, et par måneder tror jeg nok.
Gravatar #45 - bridgehajen
9. nov. 2005 07:15
#37: Overskrifterne på newz.dk skrives af kinesere, da det går hurtigst. Det troede jeg, alle vidste?

De fleste debatindlæg er også skrevet af kinesere, specielt alle indlæg omkring Linux vs. Windows. Disse kan skrives af efter gamle debatindlæg med en fejlmargen på kun 0,1%.

Ping.
Gravatar #46 - ThomasDK
9. nov. 2005 07:16
hmmm......
Gravatar #47 - thj01
10. nov. 2005 21:35
De fleste debatindlæg er også skrevet af kinesere, specielt alle indlæg omkring Linux vs. Windows. Disse kan skrives af efter gamle debatindlæg med en fejlmargen på kun 0,1%.

Ping.


Er det ikke det der hedder flaming og off-topic
Gravatar #48 - BurningShadow
10. nov. 2005 22:24
#47

Er det der, ikke det der hedder et dumt spørgsmål?
Naturligvis er det flaming, of off-topis; Det her er Newz.dk ;-)
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login