mboost-dp1

SXC - happe

Svenske forskere får EU-støtte til oversættelsessoftware

- Via Version2 - , redigeret af Avenger- , indsendt af LordMike

I EU er der 23 officielle sprog og ca. 150 forskellige lokale sprog, hvilket gør vidensdeling landene imellem kompliceret. Derfor har EU valgt at spytte 17 mio. kr. i kassen til et svensk forskningsprojekt, der skal udvikle meget præcis oversættelsessoftware, hvoraf mestendels af koden skal frigives som open source under GPL.

Molto Projektet (Multi-lingual Online Translation) har, i modsætning til nuværende maskinoversættere som Babelfish og Google Translate, ikke den almindelige, private internetbruger som sin målgruppe. I stedet skal softwaren bruges til virksomheder og institutioner, f.eks. til oversættelse af patenter inden for EU.

Aarne Ranta, Göteborgs universitet skrev:
Vi vil arbejde på en oversættelsesteknik, der er så præcis, at folk, der producerer tekster, kan benytte vores oversættelser direkte. Vi er nu begyndt på at gå fra præcision til øget dækning, hvilket vil sige, at vi har tilføjet flere sprog til værktøjet og vores database.

Konsortiet bag forskningsprojektet forventer at have en betaudgave klar til sommer, mens det endelige produkt skal være klar inden for de næste 2 år.





Gå til bund
Gravatar #1 - vulpus
6. feb. 2010 08:46
Super initiativ. Håber de kopier de gode aspekter af translate.google.com
Gravatar #2 - webwarp
6. feb. 2010 08:52
#1 der er jo intet nyt under solen, jeg ved da snart ikke hvor ofte man har læst om disse projekter - Har dog sjovt nok aldrig læst igen om den, hvor de bliver brugt i praksis...

Fx hvor bliver vores modul af så vi kan tale til computeren på dansk.. Er vel over 10 år siden at TeleDK/TDC fik forskningsmidler til dette.. Jeg mangler det fortsat.. :=) ?

Jeg tænker også her på at det er til oversættelse af patenter.. Patenter er vel netop ofte svære at oversætte, og kan få store juridiske konsekvenser, hvis de ikke bliver oversat korrekt, så jeg er skeptisk, især nå vi 'blot' taler om 17 mio kr....
Gravatar #3 - mathiass
6. feb. 2010 08:57
vulpus (1) skrev:
Super initiativ. Håber de kopiere de gode aspekter af translate.google.com
Det tror jeg bestemt ikke de vil. Det er forskning, og bare at efterligne et kommercielt produkt ville være fuldstændig spild af forskerpenge.
Gravatar #4 - Lares
6. feb. 2010 09:32
webwarp (2) skrev:
Fx hvor bliver vores modul af så vi kan tale til computeren på dansk.. Er vel over 10 år siden at TeleDK/TDC fik forskningsmidler til dette.. Jeg mangler det fortsat.. :=) ?

Sådan et mener jeg da, jeg havde for 10 år siden.
Gravatar #5 - hr. værk
6. feb. 2010 10:02
Forskningsprojekt til at forbedre oversættelser: 17mio
Indføre Engelsk som officielt sprog i hele EU: ~0,-
Vide at vores politikere pisser vores penge væk som lys øl i en studenterbar: Facepalm!
Gravatar #6 - XorpiZ
6. feb. 2010 11:05
#5

Så du mener ikke der ville være nogle omkostninger ved at skifte sprog i alle EU-lande?
Gravatar #7 - hr. værk
6. feb. 2010 11:54
#6
Ikke sammenlignet med de kontinuerte omkostninger der er ved at blive ved med ikke at fatte hinanden og bruge penge på tolke osv.
Gravatar #8 - XorpiZ
6. feb. 2010 12:18
hr. værk (7) skrev:
#6
Ikke sammenlignet med de kontinuerte omkostninger der er ved at blive ved med ikke at fatte hinanden og bruge penge på tolke osv.


Det skal jeg ikke kunne sige. Men hvis din holdning er, at vi da bare skal indføre engelsk som officielt sprog i EU, så er jeg glad for, at du ikke er enehersker.
Gravatar #9 - hr. værk
6. feb. 2010 12:33
#8
Tvivler på at der er ret mange der ville ønske nogen andre end dem selv som enehersker...
Gravatar #10 - Regus
6. feb. 2010 13:18
Hvorfor under GPL det begrænser jo mulighederne for erhverslivet betydeligt, det ville da være langt mere meningsgivende at udgive den under BSD licensen
Gravatar #11 - webwarp
6. feb. 2010 13:29
#4 og det hedder.. ?
Gravatar #12 - Taxwars
6. feb. 2010 16:46
Det er jo rigtig det koster EU og der med alle os - KASSEN at oversætte alt - det er enorme bjerge af papir. I 2005 kostede det over 8 milliarder! Bare at oversætte alt til alle sprog.
Nu vil en masse jo også blive sure hvis de skulle tinges til et fældes sprog (og franskmændend vil jo nok have det blive fransk!) men man kunne jo langsomt begynde at arbejde sig hen imod det.
Gravatar #13 - Dijkstra
6. feb. 2010 20:20
Jeg tror simpelthen ikke på et fællessprog.
Men hvis vi absolut skal have et fællessprog, kan vi så ikke vælge et der er simpelt at lære. Det tager ikke indfødte 10-15 år at lære at tale engelsk, og stadig vil de oftest ligne en imbecil sammenlignet med en indfødt englænder eller amerikaner.

Esperanto vil være et bud. Det kan læres til UG med kryds og slange på et par år.

Stadig tror jeg ikke på et fællessprog. Måske et fælles 2. sprog. Så danskere taler dansk, amerikanere taler amerikansk/engelsk, kinesere taler kinesisk og polakker taler polsk. Og dermed bl.a. beholde uerstattelige og store mængder kultur og historie.
Men når vi skal tale sammen på kryds af grænser, ja så lad det være på et nemt sprog som f.eks. Esperanto.
Gravatar #14 - arne_v
6. feb. 2010 20:31
Regus (10) skrev:
Hvorfor under GPL det begrænser jo mulighederne for erhverslivet betydeligt, det ville da være langt mere meningsgivende at udgive den under BSD licensen


Når det nu er et program og ikke et bibliotek, så er den primære forskel mellem GPL og BSD, at GPL ikke tillader closed source forks.

Virksomheder bruger masser af GPL software: Linux, MySQL etc..

Gravatar #15 - Skak2000
6. feb. 2010 22:08
Håber at man snart får skruet et ordentlig oversætter program sammen. Burde da være muligt hvis man kan lære computeren grammatik regler...
Gravatar #16 - joensson
6. feb. 2010 22:43
webwarp (2) skrev:

Fx hvor bliver vores modul af så vi kan tale til computeren på dansk.. Er vel over 10 år siden at TeleDK/TDC fik forskningsmidler til dette.. Jeg mangler det fortsat.. :=) ?


Hvis du mener at der skulle eksistere et gratis system på baggrund af det arbejde, så tror jeg du tager fejl. Der er muligvis skrevet fine rapporter og forskellige tekniske løsninger som andre frit må bruge - men der er så vidt jeg ved ikke noget gratis system tilgængeligt.

Men hvis du vil have et eksempel på at det findes til dansk, så er det danskudviklet talegenkendelses software der bruges til at lave Live undertekstning på DR og TV2 - http://www.pdc.dk/Speech%20solutions/speech.asp. Til almindelig brug er det nok Dictus der er mest interessant (udviklet af samme firma) - det koster en tusse http://www.pdc.dk/dk/dictus/
Gravatar #17 - Regus
7. feb. 2010 01:01
arne_v (14) skrev:
Når det nu er et program og ikke et bibliotek, så er den primære forskel mellem GPL og BSD, at GPL ikke tillader closed source forks.

Virksomheder bruger masser af GPL software: Linux, MySQL etc..


men der er absolut ingen fordel i at det er open source hvis man alligevel ikke må bruge sourcen til noget, og jeg kan ikke se nogen grund til at noget der laves for skattekroner skal udgives under en restriktiv licens
Gravatar #18 - arne_v
7. feb. 2010 01:27
#17

Regus (17) skrev:
men der er absolut ingen fordel i at det er open source hvis man alligevel ikke må bruge sourcen til noget,


Hvilket er totalt forkert.

GPL tillader dig:
* bruge koden as is
* modificere koden og bruge den internt
* modificere koden og distribuere den modificerede versioner GPL

GPL tillader dig ikke at:
* modificere koden og distribuere den som closed source

Du kan synes at det sidste er en skam.

Men der kunne altså også være skatteydere som syntes at det var lidt mystisk at:
1) de betalte for at få udviklet noget software (via skatten)
2) et firma tager den kode og laver en lettere forbedret udgave som closed source
3) de skal nu betale fuld pris for den software som de har finansieret måske 90% af udviklingen for
og mene at hvis firmaer vil lave software med en traditionel kommerciel closed source licens, så må de selv betale for udviklingen!

Gravatar #19 - ipwn
7. feb. 2010 10:41
Held og lykke med det :)

I min AI bog var der et eksempel på et lignende system der blev brugt under den kolde krig til at aflytte russerne fra amerikansk side. Det virkede bare ikke, fordi sprog er indforstået, og det er ikke blot ordene der giver mening. Oversætning ved ord alene, giver ikke meget mening, da ethvert indforstået udtryk mistes, så som ordsprog eller ord som betyder noget andet i en specifik kontekst, der måske endda ikke er bestemt af nogle regler.

Så deres system må forstå sprogkulturen for både input og output sproget, før at det kan give mening :)

Ikke at jeg har en løsning, ved Gud nej. Det er bare en stor udfordring. En udfordring som de fleste ikke er klar over er der. Men prøv selv at tage en ordbog fra et sprog du ikke kender, og begynd at oversæt. Uden forståelse for sproget og dets kultur, vil det ikke give mening.
Gravatar #20 - Regus
7. feb. 2010 11:10
#18
Jeg forstår ikke helt hvad problemet er i at et sådant firma laver nogle forbedringer og sælger det som closed source, den oprindelige kode er stadig åben og nu er der et tilbud mere på markedet der ellers ikke ville være det - det må da være i alles interesse at der er så mange tilbud som muligt.

Gravatar #21 - Barnabas
7. feb. 2010 15:15
Regus (20) skrev:
Jeg forstår ikke helt hvad problemet er i at et sådant firma laver nogle forbedringer og sælger det som closed source, d


Der er ingen problemer, men du skal efterleve GPL licensen.

Ligesom du sikkert efterlever MS EULA på din win 7.
Gravatar #22 - arne_v
7. feb. 2010 15:22
#21

Nu snakker han der om BSD licens ....
Gravatar #23 - arne_v
7. feb. 2010 15:27
Regus (20) skrev:
og nu er der et tilbud mere på markedet der ellers ikke ville være det - det må da være i alles interesse at der er så mange tilbud som muligt.


Nej. Det er ikke i alles interesse.

Jo det ville være i alles interesse, hvis penge opstod ud af den blå luft.

Men det gør det ikke. Vi taler om at bruge skattekroner som skal betales af de danske skatteydere.

Jeg tror ikke at at alle danskere synes at staten skal sikre et bredt udvalg af software ved at finansiere software udvikling.
Gravatar #24 - Lord HellFire
8. feb. 2010 02:46
#15> Problemet er ikke grammatiske regler. Dem kender diverse programmer allerede, inkl. Word har grammatiske regler indprogrammeret. Det er den nemme del. Regler er simple at indkorporere i programmer.
Den svære del er at forstå hvad der står i teksten og oversætte det korrekt. Mange ord har flere betydninger alt efter konteksten. Konteksten behøver heller ikke findes i samme sætning, som skal oversættes. Derfor er det svært for programmer at foretage oversættelser.
Derudover er der nogle ordsprog eller fraser, som ikke giver mening på målsproget, hvis oversat "direkte", men man skal istedet finde en/et relevant frase/ordsprog på målsproget, som giver sætningen mening; eller helt omformulere sætningen for at frembringe den mening, som forsøges fortalt. Indskudte sætninger, som f.eks. noget om en kylling der ikke tør køre for stærkt, kan også være svær at forstå. Specielt hvis den indskudte sætning slet ikke giver mening i forhold til konteksten. Kylling kan betyde fuglen eller en person der er bange for at køre for stærkt i en bil. Da en kylling ikke kan køre, så vil det logisk set være en person der referes til. Det kan en computer dog ikke regne ud, uden at vide hvad en kylling er, samt vide hvad aktionen "køre" betyder og at en kylling normalt ikke kan "køre" en bil.

Programmet skal bringes til at forstå indholdet i teksten, eller i det mindste fortolke det, så en mere eller mindre korrekt oversættelse kan frembringes.

At bringe et program til at "forstå" eller fortolke teksten kan være et stort arbejde, netop fordi verden er langt fra simpel. En dag lykkes det og ved at skabe sådan et oversættelsesprogram, vil man samtidig bringe AI'er et pænt skridt tættere på fordi sådan en oversættelsesdatabase vil kunne bibringe en uvurderlig del til AI'en: Forståelsen af tekst.

(Opdager lige at #19 basalt set har givet nogle af de samme pointer)
Gravatar #25 - Windcape
8. feb. 2010 05:03
arne_v (23) skrev:
Nej. Det er ikke i alles interesse.
Men da et firma ikke kan tjene penge på software, så vil ingen virksomheder have interesse i at videreudvikle på softwaren.

Og derfor er det vel irrelevant om det udgives som Open Source eller ej, set fra et forretningsperspektiv.

Det eneste denne software kan bruges til er at sælge en oversættelses service i stil med Google Language Tools eller Babelfish, da GPL ikke kræver interne modificeringer der ikke distributeres frigivet.

Hvad de skal udvikle er vel et form for library med en række algoritmer, ikke et direkte slut produkt. Hvilket netop ikke giver mening at bruge GPL til.

Og hvis der bliver brugt millioner på research der aldrig kommer i brug pga. en for restriktiv licens, så er det jo bare spildte penge.

Jeg kan overhovedet ikke forestille mig hvordan man kan leve af at sælge support til et produkt der skal oversætte tekst. Det er og bliver et "hyldevare" produkt, som skal sælges licenceret.

(Og jeg betragter ikke muligheden for at sælge et produkt, som har tvunget gratis kildekode).
Gravatar #26 - decx
8. feb. 2010 10:54
Tyskland, Spanien, Frankrig, Italien giver sig aldrig. De mener jo selv deres eget sprog er guds gave til verdens folk, oh ve!, de som ikke taler deres perfekte, kulturelt overlegne sprog.

Engelsk er vejen frem og aktiv dødshjælp til dem der ikke forstår det er et skridt i den rette retning.

Ja ok, måske bare aktiv dødshjælp til EU politikere, men det er stadigt en nettogevinst for samfundet!
Gravatar #27 - nightH
9. feb. 2010 01:00
som kommentar til #2: webwarp:

Jeg kan da huske at EU satte et projekt i søen for mindst 15, hvis ikke 20 år siden, som skulle ende med et program der kunne oversætte mellem alle sprogene der blev brugt i EU på det tidspunkt, så ideen er absolut ikke ny..

Gravatar #28 - arne_v
15. feb. 2010 00:45
Windcape (25) skrev:
Og hvis der bliver brugt millioner på research der aldrig kommer i brug pga. en for restriktiv licens, så er det jo bare spildte penge.


Husk på at licens kun drejer sig om copyright ikke om patenter.

De vil naturligvis udgive deres forskningsresultater som firmaer så frit kan bruge til at implementere deres løsninger.

Det er kun deres konkrete kode, hvor de insisterer på at dem son har betalt for det (skatteyderne) også skal have adgang til afledte versioner af koden.
Gravatar #29 - arne_v
15. feb. 2010 00:45
#mange

Jeg kan også huske oversættelses projekt tilbage midt i 90'erne.

Kodet i Lisp på Symbolics maskiner ....

Gravatar #30 - LasseM
27. feb. 2010 16:00
Kvalitén i maskinöversättningar beror till stor del på källtexten. Därför pågår ett arbete med ett reducerat engelskt ordförråd, som tekniska handböcker skulle kunna använda för att göra jobbet lättare för maskinerna.

I polemiska texter (som förslag och debatter i EU-parlamentet) finns ett innehåll även mellan raderna, vilket en maskin inte ser och troligen aldrig kan lära sig att se.

Egenskaper hos källspråket spelar också stor roll. Engelskan, där ett och samma ord kan vara adjektiv, substantiv och verb, och där genus och kasus är förenklade, fungerar inte bra som källspråk i maskinöversättningar. Det är en av anledningarna till att översättningar från t ex spanska till små språk som svenska och danska blir så dåliga - de översätts först från spanska till engelska och sedan från engelska till svenska/danska.

Google Translate ger förvånansvärt bra resultat men det händer att man får översättningar med chockerande grova fel. Jag använde nyss Google för att översätta en spansk text som innehöll frasen "no tiene nada que ver con este proceso" ("det har inget med den här processen att göra"). I översättningen till engelska försvann negationen, jag fick "which has to do with this process". Tydligen kan Google inte hantera de dubbla negationer som är regel i spanskan. "No" (inte) och "nada" (inget) tog ut varandra som två minus i matematiken.

Den användare som inte har åtminstone elementära kunskaper i både källspråket och målspråket riskerar alltså att bli ordentligt lurad.

Göteborgs universitet använder ordet "pålitligt" i sitt meddelande om EU-anslaget på 17 miljoner. Det är inget fel på kuraget.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login