mboost-dp1

unknown

Vistas talegenkendelse ikke helt på plads

- Via Youtube - , redigeret af peter_m

Microsoft demonstrerede for nyligt et talegenkendelsesprogram, som en af de nye ting som Vista byder, man ikke har hørt meget om.

Demonstrationen af programmet gik bestemt ikke, som Microsoft ønskede det, og det kan ses i et kort videoklip hos Youtube.

Microsoft gav i første omgang skylden for den tekniske fejl til støj fra miljøet, men har dog sidenhen ændret denne forklaring og siger, de har løst problemet.





Gå til bund
Gravatar #1 - TullejR
30. jul. 2006 23:18
Ja støj, der kom sgu da først støj da den ikke kunne kende forskel på mor og tante ^^

Og det er da godt nok en ny fesen forklaring. Tester man ikke længere udstyret før man starter en demo? Uanset hvad kan man godt nok ikke kalde det professionelt.

Har microsoft egentligt nogensinde haft en successfuld demo? Lige fra Windows 98s BSOD under en demo, over til deres media-center fiasko hvor det heller ikke virkede, og nu talegenkendelse der tror at mor og tante er det samme?... hmm
Gravatar #2 - XorpiZ
30. jul. 2006 23:21
#1

Læs nu artiklen for dælen.

The whole demo was working perfectly several times.
Gravatar #3 - ssboisen
30. jul. 2006 23:22
well, man siger jo man helst skal have en dårlig generalprøve for at the real deal bliver som det skal :)
Gravatar #4 - fjols
30. jul. 2006 23:28
Man siger jo at dårlig omtale er bedre end ingen omtale.

Derudover så er det nu ikke noget der generer mig, så længe de er ærlige om det og retter fejlen. Det er trods alt ikke et færdigt produkt.
Gravatar #5 - TullejR
30. jul. 2006 23:36
#2

Så det gain-problem kom af sig selv? :-)
Gravatar #6 - Jacob O
30. jul. 2006 23:37
XorpiZ der står den virkede perfekt op til flere gange, men burde den ikke virke hele tiden?. Ved godt det en demo men alligevel..
Gravatar #7 - mrdrunk
30. jul. 2006 23:39
Er helt enig med #6. Demo eller ej. Den burde virke.
Gravatar #8 - heg
31. jul. 2006 00:01
#6-7
Det vil da være en dejlig situation den dag at beta software ikke har fejl, men mon vi nogen sinde ser den ;)
Gravatar #9 - Disky
31. jul. 2006 06:04
#8
Nope, men det viser tydeligt #6,#7 ikke kender til udvikling og hele ideen i at man har alfa og beta versioner af software.
Gravatar #10 - griffer
31. jul. 2006 06:33
Nu det ikke for at flame, men stemmestyring kunne man allerede i Apples OS9 (de har bare af en eller annden grund ikke udbygget det senere). Men anyways det havde også voldsomme problemer med støj, så blir spændene at se hvordan MS løser den. Det er vel generelt et problem med alt stemmestyret software?

(for en gang skyld vil jeg give MS ret ;))
Gravatar #11 - desvaerre
31. jul. 2006 07:01
Jeg har aldrig mødt noget stemmestyring som fungerede perfekt. Det eneste jeg dog har set var min gamle Ericsson T28 klaptelefon som kunne filtere lyden selvom man stod op af en kæmpe højtaler på et diskotek, og det er en 6-7 år siden jeg fik den, så teknologien burde være bedre nu.
Gravatar #12 - elacris
31. jul. 2006 10:17
Talegenkendelse er bestemt ikke nemt at få til at virke. De to mest udbredte metoder er enten via simpel mønstergenkendelse eller via statiske akustiske modeller.

Mønstergenkendelse bruges hovedsagelig i mobiltelefoner, fordi ressourcerne er små. Til gengæld virker det kun ved at træne telefonen til en bestemt stemme og fejler ofte hvis personen f.eks. er forkølet.

En bedre metode er akustiske moduler, som fungerer ved at finde en statistik sandsynlighed for et ord eller sætning. Aalborg Universitet har bl.a. lavet en sådan sprogmodel på dansk ved at få 3500 personer rundt om i land til at indtale en tekst på 10 minutter. Materialitet er så blevet efterbehandler af en monstercomputer. Herefter kan modellen så benyttes i programmer som f.eks. Sphinx.

Vi har arbejdet med det i godt et år sammen med Aalborg Universitet og det virker, men det kræver en PC med masse af CPU/RAM og en masse tålmodighed når lyd-ordbøgerne (fonem odbogen) skal opbygges. Til gengæld skal systemet efterfølgende ikke trænes, men kan forstå en hvilken som helst normalt talende person (også en sønderjyde :)

De interesserede kan læse mere i denne pdf: VITERBI BASERET TALEGENKENDELSE OG -FORSTÅELSE.
Gravatar #13 - ProdoX
31. jul. 2006 11:52
#12

Meget intresssant, hvilken bruger Vista så? For det med mønstergenkendelse, og at du selv skal sidde og læse en lille novelle op for din computer, for at den "måske" kan genkende din stemme, er der da vist nok ogås i XP?
Gravatar #14 - XorpiZ
31. jul. 2006 13:46
#5

Endnu engang;

Læs nu artiklen...

The reality of the situation is that Shanen and the demo setup team were aware of these issues, and great care was taken to try and eliminate the possibility of this gain setting being a problem.


Shanen practiced the demo a few times both off-stage and then again on-stage just prior to FAM starting. The whole demo was working perfectly several times.

Unfortunately, the nature of this specific audio sub-system bug is that it's intermittent. It worked great every single time. Right up until that one live demonstration -- the one that counted.


For nu at uddybe;
De VAR klar over at fejlen var der, de gjorde hvad de kunne for at rette den, de testede den flere gange på scenen uden problemer og den virkede alle gange - undtagen til live-demoen.

Andre spørgsmål?
Gravatar #15 - elacris
31. jul. 2006 17:58
#13

Vista bruger faktisk den "rigtige" metode - nemt akustiske modeller. Det er ikke første gang MS er i gang med i et lignende projekt. Carnegie Mellon University, som står bag den oprindelig kode til Sphinx, har også en anden genkender. Denne kan man dog ikke få lov til at benytte pga. licensproblemer. Det er nemlig MS som ejer en del af koden og den må kun bruges i forskningsmæssige henseende (MS tager uden at gi’). At MS aldrig har benyttet koden seriøst, er fordi den almindelig PC bruger ikke har haft stærke nok maskiner. Men det har vi nu!

Problemet med Vista er at vi måske ikke får en dansk genkender. Vi er simpelthen for få mennesker i Danmark til at det kan betale sig at indsamle og bygge sprogmodellen. MS kunne vælge at benytte den fra Aalborg Universitet, men så ville de jo ikke længere sidde på hele kagen selv.

I øvrigt er den danske sprogmodel et samarbejder mellem en række europæiske lande, hvor man ønsker at skabe en database over en række sprogmodeller på en masse sprog.
Gravatar #16 - owrflow
31. jul. 2006 20:52
Dårlig søforklaring
Gravatar #17 - BurningShadow
31. jul. 2006 20:55
"Vistas talegenkendelse ikke helt på plads"

Bitboys Windows Vista - Nu med WinFS og talegenkendelse...
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login