mboost-dp1

unknown
- Forside
- ⟨
- Forum
- ⟨
- Nyheder
Ja støj, der kom sgu da først støj da den ikke kunne kende forskel på mor og tante ^^
Og det er da godt nok en ny fesen forklaring. Tester man ikke længere udstyret før man starter en demo? Uanset hvad kan man godt nok ikke kalde det professionelt.
Har microsoft egentligt nogensinde haft en successfuld demo? Lige fra Windows 98s BSOD under en demo, over til deres media-center fiasko hvor det heller ikke virkede, og nu talegenkendelse der tror at mor og tante er det samme?... hmm
Og det er da godt nok en ny fesen forklaring. Tester man ikke længere udstyret før man starter en demo? Uanset hvad kan man godt nok ikke kalde det professionelt.
Har microsoft egentligt nogensinde haft en successfuld demo? Lige fra Windows 98s BSOD under en demo, over til deres media-center fiasko hvor det heller ikke virkede, og nu talegenkendelse der tror at mor og tante er det samme?... hmm
XorpiZ der står den virkede perfekt op til flere gange, men burde den ikke virke hele tiden?. Ved godt det en demo men alligevel..
Nu det ikke for at flame, men stemmestyring kunne man allerede i Apples OS9 (de har bare af en eller annden grund ikke udbygget det senere). Men anyways det havde også voldsomme problemer med støj, så blir spændene at se hvordan MS løser den. Det er vel generelt et problem med alt stemmestyret software?
(for en gang skyld vil jeg give MS ret ;))
(for en gang skyld vil jeg give MS ret ;))
Jeg har aldrig mødt noget stemmestyring som fungerede perfekt. Det eneste jeg dog har set var min gamle Ericsson T28 klaptelefon som kunne filtere lyden selvom man stod op af en kæmpe højtaler på et diskotek, og det er en 6-7 år siden jeg fik den, så teknologien burde være bedre nu.
Talegenkendelse er bestemt ikke nemt at få til at virke. De to mest udbredte metoder er enten via simpel mønstergenkendelse eller via statiske akustiske modeller.
Mønstergenkendelse bruges hovedsagelig i mobiltelefoner, fordi ressourcerne er små. Til gengæld virker det kun ved at træne telefonen til en bestemt stemme og fejler ofte hvis personen f.eks. er forkølet.
En bedre metode er akustiske moduler, som fungerer ved at finde en statistik sandsynlighed for et ord eller sætning. Aalborg Universitet har bl.a. lavet en sådan sprogmodel på dansk ved at få 3500 personer rundt om i land til at indtale en tekst på 10 minutter. Materialitet er så blevet efterbehandler af en monstercomputer. Herefter kan modellen så benyttes i programmer som f.eks. Sphinx.
Vi har arbejdet med det i godt et år sammen med Aalborg Universitet og det virker, men det kræver en PC med masse af CPU/RAM og en masse tålmodighed når lyd-ordbøgerne (fonem odbogen) skal opbygges. Til gengæld skal systemet efterfølgende ikke trænes, men kan forstå en hvilken som helst normalt talende person (også en sønderjyde :)
De interesserede kan læse mere i denne pdf: VITERBI BASERET TALEGENKENDELSE OG -FORSTÅELSE.
Mønstergenkendelse bruges hovedsagelig i mobiltelefoner, fordi ressourcerne er små. Til gengæld virker det kun ved at træne telefonen til en bestemt stemme og fejler ofte hvis personen f.eks. er forkølet.
En bedre metode er akustiske moduler, som fungerer ved at finde en statistik sandsynlighed for et ord eller sætning. Aalborg Universitet har bl.a. lavet en sådan sprogmodel på dansk ved at få 3500 personer rundt om i land til at indtale en tekst på 10 minutter. Materialitet er så blevet efterbehandler af en monstercomputer. Herefter kan modellen så benyttes i programmer som f.eks. Sphinx.
Vi har arbejdet med det i godt et år sammen med Aalborg Universitet og det virker, men det kræver en PC med masse af CPU/RAM og en masse tålmodighed når lyd-ordbøgerne (fonem odbogen) skal opbygges. Til gengæld skal systemet efterfølgende ikke trænes, men kan forstå en hvilken som helst normalt talende person (også en sønderjyde :)
De interesserede kan læse mere i denne pdf: VITERBI BASERET TALEGENKENDELSE OG -FORSTÅELSE.
#5
Endnu engang;
Læs nu artiklen...
For nu at uddybe;
De VAR klar over at fejlen var der, de gjorde hvad de kunne for at rette den, de testede den flere gange på scenen uden problemer og den virkede alle gange - undtagen til live-demoen.
Andre spørgsmål?
Endnu engang;
Læs nu artiklen...
The reality of the situation is that Shanen and the demo setup team were aware of these issues, and great care was taken to try and eliminate the possibility of this gain setting being a problem.
Shanen practiced the demo a few times both off-stage and then again on-stage just prior to FAM starting. The whole demo was working perfectly several times.
Unfortunately, the nature of this specific audio sub-system bug is that it's intermittent. It worked great every single time. Right up until that one live demonstration -- the one that counted.
For nu at uddybe;
De VAR klar over at fejlen var der, de gjorde hvad de kunne for at rette den, de testede den flere gange på scenen uden problemer og den virkede alle gange - undtagen til live-demoen.
Andre spørgsmål?
#13
Vista bruger faktisk den "rigtige" metode - nemt akustiske modeller. Det er ikke første gang MS er i gang med i et lignende projekt. Carnegie Mellon University, som står bag den oprindelig kode til Sphinx, har også en anden genkender. Denne kan man dog ikke få lov til at benytte pga. licensproblemer. Det er nemlig MS som ejer en del af koden og den må kun bruges i forskningsmæssige henseende (MS tager uden at gi’). At MS aldrig har benyttet koden seriøst, er fordi den almindelig PC bruger ikke har haft stærke nok maskiner. Men det har vi nu!
Problemet med Vista er at vi måske ikke får en dansk genkender. Vi er simpelthen for få mennesker i Danmark til at det kan betale sig at indsamle og bygge sprogmodellen. MS kunne vælge at benytte den fra Aalborg Universitet, men så ville de jo ikke længere sidde på hele kagen selv.
I øvrigt er den danske sprogmodel et samarbejder mellem en række europæiske lande, hvor man ønsker at skabe en database over en række sprogmodeller på en masse sprog.
Vista bruger faktisk den "rigtige" metode - nemt akustiske modeller. Det er ikke første gang MS er i gang med i et lignende projekt. Carnegie Mellon University, som står bag den oprindelig kode til Sphinx, har også en anden genkender. Denne kan man dog ikke få lov til at benytte pga. licensproblemer. Det er nemlig MS som ejer en del af koden og den må kun bruges i forskningsmæssige henseende (MS tager uden at gi’). At MS aldrig har benyttet koden seriøst, er fordi den almindelig PC bruger ikke har haft stærke nok maskiner. Men det har vi nu!
Problemet med Vista er at vi måske ikke får en dansk genkender. Vi er simpelthen for få mennesker i Danmark til at det kan betale sig at indsamle og bygge sprogmodellen. MS kunne vælge at benytte den fra Aalborg Universitet, men så ville de jo ikke længere sidde på hele kagen selv.
I øvrigt er den danske sprogmodel et samarbejder mellem en række europæiske lande, hvor man ønsker at skabe en database over en række sprogmodeller på en masse sprog.
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.