mboost-dp1

SPI
- Forside
- ⟨
- Forum
- ⟨
- Nyheder
Jeg er ikke lige helt sikker på at jeg forstår zipf's lov, - og hvis jeg gør så tror jeg i hvert fald ikke på den er sand.
Hvis jeg forstår det korrekt siger den at det n'te mest brugte ord bruges dobbelt så ofte som det n+1'te mest brugte.
Altså f(n) er proportional med 1/2^n
Men summen af 1/2^n for n=1 til n=uendelig er præcis 1. Så proportionalitetskonstanten må være 1. (Da sandsynligheden for at et ord er et blandt alle ord må være 100%)
Altså må det mest brugte ord udgøre 50% af alle ordene, det næstemest 25%, så 12,5% etc.
For det første betyder det at alle sprog har "lige mange ord" (eller i hvert fald at det har lige mange "brugte" ord). Det tvivler jeg meget stærkt på.
For det andet siger det, endnu mere åbenlyst, at det mest brugte ord udgør 50% af enhver given tekst. Det stemmer ikke overens med hvad jeg observere.
Hvad er det jeg har taget fejl af?
Hvis jeg forstår det korrekt siger den at det n'te mest brugte ord bruges dobbelt så ofte som det n+1'te mest brugte.
Altså f(n) er proportional med 1/2^n
Men summen af 1/2^n for n=1 til n=uendelig er præcis 1. Så proportionalitetskonstanten må være 1. (Da sandsynligheden for at et ord er et blandt alle ord må være 100%)
Altså må det mest brugte ord udgøre 50% af alle ordene, det næstemest 25%, så 12,5% etc.
For det første betyder det at alle sprog har "lige mange ord" (eller i hvert fald at det har lige mange "brugte" ord). Det tvivler jeg meget stærkt på.
For det andet siger det, endnu mere åbenlyst, at det mest brugte ord udgør 50% af enhver given tekst. Det stemmer ikke overens med hvad jeg observere.
Hvad er det jeg har taget fejl af?
Dijkstra (1) skrev:Jeg er ikke lige helt sikker på at jeg forstår zipf's lov
Jeg er ret sikker på, at du ikke gør. ;-)
Pointen er vist at hvis det mest brugte ord bliver brugt X gange, så bliver det næst-mest brugte ord brugt X/2 gange. Det tredje-mest brugte ord X/4 gange osv.
din påstand holder ikke...
Alle ord indgår jo ikke i hver sætning!
Men det med at alle sprog indeholder lige mange ord, behøves ikke at gælde, for optællingen på det enkelte sprogs ord skal jo gi 100% og derfor behøves "hej" på alle sprog ikke tælles lige mange gange..!
men din påstand med at rækken konvergerer mod 1 er så sand så sand
Alle ord indgår jo ikke i hver sætning!
Men det med at alle sprog indeholder lige mange ord, behøves ikke at gælde, for optællingen på det enkelte sprogs ord skal jo gi 100% og derfor behøves "hej" på alle sprog ikke tælles lige mange gange..!
men din påstand med at rækken konvergerer mod 1 er så sand så sand
Det virker umiddelbart ikke rigtigt som et bevis, men nærmere som en ad hoc lining eller en empirisk generalisering og et empirisk bevis er ikke sammenligneligt med et matematisk bevis.
Der er en fejl i artiklen, Zipf's lov lyder:
Relativ hyppighed af ord N: 1/N.
Og altså ikke 1/N^2 som artiklen nævner.
Dvs. det er det fjerdemest brugte ord der findes halvt så gange gange som det næstmest brugte.
Relativ hyppighed af ord N: 1/N.
Og altså ikke 1/N^2 som artiklen nævner.
Dvs. det er det fjerdemest brugte ord der findes halvt så gange gange som det næstmest brugte.
Jeg kan ikke se hvordan der er tale om et bevis. Det er vel højst en observation at et givent forhold er gældende. Hvis det var et bevis ville yderligere observationer være overflødige, men det følger vel på ingen måde af dette resultat.
Og Dijkstra har ret hvis loven var som beskrevet her på Newz. I det tilfælde ville det mest brugte ord optræde halvdelen af gangen i en given tekst.
Men loven medfører at P(rang(n)) = P(rang(1))/n, og derfor er P(rang(1)) en (omvendt proportional) funktion af ordforrådets størrelse n.
* Hvis der er 2 slags ord bliver det mest brugte anvendt ~66% af tiden.
Dvs. 2 ord med rang(1) for hver 1 ord med rang(2).
* Hvis der er 3 slags ord bliver det mest brugte anvendt ~55% af tiden.
Dvs. 6 ord med rang(1) for hver 3 ord med rang(2) og 2 ord med rang(3).
* Hvis der er 4 slags ord bliver det mest brugte anvendt 48% af tiden.
Dvs. 12 ord med rang(1) for hver 6 med rang(2) og 4 med rang(3) og 3 med rang(4).
* Hvis der er n slags ord bliver det mest brugte anvendt ???% af tiden.
Dvs. gcd(1..n)/ ord med rang(1) for hver gcd(1..n)/2 med rang(2) og gcd(1..n)/3 med rang(3) ... gcd(1..n)/n med rang(n).
Nogen der vil hjælpe med den sidste? :D
Og Dijkstra har ret hvis loven var som beskrevet her på Newz. I det tilfælde ville det mest brugte ord optræde halvdelen af gangen i en given tekst.
Men loven medfører at P(rang(n)) = P(rang(1))/n, og derfor er P(rang(1)) en (omvendt proportional) funktion af ordforrådets størrelse n.
* Hvis der er 2 slags ord bliver det mest brugte anvendt ~66% af tiden.
Dvs. 2 ord med rang(1) for hver 1 ord med rang(2).
* Hvis der er 3 slags ord bliver det mest brugte anvendt ~55% af tiden.
Dvs. 6 ord med rang(1) for hver 3 ord med rang(2) og 2 ord med rang(3).
* Hvis der er 4 slags ord bliver det mest brugte anvendt 48% af tiden.
Dvs. 12 ord med rang(1) for hver 6 med rang(2) og 4 med rang(3) og 3 med rang(4).
* Hvis der er n slags ord bliver det mest brugte anvendt ???% af tiden.
Dvs. gcd(1..n)/ ord med rang(1) for hver gcd(1..n)/2 med rang(2) og gcd(1..n)/3 med rang(3) ... gcd(1..n)/n med rang(n).
Nogen der vil hjælpe med den sidste? :D
Dijkstra: At ordne ord efter hvor mange gange de fremkommer i en tekst giver kun en partiel ordning (mere end ét ord kan forekomme n gange). Derfor udgør det mest brugte ord ikke nødvendigvis 50% af teksten som du skriver. Nyhedsteksten er uklar fordi der står det næstmest benyttede ord...
bjarkehingrumme (14) skrev:#1 Dijkstra (og nyhedsskribent)
Læs kilden.
P(1)=2*P(2)
P(2)=2*P(4)
dvs P(n)=1/n
Og så giver det mere mening.
Det er faktisk det der står
Zipf counted how many times each word appeared, and found that the probability of the occurrence of words starts high and tapers off. Specifically, the most frequent word occurs about twice as often as the second most frequent word, which occurs about twice as often as the fourth most frequent word, and so on
Jeg læste det nok for hurtigt...
Men gad nu vide om det løser mit problem...
Man kan ikke summere 1/n for alle n (det går mod uendelig).
Men nu er der vel også kun endeligt mange ord, - så det går vel alligevel.
Nu behøver alle sprog så heller ikke have lige mange ord, - og ej heller have samme sandsynlighed for det mest brugte ord.
Jeg tror det løser nogle ting!
Man må dog kunne udlede et sammenhæng mellem antallet af ord og sandsynligheden for den mest brugte ord. Hvilket må være voldsomt interessant for lingvistikere og antropologer.
Sammenhængen er at jo højere frekvens det mest brugte ord har, - jo færre ord.
Det passer også meget godt.
<sarkasme?>
De der f.eks. siger fuck i hver 3. sætning har typisk ikke så stort et ordforråd
</sarkasme?>
hehe
Et plus et er lig med to.
To plus to er lig med fire.
Fire plus fire er lig med otte.
Otte plus otte er lig med seksten
Seksten plus seksten er lig med toogtredive
Osv.
Osv.
Så passer ligningen ikke mere.
Jeg har brugt 4 forskellige ord lige mange gange.
Ikke på noget tidspunkt, uanset hvor langt jeg fortsætter, vil det næstmest brugte ord optræde halvdelen af gangene af de 4 mest brugte ord.
Det er måske ikke lige det bedste eksempel, jeg tvivler på at aviserne laver en sådan artikel :P
(ok Ekstra Bladet kunne måske finde på det)
To plus to er lig med fire.
Fire plus fire er lig med otte.
Otte plus otte er lig med seksten
Seksten plus seksten er lig med toogtredive
Osv.
Osv.
Så passer ligningen ikke mere.
Jeg har brugt 4 forskellige ord lige mange gange.
Ikke på noget tidspunkt, uanset hvor langt jeg fortsætter, vil det næstmest brugte ord optræde halvdelen af gangene af de 4 mest brugte ord.
Det er måske ikke lige det bedste eksempel, jeg tvivler på at aviserne laver en sådan artikel :P
(ok Ekstra Bladet kunne måske finde på det)
Ok så konklusionen er, at der er to fejl i denne nyhed:
1) Der skal stå "... og det næst-mest benyttede ord dobbelt så ofte som det fjerde-mest benyttede ord, osv."
2) Zipf-ligningen er en observation og ikke en sætning. Man kan ikke bevise en observation. Man kan styrke eller bekræfte dens anvendelighed i et eksempel, men et egentligt bevis kan ikke opnås.
1) Der skal stå "... og det næst-mest benyttede ord dobbelt så ofte som det fjerde-mest benyttede ord, osv."
2) Zipf-ligningen er en observation og ikke en sætning. Man kan ikke bevise en observation. Man kan styrke eller bekræfte dens anvendelighed i et eksempel, men et egentligt bevis kan ikke opnås.
#12, 14, 18
Det kan faktisk ikke helt udelukkes at det gælder som approximation.
Hvis et sprog indeholder 100000 ord, så har top 20 ordene følgende hyppigheder:
0,083
0,041
0,028
0,021
0,017
0,014
0,012
0,010
0,009
0,008
0,008
0,007
0,006
0,006
0,006
0,005
0,005
0,005
0,004
0,004
Det lyder ikke helt ved siden af.
Det kan faktisk ikke helt udelukkes at det gælder som approximation.
Hvis et sprog indeholder 100000 ord, så har top 20 ordene følgende hyppigheder:
0,083
0,041
0,028
0,021
0,017
0,014
0,012
0,010
0,009
0,008
0,008
0,007
0,006
0,006
0,006
0,005
0,005
0,005
0,004
0,004
Det lyder ikke helt ved siden af.
Jeg synes det er en interessant betragtning, og jeg kom til at tænke på, hvordan det gyldne snit også ses overraskende mange steder i naturen.
Det minder mig også om den evige diskussion mellem astrologer og den mere etablerede videnskab. Astrologerne påpeger statistiske pudsigheder, men tror at statistik kan anvendes som et bevis på, at astrologi passer. Men statistik kan ikke fungere som et bevis i sig selv.
Jeg vil dog nok selv vælge at se på det her fænomen som at "tingene har det med at falde logaritmisk", indtil der er bedre beviser for, at lige præcis Zipf's observation er den mest præcise model.
Det minder mig også om den evige diskussion mellem astrologer og den mere etablerede videnskab. Astrologerne påpeger statistiske pudsigheder, men tror at statistik kan anvendes som et bevis på, at astrologi passer. Men statistik kan ikke fungere som et bevis i sig selv.
Jeg vil dog nok selv vælge at se på det her fænomen som at "tingene har det med at falde logaritmisk", indtil der er bedre beviser for, at lige præcis Zipf's observation er den mest præcise model.
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.