Zákulisie tvorby slov alebo Zipfov zákon: Aké je najčastejšie používané slovo?

0
Zákulisie tvorby slov alebo Zipfov zákon: Aké je najčastejšie používané slovo?

Zipfov zákon je empirický zákon pozorovaný v lingvistike a rôznych iných oblastiach, ktorý popisuje štatistický vzorec súvisiaci s frekvenciou používania slov alebo rozmiestnením prvkov v určitom súbore údajov.

Je pomenovaný po americkom lingvistovi Georgovi Zipfovi, ktorý si tento vzor prvýkrát všimol v 30. rokoch minulého storočia.

Zipfov zákon hovorí, že vo veľkom texte je frekvencia akéhokoľvek slova nepriamo úmerná jeho poradiu v tabuľke frekvencií. Zjednodušene povedané, ak zoradíte slová v texte od najčastejšieho po najmenej frekventované, frekvencia n-tého slova je približne nepriamo úmerná jeho poradiu. Najčastejšie slovo sa vyskytuje približne dvakrát častejšie ako druhé najčastejšie slovo, trikrát častejšie ako tretie najčastejšie slovo atď.

Matematicky možno Zipfov zákon vyjadriť takto:

Kde:

  • f(r) je frekvencia slova na úrovni r
  • k je konštanta
  • s je Zipfov exponent, ktorý sa zvyčajne pohybuje medzi 1 a 2

Zipfov zákon bol pozorovaný nielen v jazyku, ale aj v iných oblastiach, ako je ekonómia, biológia a informatika. Je dôležité poznamenať, že hoci zákon platí pre mnohé rozsiahle rozmiestnenia slov alebo prvkov v texte, nie je to absolútny zákon a nemusí platiť pre menšie súbory údajov. Zostáva však cennou pomôckou pre pochopenie rozloženia frekvencií v rôznych prírodných a spoločenských systémoch.

Graf frekvencie každého slova ako funkcia jeho frekvenčného poradia pre dva texty v anglickom jazyku: Culpeperov kompletný herbár (Culpeper’s Complete Herbal) a Vojna svetov (The War of the Worlds) od H. G. Wellsa. Bodkovaná čiara je ideálny zákon y ∝ 1/x.

Zipfov zákon je empirický zákon, ktorý často platí približne, keď je zoznam nameraných hodnôt zoradený v zostupnom poradí. Uvádza, že hodnota n-tej položky je nepriamo úmerná n.

15 slov, ktoré sa u nás udomácnili a prebrali sme ich z cudzích jazykov

Ktoré slovo sa vyskytuje najčastejšie v anglickom jazyku?

Zvyčajne platí, že najbežnejšie slovo sa vyskytuje približne dvakrát častejšie ako ďalšie bežné slovo, trikrát častejšie ako tretie najčastejšie atď. Napríklad v texte Brown Corpus of American English je slovo „the“ najčastejšie sa vyskytujúce slovo a samo osebe predstavuje takmer 7 % všetkých výskytov slov (69 971 z viac ako 1 milióna).

V súlade so Zipfovým zákonom slovo „z“ na druhom mieste predstavuje niečo vyše 3,5 % slov (36 411 výskytov), za ním nasleduje „a“ (28 852).

Tento „zákon“ je pomenovaný po americkom lingvistovi Georgovi Kingsleyovi Zipfovi a je stále dôležitým pojmom v lingvistike. Zistilo sa, že sa vzťahuje na mnohé iné typy údajov študovaných vo fyzikálnych a spoločenských vedách.

História

V roku 1913 nemecký fyzik Felix Auerbach pozoroval nepriamu úmernosť medzi veľkosťou obyvateľstva miest a ich poradím pri zostupnom poradí tejto premennej.

Zipfov zákon objavil ešte pred Zipfom francúzsky stenograf Jean-Baptiste Estoup’ Gammes Stenographiques v roku 1916, G. Dewey v roku 1923 a E. Condon v roku 1928.

Rovnaký vzťah pre frekvencie slov v textoch v prirodzenom jazyku pozoroval George Zipf v roku 1932, ale nikdy netvrdil, že je jeho pôvodcom. V skutočnosti Zipf nemal rád matematiku. Vo svojej publikácii z roku 1932 autor s dešpektom hovorí o matematickom zapojení do lingvistiky: “…dovoľte mi povedať tu pre dobro každého matematika, ktorý má v pláne sformulovať nasledujúce údaje presnejšie, schopnosť vysoko intenzívneho pozitívu stať sa veľmi intenzívnym negatívom, podľa môjho názoru, vnáša diabla do vzorca v tvare √(-i).”

Jediný matematický výraz, ktorý Zipf použil, vyzerá ako a.b2 = konštanta, ktorý si „požičal“ z publikácie Alfreda J. Lotku z roku 1926.

Zistilo sa, že rovnaký vzťah sa vyskytuje v mnohých iných kontextoch a pre iné premenné. Napríklad, keď sú korporácie zoradené podľa klesajúcej veľkosti, zistí sa, že ich veľkosť je nepriamo úmerná poradiu.

Rovnaký vzťah sa nachádza pre osobné príjmy (kde sa nazýva Paretove pravidlo), počet ľudí sledujúcich ten istý TV kanál, noty v hudbe, prepisy buniek a ďalšie. Zipfov zákon platí pre väčšinu prirodzených jazykov, dokonca aj pre niektoré neprirodzené jazyky ako esperanto.

unsplash.com

Ľudia nechcú pracovať viac než je potrebné

Princíp najmenšieho úsilia je ďalším možným vysvetlením: Zipf sám navrhol, že ani hovoriaci, ani poslucháči používajúci daný jazyk nechcú pracovať viac, než je potrebné na dosiahnutie porozumenia. A proces, ktorý vedie k približne rovnakému rozdeleniu úsilia, vedie k pozorovanému rozdeleniu.

Ako píšu opice?

Minimálne vysvetlenie predpokladá, že slová sú generované náhodným písaním opíc. Ak je jazyk generovaný náhodným písaním jednej opice, s pevnou a nenulovou pravdepodobnosťou zasiahnutia každého písmena alebo bieleho miesta, potom slová (reťazce písmen oddelené bielymi medzerami) produkované opicou sa riadia Zipfovým zákonom.

Zákon stručnosti pôvodne sformuloval lingvista George Kingsley Zipf v roku 1945 ako negatívnu koreláciu medzi frekvenciou slova a jeho veľkosťou. Analyzoval písaný korpus v americkej angličtine a ukázal, že priemerné dĺžky z hľadiska priemerného počtu foném klesajú so zvyšujúcou sa frekvenciou výskytu.

Podobne v latinskom korpuse našiel negatívnu koreláciu medzi počtom slabík v slove a frekvenciou jeho výskytu. Toto pozorovanie hovorí, že najčastejšie slová v jazyku sú najkratšie, napr. najbežnejšie slová v angličtine sú: the, be (v rôznych formách), to, of, and, a; všetky majú 1 až 3 písmená. Tvrdil, že tento zákon skratky je univerzálnou štrukturálnou vlastnosťou jazyka, pričom predpokladal, že vzniká ako výsledok jednotlivcov, ktorí optimalizujú mapovanie tvaru a významu, aby komunikovali presne, ale aj efektívne.

Zdroj: wikipedia.org

žiadne príspevky na zobrazenie

ZANECHAŤ ODPOVEĎ

Zadajte svoj komentár!
Zadajte svoje meno tu