Piše: Dinko Knežević
Mladenov prilog me podsetio na neka moja davna istraživanja pa da rezultate navedenih istraživanja malo dopunim.
Moja prijateljica, profesorka matematike, bavi se računskom lingvistikom i korišćenjem matematičkih i informatičkih tehnika i veština obrađuje i leme u srpskom jeziku. U lingvistici reči se nazivaju leksemama (lovac i lovci su ista reč – leksema), a oblik reči koji se u zavisnosti od situacije bira zove se lema [https://sr.wikipedia.org/]. Obrada podrazumeva učestalost pojavljivanja pojedinih lema. Pored kanonskih oblika obrađuje i složene reči, stručne termine, sve izvedene oblike itd. U različitim oblicima rezultati rada njenog time se objavljuju u stručnoj literature. Mnogi od tih radova su interesantni za enigmate. No, mene je interesovala frekvencija pojavljivanja slova u rečima (lemama) kanonskog oblika pa sam je zamolio da mi pripremi tu raspodelu. Kanonski oblik se koristi kod enciklopedijskih odrednica. U srpskom jeziku ima oko 135.000 kanonskih oblika reči, lema. Rezultati statističke obrade frenkventnosti pojavljivanja slova u srpskom jeziku dati su u kolonama 2 i 3, u narednoj tabeli. U naredne 4 kolone dati su rezultati moga istraživanja na ukrštenim rečima, 1980. na ukrštenicama iz Čvor Razbibrige, a 2005. iz Politikine Enigmatike. U poslednje dve kolone su rezultati Mladenovog istraživanja.
Lako se uočava da se ni u jednom ispitivanju redosled slova ne poklapa. Ako se slova podele u grupe, sedam najfrekventnijih, 8 koji se pojavljuju posle njih, 9 iza njih i 6 koji se najređe pojavljuju dolazi se do veoma sličnih rezultata. Čak se po grupama uzorak iz Enigmatike u potpunosti pokalpa sa grupama u srpskom jeziku.
U svim ispitivanjima najfrekventnija su slova A i I. Dok se ukrštenično I pojavljuje približno jednako kao i u srpskom, dotle se A koristi mnogo više (gotovo za 50%). Pet samoglasnika u srpskom čini 41,34% slova, sa slovom R gotovo 48%. U ukrštenicama samoglasnici čine Dinko 1: 42,34 (sa R:50,69), Dinko 2: 44,2 (52,92), Mladen: 45,68 (53,34).
Šest najnefrekventnijih slova u srpskom jeziku učestvuju sa 2,88%, a u ukrštenicama Dinko 1: 1,6, Dinko 2: 0,906, Mladen: 1,435. dakle, srpski jezik ima 2-3 puta više reči u kojima se pojavljuju najnefrekventnija slova nego što se to sreće u ukrštenicama.
5 коментара:
Dinkov tekst sam postavio ispod Mladenovog iz razumljivog razloga.
Sve skupa vrlo zanimljivo, hvala obojici. Posljednja rečenica u ovom postu je očekivani zaključak, no 2-3 puta je baš veliki omjer. Ne mislim da je prisustvo nefrekventnih slova garancija kvaliteta rada, ali njihovo totalno odsustvo ili vrlo mala zastupljenost, u velikoj većini slučajeva (govoreći o standardnim formatima), najavljuje skroman ili nategnut rad.
Smatram da je sasvim normalno i očekivano "srpski jezik ima 2-3 puta više reči u kojima se pojavljuju najnefrekventnija slova nego što se to sreće u ukrštenicama".
Naime, imamo važno ograničenje. Naše riječi nisu linearno raspoređene već ih treba ukrstiti.
Lakše je napisati I CVRČI CVRČI CVRČAK NA ČVORU CRNE SMRČE nego to (usprano) ukolopiti sa VEČE NA ŠKOLJU :)
Zanimljivo, hvala Dinko.
Moj poredak se u 9 slova poklapa sa onim iz 2005, a samo u 6 sa poretkom iz 1980. Takvo je i podudaranje sa poretkom u jeziku.
A što se zaključka o najnefrekventnijim slovima tiče, on se i logički nameće. Postoji toliko reči koje svakodnevno izgovaramo, obične su nam da običnije ne mogu biti, a tako ih retko viđamo u ukrštenicama (džep, džezva, čađ, đuveč)... A kad u računicu uključimo i sve druge, pogotovo narodne reči kojih su rečnici prepuni, 2-3 puta zvuči sasvim realno.
Tako je Slavko, nije lako. Autori će, uglavnom, ulagati trud u ono što se cijeni, oduvijek su to bile bjeline, posljednjih godina izrazito. Znaju oni i za kriterij prisustva nefrekventnih slova, nekad će i početi od njih, ali, kako ti reče, stvar je mnogo teža sa njima nego bez njih, a stvar, odnosno prioritet je imati veću bjelinu. Postoje bjeline sa takvim kombinacijama (u glavi mi je stari Matin bušman) i u nekakvom mogućem rangiranju enigmatskih dostignuća trebalo bi ih rangirati visoko.
Nekad davno sam radio kriptogramke, obavezno prisustvo svih slova je bio lijep izazov. Evo sad u bezopisnim radovima njihovo nepostojanje u mreži nije eliminirajući faktor kao kod kriptogramki, ali je tu negdje. Prisustvo sintagmi i skupina počesto nije dovoljno da bi rješavač bio uspješan i zadovoljan. Novi izazovi za autore, ali i za ocjenjivače.
Постави коментар