петак, 18. септембар 2020.

(NE)FREKVENTNA SLOVA

 

Dinko Knežević

Mladen Marković

Analiza zastupljenosti slova u ukrštenicama

Piše: Mladen Marković

Inspirisan nedavno otvorenim sporom „(ne)frekventna slova“, napravio sam neku vrstu mini-reprize analize učestalosti iz 1980. godine, autora Dinka Kneževića. Koristio sam sličnu metodologiju, s tim što je moj uzorak znatno manji (zapravo, toliko mali da su rezultati samo ilustrativni), ali je zato potpuno slučajan: iz jedne velike kutije pune svakojakih enigmatskih časopisa starih do 40 godina (iz Srbije), izvukao sam 10 različitih izdanja i birao ukrštenice otvaranjem naslepo. U nekoliko navrata sam morao da promenim slučajni izbor jer se radilo o sastavima sa prevelikim brojem tematskih pojmova, a dva puta sam ponavljao otvaranje jer su mi se nudili nedovoljno afirmisani autori (tako sam, umesto izvesnog Radeta Ravića izabrao Reljića, a umesto Dragana Zlatkovića Tošića). Dakle, uslov je bio da ukrštenice imaju maksimalno po 2 tematska pojma (a slučaj je hteo da većinski ne budu tematske), da imaju iole poznati potpis, da datiraju iz različitih perioda i da su objavljene u različitim listovima (ipak, koristio sam 2 broja Enigme, jedan iz 1990. – na velikom formatu, i jedan iz 2005. – na malom). Dimenzije svih analiziranih ukrštenica su različite i nije bilo bitno da li su priređene kao skandinavke, klasične, bele, kombinovane ili mozaičke.

Pešački sam brojao zastupljenost svakog slova u svakoj pojedinačnoj ukrštenici, a onda pešački sabirao i računao postotke. Na kraju sam našao prosečnu frekventnost svih slova u uzorku. Ako je u tom procesu i došlo do nekog previda (moram da naglasim da sam sve radio u cugu i brzinski), to očigledno nije mnogo ugrozilo analizu – jer se ispostavilo da nema velikih odstupanja od Kneževićevih rezulatata.

Dakle, ono što je Dinko pre 40 godina utvrdio na prigodnom uzorku od 100 križaljki (iz 7 sukcesivnih „Čvor razbibrige“), ja sam uglavnom potvrdio na desetostruko manjem slučajnom uzorku ukrštenica. Kod njega je redosled 10 najfrekventnijih slova: A I R O T E N K S L, a kod mene: A I T R O E K N S V (podvučena su slova čiji se plasman sasvim poklapa, a ostala su permutovana, izuzev para L – V; ali, gle čuda: kod Dinka je na 11. mestu V, a kod mene L). Što se tiče slova iz raspona srednje frekvencije (plasman: 11 – 20), ni tu nema većeg otklona, osim što je Z u mom uzorku bilo nešto frekventnije, pa je Č završilo na 21. mestu, dok je Dinkovo na 20 (takođe, njegovo Č premašuje 1 % za razliku od mog). Konačno, i naše grupe najmanje frekventnih slova (21- 30) poklapaju se u 9/10, s tim što su plasmani različiti (naravno, sve su to slova sa zastupljenošću manjom od 1 %, pa bi, s obzirom na mali uzorak,  bilo nerealno očekivati da se decimale poslažu na isti način). Procenti se takođe u sve tri grupe lepo podudaraju (odstupanje samo u nekoliko slučajeva prelazi 1 %).

Evo i nekih zapažanja: kod mene je DŽ nešto zastupljenije nego Đ – samo zato što sam naleteo na Bovanovu skandinavku u Huperu sa Džonijem Vajsmilerom i džuboksom. Može se primetiti da je i F manje zastupljeno od DŽ u tih 10 ukrštenica, a zapravo, i Dž i F se sreću (samo) po 2 puta, ali DŽ u istom sastavu - što mu je povećalo postotak, a F u različitim (razlike u procentima su infinitezimalne, a prouzrokuje ih format; plastično, jedno F u velikoj mreži je manje retko od jednog DŽ u maloj mreži, i obrnuto). Uzgred, primetio sam da neki renomirani autori iz mog uzorka nisu imali običaj da uglavljuju retka slova čak ni kada se to nametalo; tako je Reljić imao varijabilno prvo slovo u nizu  _ I L, ali nije se opredelio za fil, Hil, Žil, Džil već je tu stavio T.

12 коментара:

Mandrak је рекао...

Ne rekoh i ovo: Dinko je usput primetio da se u korišćenim Čvorovim križaljkama prosečno koristi oko 22 (21, 69) slova. U mom uzorku ukršenica taj broj je veći: Midhat Sarajlija i Zekić su upotrebili po 27 slova, Besničanin 26, Patrnogić i Milunović po 24, Bovan 23, Tošić i Bažik po 22, Reljić 21 i Žarko Pešić 20. U proseku, to je 23, 6.

Миле Јанковић је рекао...

Nije bitna frekventnost, to jest korišćenje, nekih slova u ukrštenicama, bitno je koja su frekventna, a koja manje frekventna slova u srpskom jeziku. Svaki autor – sastavljač može da u svoju ukrštenicu stavi bilo koja slovo, ali je to onda frekventnost samo za tu ili te (više komada ukrštenica).
Frekventnost slova može da se vidi iz nekog Rečnik,
Evo recimo Rečnik Srpskog jezika, Matica Srpska 2011. godina.
Prostim brojanjem rečnika od korica do korica dobijamo sledeće rezultate (naravno neke od slova):
Slovo «A» ima ukupno 403.335
Slovo «Б» ima ukupno 104.367
Slovo «Џ» ima ukupno 1.455
Slovo «Ч» ima ukupno 88.656
Slovo «И» ima ukupno 401.482
Slovo «О» ima ukupno 344.890
Slovo «Е» ima ukupno 345.319
Slovo «Р» ima ukupno 268.341
Slovo «У» ima ukupno 192.846
Slovo «Ђ» ima ukupno 15.204
I tako treba uraditi za sva slova, i onda možemo da napravimo tabelu o frekventnosti slova u srpskom jeziku.
Ako neko hoće, može da uradi i ostatak slova, NARAVNO da se slova ne broje jedno po jedno, već ih izbroji Adobe Acrobat Reader vrlo brzo. (desetak sekundi po slovu)

Hajro је рекао...

Bilo bi zanimljivo uporediti broj riječi na osnovu početnog slova. Posebno kad je riječ o samoglasnicima. Riječi na A i E su u ogromnoj većini stranog porijekla, počesto manje poznate. Tu (manjem broju i manjoj poznatosti) je dio logike nekadašnjih nazubljenih likova, a i urezivanja uz lijevu i gornju ivicu skandinavki.

Slavko Bovan је рекао...

Dole možete pogledati Dinkovo reagovanje. (Dodato sad)

Mandrak је рекао...

Nisam razumeo drugi komentar. Ovo je statistika u službi enigmatike, svakako ne nešto bitno za svemir, čovečanstvo ili životinjski svet. :)

Svaki autor (pa čak i neautor koji se potpisuje kao autor) može da stavi u svoju ukrštenicu bilo koja slova, to je tačno... i onda se može odrediti frekventnost svakog slova u toj ukrštenici. A onda nasumično uzmemo 10, 50 ili 100 ukrštenica koje su pravljene da bi bile funkcionalne a ne da bi prkosile statistici, i za svaku nađemo učestalost svakog slova (nažalost, nisam plaćen da ovde držim časove statistike, zato je bar gimnazija vrlo korisna, ako ništa drugo da čovek zna šta je uzorak, kakvi uzorci postoje i koji je smisao uzorkovanja). I onda sračunamo prosečnu učestalost za svako slovo u celom uzorku ukrštenica (može se raditi i drugačije, bez traženja frekventnosti za svako slovo u svakoj križaljci, već samo u celom uzorku).

Slavko Bovan је рекао...

Ovog momenta opisujem jednu svoju ukrštenicu i to pojam ŠILJEŽE. Uopšte nisam tražio "teška slova". Sama su se uklopila.

Mandrak је рекао...

A sasvim malo muško šilježe bi moglo da bude šilješčić, čisto da se razbije monotonija. :)

Slavko Bovan је рекао...

Veliko šilježe je, naravno, džin-šilježe.

Slavko Bovan је рекао...

Ova ukrštenica sa šilježetom (nije tematski pojam!) je malog formata (10x14 sa slikom) i nastala je prije nekoliko dana (nije "štimano" da se uklopi u temu).

Radi doprinosa diskusiji, sada sam prebrojao slova:
15 puta - A
9 puta - E, R
8 puta - I
7 puta - O
6 puta - K, N
4 puta - B, T
3 puta - J, M
2 puta - V, D, Z, L, S
1 put - G, Ž, LJ, NJ, P, U, F, C, Š

Nema: Đ, Ć, H, Č i DŽ.

Драгослав Росић је рекао...

Покренута је добра тема и она је од посебног значајау приступу састављања укрчтеница, јер од избора мање фреквентних слова зависи тежина састављања и што је најважније квалитет и општи утисак о саставу. Мање фреквентна слова разбијају монотонију и буде посебно осећање код решавача и жељу да даље истражују. Ја, лично, одустајем од решавања ако ме нешто у укрштеници не заголица да до краја погледам комбинацију. То је просто професионална деформација, јер је моја жеља увек да видим нешто ново и узбудљиво. Одувек сам то тражио и тако сам радим. Ја своју укрштеницу не сматрам успешном ако у централном делу нема таквих, звучних и лепих речи (по звучности и значењу ), па макар се радило и о великим белинама.
Оно што ме разочарава је чињеница да се данас укрштенице штанцују, а да се квалитет ( стичем утисак ) вреднује тако што се само мери просечна дужина речи и број црних поља, а мање садржај. Енигматику посматрам као једну посебну уметност, која мора остављати утисак као и свако уметничко дело, слика или књижевно дело.

Mandrak је рекао...

Slavko, baš sam juče razmišljao o tome da li se, šta i koliko može zaključiti o ukrštenici na osnovu popisa slova po učestalosti.

To planiram da ispitam na sledeći način: na istom formatu ću napraviti 4 ukrštenice - jednu otaljanu (takoreći bez ikakvog truda), jednu normalnu (dakle, uložiću izvestan trud u izbor sadržaja), jednu ambicioznu (u pogledu sadržaja) i jednu čiji je cilj negacija statistike.
Formalne karakteristike ću ignorisati (izuzev nekih elementarnih, kao: da nema izolovanih delova, da nema ponavljanja reči itd), ne zanima me broj crnih polja, beline i struktura reči, neću izbegavati prideve, glagole, skraćenice, dvoslove itd.
Bitno je samo da sve ukrštenice budu sastavljene od poznatih reči (a poznate reči, koje inače izbegavamo iz formalnih razloga su npr. kržljav, uzdržljiva, rđosane itd).

Kad sve to završim, napraviću spiskove (tako kako si ti uradio) i analiziraću odstupanja od statistike. Recimo, u tvom slučaju nema većih odstupanja, to je verovatno jedna prosečna, svakidašnja ukrštenica u kojoj se ređa slova pojavljuju više kao bonus nego kao sadržajna ideja (istina, ima ih dosta, ali više od 80 % sadržaja je verovatno stereotipno, bar prema slovima). Kad iznesem pretpostavke na osnovu frekvencije, analiziraću sadržaj svake od njih i videćemo koja je realno najkvalitetnija.

Slavko Bovan је рекао...

Da ovo je jedna sasvim obična ukrštenica. Evo nekih riječi: GRIM, ETNA, BIOKOVO, UKRAJINA, KTITOR, CRNJANSKI, ŠILJEŽE, DEZINFORMACIJA, OJKANJE, VITRAŽ, PARTIZAN,ATOS,...