Na pierwszy rzut oka Scrabble to gra humanistyczna, w której decydującą rolę odgrywa zasób słownictwa, a matematyka sprowadza się do prostych działań – sumowania punktów za litery i ewentualnie mnożenia, gdy układany wyraz przechodzi przez pole premii literowej lub słownej. W tym tekście postaram się wykazać, że do dokładniejszej analizy gry matematyka jest przydatna, a nawet niezbędna.
Podstawowym zagadnieniem „matematycznym” jest ustalenie, ile powinno być płytek z daną literą i jaka powinna być wartość punktowa tej litery. Wiadomo, że niektóre litery występują w polskim słownictwie częściej, a inne rzadziej. Tych częściej występujących powinno być w zestawie więcej, bo występują w większej liczbie wyrazów i są przez to bardziej potrzebne. Ale z drugiej strony łatwiej takich liter można użyć, więc powinny być niżej punktowane. Oczywiście łatwo zauważyć, że litera A występuje w języku polskim częściej niż Ź ale porównanie, czy więcej jest wyrazów z literą B czy D już takie łatwe nie jest. A sama hierarchia częstości występowania nie wystarczy, bo trzeba jeszcze dobrać odpowiednie proporcje.
Gdy w 1979 roku Marek Penszko opublikował w Kalendarzu Szaradzisty przepisy wzorowanej na Scrabble „Gry w krzyżówkę”, przy doborze liczb poszczególnych liter i punktów za każdą literę wykorzystał dane, zawarte w artykule Barbary Kowalskiej „Częstość występowania liter w języku polskim”, opublikowanym w 1967 roku w branżowym piśmie poligrafów „Litera”. Tym samym źródłem posłużył się Jacek Ciesielski, przedstawiając najpierw w tygodniku „Razem” (1986) zasady gry wraz z planszą i zestawem żetonów do samodzielnego wycięcia, a następnie przygotowując pierwsze polskie wydanie Scrabble w 1993 roku.
Autorka artykułu w „Literze” zebrała dostępne w owym czasie statystyki występowania liter i po prostu wyciągnęła z nich średnią arytmetyczną. Na pierwszy rzut oka wydaje się, że uśrednienie wyników z siedmiu różnych źródeł powinno przybliżać do „prawdy obiektywnej” ale w tym przypadku można mieć co do tego wątpliwości. Przede wszystkim dlatego, że zbiory tekstowe, na podstawie których obliczano frekwencje liter, były różnej wielkości (od 10 tysięcy do 200 tysięcy znaków) i w różny sposób powstawały. Trzy z nich były opracowaniami Polskiego Komitetu Normalizacji i zostały przygotowane podczas prac nad polską wersją klawiatury do maszyn do pisania, jeden powstał na potrzeby artykułu naukowego, a dwa były dziełem tłumaczy, którzy musieli zastąpić dane z oryginalnych książek, odnoszące się do frekwencji liter w języku rosyjskim. Ale było jedno źródło bardzo dziwne, bo oparte na częstości występowania nie liter, tylko głosek. Dane z tego źródła znacznie odbiegały od pozostałych, bo głoski rejestrowane „ze słuchu” zaniżyły częstość występowania jednych liter, a zawyżyły innych (m.in. dlatego, że np. w słowie „pączek” nie została zarejestrowana litera „ą”, a zamiast niej litery „o” i „n”). Pamiętać trzeba też o tym, że wszystkie opracowania źródłowe powstały w latach 1951-61, a więc z pewnością były obarczone błędami, wynikającymi z „ręcznego” liczenia liter.
Warto zauważyć, że aktualna wersja gry Scrabble różni się od pierwszego wydania w kilku szczegółach: liter A jest 9 a nie 8, litera F jest na jednej płytce, a nie na dwóch i ma wartość 5, a nie 4, natomiast litera Ź zdrożała z 7 do 9 punktów. Dlaczego litera F została początkowo uznana za częściej występującą niż np. Ą, choć nawet średnia z artykułu w „Literze” na to nie wskazuje, tego nie wiadomo. Być może zdecydowało to, że po jednej płytce dostały tylko typowo polskie litery (z wyjątkiem Ł), a może to dlatego, że w jednym źródle (akurat tym „fonetycznym”) udział litery F wyniósł aż 1,5% ?
Poniżej przedstawiam Tabelę 1, w której zestawiłem częstotliwość występowania liter (od najpopularniejszych do najrzadszych) na podstawie różnych źródeł. Przy porównywaniu wyników trzeba pamiętać, że w odróżnieniu od pozostałych statystyk, słownik scrabblisty nie uwzględnia wyrazów jednoliterowych (a, i, o, u, w, z) oraz dłuższych niż piętnastoliterowe.
li- tera |
pły- tek |
udział | pkt | OSPS | IPI | Litera | Krypto | Pętla | GG | ZM |
A |
9 |
9,18% |
1 |
9,50% |
8,91% |
8,49% |
9,02% |
8,70% |
10,46% |
8,87% |
I |
8 |
8,16% |
1 |
9,40% |
8,21% |
8,26% |
8,09% |
8,98% |
8,27% |
7,99% |
E |
7 |
7,14% |
1 |
7,57% |
7,66% |
7,44% |
7,51% |
7,75% |
9,91% |
7,27% |
O |
6 |
6,12% |
1 |
7,47% |
7,75% |
7,70% |
7,90% |
6,82% |
8,09% |
7,58% |
N |
5 |
5,10% |
1 |
6,94% |
5,52% |
5,46% |
5,81% |
4,59% |
5,15% |
5,57% |
Z |
5 |
5,10% |
1 |
4,34% |
5,64% |
5,80% |
5,17% |
6,34% |
6,11% |
6,06% |
W |
4 |
4,08% |
1 |
4,12% |
4,65% |
4,50% |
4,78% |
3,79% |
3,39% |
5,04% |
R |
4 |
4,08% |
1 |
3,78% |
4,69% |
4,51% |
5,06% |
3,72% |
3,53% |
4,49% |
S |
4 |
4,08% |
1 |
3,03% |
4,32% |
4,52% |
4,46% |
4,07% |
4,57% |
4,26% |
Y |
4 |
4,08% |
2 |
5,27% |
3,76% |
3,78% |
3,70% |
3,82% |
3,25% |
4,35% |
C |
3 |
3,06% |
2 |
4,13% |
3,96% |
3,81% |
3,96% |
3,79% |
3,93% |
3,94% |
M |
3 |
3,06% |
2 |
4,11% |
2,80% |
2,57% |
2,73% |
3,41% |
3,73% |
2,59% |
K |
3 |
3,06% |
2 |
2,98% |
3,51% |
3,02% |
3,54% |
3,50% |
3,42% |
3,74% |
P |
3 |
3,06% |
2 |
2,78% |
3,13% |
2,93% |
2,92% |
3,19% |
2,66% |
3,02% |
L |
3 |
3,06% |
2 |
2,34% |
2,10% |
2,04% |
2,36% |
1,85% |
2,53% |
1,91% |
T |
3 |
3,06% |
2 |
2,24% |
3,98% |
3,54% |
3,94% |
3,72% |
4,53% |
3,62% |
D |
3 |
3,06% |
2 |
2,21% |
3,25% |
3,36% |
3,23% |
3,44% |
3,12% |
3,55% |
U |
2 |
2,04% |
3 |
2,78% |
2,50% |
1,87% |
2,59% |
2,22% |
2,03% |
2,81% |
Ł |
2 |
2,04% |
3 |
2,70% |
1,82% |
1,90% |
1,82% |
3,55% |
1,19% |
2,23% |
B |
2 |
2,04% |
3 |
2,32% |
1,47% |
1,26% |
1,39% |
1,77% |
1,98% |
1,17% |
J |
2 |
2,04% |
3 |
1,92% |
2,28% |
2,32% |
2,26% |
2,12% |
2,89% |
1,96% |
G |
2 |
2,04% |
3 |
1,36% |
1,42% |
1,38% |
1,54% |
1,34% |
1,11% |
1,36% |
H |
2 |
2,04% |
3 |
1,14% |
1,08% |
1,19% |
1,25% |
0,93% |
1,12% |
1,01% |
Ą |
1 |
1,02% |
5 |
1,43% |
0,99% |
0,84% |
0,95% |
1,24% |
0,33% |
1,13% |
Ś |
1 |
1,02% |
5 |
1,31% |
0,66% |
0,76% |
0,58% |
0,93% |
0,47% |
0,65% |
Ę |
1 |
1,02% |
5 |
0,80% |
1,11% |
1,15% |
0,98% |
1,81% |
0,71% |
1,22% |
Ż |
1 |
1,02% |
5 |
0,78% |
0,83% |
0,69% |
0,66% |
0,96% |
0,53% |
0,77% |
F |
1 |
1,02% |
5 |
0,35% |
0,30% |
0,37% |
0,41% |
0,19% |
0,22% |
0,28% |
Ó |
1 |
1,02% |
5 |
0,35% |
0,85% |
1,22% |
0,89% |
0,72% |
0,34% |
0,93% |
Ć |
1 |
1,02% |
6 |
0,19% |
0,40% |
0,47% |
0,26% |
0,51% |
0,31% |
0,29% |
Ń |
1 |
1,02% |
7 |
0,25% |
0,20% |
0,19% |
0,21% |
0,15% |
0,06% |
0,22% |
Ź |
1 |
1,02% |
9 |
0,09% |
0,06% |
0,10% |
0,07% |
0,07% |
0,04% |
0,12% |
polskie |
10,20% |
7,90% |
6,92% |
7,32% |
6,42% |
9,94% |
4,00% |
7,56% |
||
samo- głoski |
39,80% |
44,59% |
41,74% |
40,75% |
41,63% |
42,05% |
43,40% |
42,16% |
W kolejnych kolumnach tabeli podane są: litera, liczba płytek z tą literą w zestawie Scrabble, udział procentowy w zestawie, punktacja tej litery, a następnie frekwencja liter na podstawie różnych źródeł:
– OSPS – Oficjalny Słownik Polskiego Scrabblisty
– NKJP – Narodowy Korpus Języka Polskiego, opracowany przez IPI PAN
– Litera – artykuł Barbary Kowalskiej w czasopiśmie „Litera” [1]
– Krypto – strona http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/
– Pętla – opowiadanie Marka Hłaski „Pętla” [2]
– GG – zbiór zapisów rozmów z komunikatora Gadu-Gadu [2]
– ZM – artykuł L. Zubrzyckiej z czasopisma Zastosowania Matematyki [3]
Dwa dolne wiersze zawierają procentowy udział „polskich liter” (ą, ć, ę, ł, ń, ó, ś, ź, ż) oraz samogłosek.
Garść informacji na temat źródeł (poza przedstawionym wcześniej artykułem z „Litery”). Wykorzystałem pierwsze wydanie OSPS, zawierające ok. półtora miliona wyrazów, co daje ok. 15 milionów liter.
Narodowy Korpus Języka Polskiego to zrównoważony językowo i tematycznie zbiór polskich tekstów. Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Warto dodać, że wyniki z tej kolumny nie sumują się do 100%, ponieważ w statystyce uwzględnione są także litery, nie występujące w języku polskim, a pojawiające się w nazwach własnych, m.in. Q, V oraz X.
Strona „PracticalCryptography” podaje statystyki występowania poszczególnych liter, a także częstotliwość występowania najpopularniejszych zestawów dwuliterowych, trzyliterowych i czteroliterowych w różnych językach. Statystyka dla języka polskiego została opracowana na podstawie złożonego z 90 milionów znaków korpusu języka polskiego z zasobów uniwersytetu w Lipsku.
Statystyki dla opowiadania „Pętla” i zapisu rozmów na Gadu-Gadu (po około 80 tysięcy liter) pochodzą z artykułu Marka Osiewicza i Krzysztofa Skibskiego z Uniwersytetu Adama Mickiewicza w Poznaniu. Autorzy porównali frekwencję liter w dwóch tekstach z XVI wieku z napisanym współczesnym językiem (no może prawie współczesnym, bo z roku 1956) opowiadaniem Marka Hłaski i zapisem rozmów na Gadu Gadu (artykuł został napisany w roku 2012, kiedy ten komunikator był dość powszechnie używany). Oczywiście tych starych tekstów nie brałem pod uwagę. Nie tylko dlatego, że gra Scrabble powstała znacznie później ale przede wszystkim z powodu występowania w nich innego zestawu liter niż we współczesnej polszczyźnie.
Praca Zubrzyckiej miała na celu przygotowanie założeń do reformy systemu stenografii. Chodziło o to, żeby najczęściej występującym literom odpowiadały najszybsze do napisania znaki stenograficzne. Autorka analizowała 4 teksty: polityczno-gospodarczy, naukowo-historyczny, handlowy i literacki. Każdy z nich liczył po około 6 tysięcy liter. Okazało się, że rozkład liter, szczególnie tych rzadziej występujących, był w nich bardzo różny (np. w pierwszym tekście litera Ń wystąpiła tylko raz, a Ź 14 razy, zaś w ostatnim Ń było 15, a Ź 3. Dlatego wykorzystałem średnią dla tych czterech tekstów, opartą na zbiorze 24 tysięcy liter.
W polskiej wersji Scrabble 7 płytek z woreczka można wyciągnąć na 11.268.199 różnych sposobów. Specjalnie wytłuściłem słowo różnych, bo oczywiście wzór na kombinacje, określający liczbę możliwych wyborów 7 elementów ze 100, daje wartość dużo wyższą – ponad 1,6 x 1010. Ale, jak napisałem wcześniej, tylko niektóre litery w zestawie Scrabble nie powtarzają się, a np. litera A występuje aż w 9 egzemplarzach. Jak można otrzymać liczbę różnych rozwiązań? Otóż każdej literze, która występuje w zestawie tylko raz, przypisujemy wielomian 1+x, tym, co występują po dwa razy wielomian 1+x+x2 itd., a następnie wszystkie te wielomiany przez siebie mnożymy (nie polecam robienia tego ręcznie na kartce) czyli wykonujemy działanie:
(1+x)9 (1+x+x2)7 (1+x+x2+x3)7 (1+x+x2+x3+x4)4 (1+x+x2+x3+x4+x5)2 (1+x+x2+x3+x4+x5+x6)(1+x+x2+x3+x4+x5+x6+x7) (1+x+ x2+x3+x4+x5+x6+x7+x8) (1+x+x2+x3+x4+x5+x6+x7+x8+x9)
W rezultacie dostajemy długi wielomian stopnia 100, w którym interesuje nas tylko jedna liczba – współczynnik stojący przy wyrazie x7 (7 – bo tyle płytek losujemy) i to jest właśnie podana wcześniej wartość: 11.268.199. Oczywiście dla każdej wersji językowej ta wartość może być inna, bo liczby liter w poszczególnych alfabetach są różne, a w dodatku poszczególne wydania mogą się różnić łączną liczbą płytek.
Intersujący może być procentowy udział różnych struktur w wylosowanym układzie płytek, np. jak często się zdarza, że na każdej z wylosowanych płytek będzie inna litera. W Tabeli 2 przedstawiam takie zestawienie dla kilku wersji językowych – polskiej, angielskiej, czeskiej i łacińskiej. Dlaczego akurat te wybrałem te języki? Otóż zestaw dla każdego z nich składa się ze 100 płytek, więc łatwiej można dokonać porównań, a zestaw czeski i łaciński mają odpowiednio najwięcej i najmniej różnych liter.
Rozkład liter | Polski | Angielski | Czeski | Łaciński | Polski | Angielski | Czeski | Łaciński | |
7 |
3 |
4 |
0 |
7 |
0,0000% |
0,0001% |
0,0000% |
0,0010% |
|
61 |
128 |
182 |
39 |
140 |
0,0011% |
0,0057% |
0,0001% |
0,0193% |
|
52 |
138 |
147 |
112 |
144 |
0,0012% |
0,0046% |
0,0003% |
0,0198% |
|
511 |
2976 |
2275 |
2964 |
1520 |
0,0264% |
0,0711% |
0,0073% |
0,2091% |
|
43 |
160 |
121 |
136 |
143 |
0,0014% |
0,0038% |
0,0003% |
0,0197% |
|
421 |
7130 |
5775 |
8512 |
3762 |
0,0633% |
0,1805% |
0,0208% |
0,5174% |
|
4111 |
49600 |
28600 |
73112 |
12540 |
0,4402% |
0,8938% |
0,1791% |
1,7248% |
|
331 |
4216 |
1650 |
5814 |
1729 |
0,0374% |
0,0516% |
0,0142% |
0,2378% |
|
322 |
4301 |
2520 |
6804 |
2142 |
0,0382% |
0,0788% |
0,0167% |
0,2946% |
|
3211 |
181815 |
75600 |
354312 |
43092 |
1,6135% |
2,3627% |
0,8677% |
5,9270% |
|
31111 |
611320 |
179400 |
1480518 |
67830 |
5,4252% |
5,6067% |
3,6258% |
9,3295% |
|
2221 |
60720 |
36960 |
135198 |
17442 |
0,5389% |
1,1551% |
0,3311% |
2,3990% |
|
22111 |
1240620 |
531300 |
3425016 |
165699 |
11,0099% |
16,6046% |
8,3879% |
22,7907% |
|
211111 |
4833024 |
1447160 |
16696953 |
294576 |
42,8908% |
45,2277% |
40,8908% |
40,5168% |
|
1111111 |
4272048 |
888030 |
18643560 |
116280 |
37,9124% |
27,7533% |
45,6580% |
15,9935% |
|
11268199 |
3199724 |
40833050 |
727046 |
100,0000% |
100,0000% |
100,0000% |
100,0000% |
Tabela 2
W lewej kolumnie tabeli podany jest układ liter. Samo 7 oznacza wylosowanie siedmiu takich samych liter, 61 – sześciu takich samych i jednej innej itd. aż do 1111111 czyli siedmiu różnych liter. W następnych czterech kolumnach mamy liczbę możliwości dla każdego języka. Np. w języku polskim można wylosować po 7 liter A, E oraz I, w angielskim po 7: A, E, I oraz O natomiast w czeskim zestawie żadna litera nie występuje w 7 egzemplarzach. Ostatnie 4 kolumny to procentowy udział poszczególnych układów liter. Jak widać z tego zestawienia, tylko w języku czeskim najbardziej prawdopodobne jest wylosowanie siedmiu różnych liter (a to dlatego, że w czeskim wydaniu Scrabble jest aż 39 różnych liter plus oczywiście blanki). W trzech pozostałych wersjach zazwyczaj gracz losuje zestaw, w którym jedna litera się powtarza. Oczywiście w polskim wydaniu najczęściej powtarza się litera A (raz na 10 losowań). Ale raz na 236 partii można na początku gry wylosować dwa blanki.
Istotnym zagadnieniem dla gracza jest proporcja samogłosek i spółgłosek. Według autorów książki [4], „idealny stojak” powinien zawierać od dwóch do czterech samogłosek. W Tabeli 3 można zobaczyć, ile jest możliwości i jaki stanowią procent układy z daną liczbą samogłosek (pionowo) i blanków (poziomo).
0 |
1 |
2 |
0 |
1 |
2 |
||
7 |
15 380 937 |
0 |
0 |
0,096% |
0,000% |
0,000% |
|
6 |
192 494 757 |
6 525 246 |
0 |
1,203% |
0,041% |
0,000% |
|
5 |
985 120 227 |
67 939 326 |
575 757 |
6,154% |
0,424% |
0,004% |
|
4 |
2 673 897 759 |
281 462 922 |
4 852 809 |
16,704% |
1,758% |
0,030% |
|
3 |
4 159 396 514 |
594 199 502 |
15 636 829 |
25,984% |
3,712% |
0,098% |
|
2 |
3 709 732 026 |
674 496 732 |
24 089 169 |
23,175% |
4,214% |
0,150% |
|
1 |
1 757 241 486 |
390 498 108 |
17 749 914 |
10,978% |
2,439% |
0,111% |
|
0 |
341 149 446 |
90 114 948 |
5 006 386 |
2,131% |
0,563% |
0,031% |
|
86,424% |
13,152% |
0,424% |
Tabela 3
Jak widać, najczęściej zdarza się wylosowanie trzech samogłosek (gdy w układzie nie ma blanka) albo dwóch (gdy jest jeden lub dwa blanki). A jak to wygląda „od drugiej strony” czyli jaki procent stanowią samogłoski w wyrazach różnej długości? W Tabeli 4, opracowanej na podstawie Słownika Scrabblisty, kolejne kolumny odpowiadają wyrazom różnej długości, a kolejne wiersze liczbom samogłosek.
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
|
1 |
31,36% |
6,09% |
1,04% |
0,15% |
0,02% |
0,00% |
||||||
2 |
66,64% |
78,48% |
47,40% |
18,51% |
5,58% |
1,42% |
0,25% |
0,03% |
0,00% |
|||
3 |
2,00% |
15,39% |
49,14% |
66,37% |
51,93% |
28,22% |
10,94% |
3,58% |
0,69% |
0,09% |
0,02% |
0,00% |
4 |
0,03% |
2,41% |
14,82% |
39,66% |
55,39% |
47,05% |
27,73% |
9,43% |
2,20% |
0,59% |
0,24% |
|
5 |
0,15% |
2,81% |
14,56% |
37,42% |
48,75% |
40,06% |
20,40% |
6,22% |
2,60% |
|||
6 |
0,00% |
0,41% |
4,31% |
18,90% |
41,24% |
44,45% |
29,67% |
15,29% |
||||
7 |
0,03% |
1,02% |
8,36% |
29,70% |
47,48% |
45,51% |
||||||
8 |
0,23% |
3,13% |
15,37% |
32,81% |
||||||||
9 |
0,03% |
0,65% |
3,51% |
|||||||||
10 |
0,03% |
Tabela 4
UWAGA: 0,00% oznacza, że takich wyrazów jest bardzo mało (np. w Słowniku Scrabblisty jest tylko 6 wyrazów dziewięcioliterowych z jedną samogłoską) natomiast puste pole oznacza, że nie ma np. żadnego wyrazu dziesięcioliterowego z jedną samogłoską.
Jak widać, najczęściej samogłoski stanowią nieco mniej niż połowę liter w wyrazie. Oczywiście są wyrazy o znacznie zaburzonych proporcjach. Z nadmiarem samogłosek: AUDIO, AUCIE, OAZIE, AUREOLE, AUDIONIE, AUREUSIE, OCIENIENIE, AEROBIOLOGIA, NIEUOSOBIENIE, AUTOUTLENIANIE, NIEUNIESIENIAMI albo z nadmiarem spółgłosek: BRZUCH, CHRZEST, WRZESZCZ, CHRZĄSZCZ, FECHTMISTRZ, CHRZĄSZCZACH, BEZWZGLĘDNOŚĆ, BEZKSZTAŁTNOŚĆ, WSZECHSTRONNOŚĆ.
Jak wspomniałem wcześniej, na stronie na temat kryptografii podane są najpopularniejsze układy dwóch, trzech i czterech kolejnych liter. Dla kogoś, kto odszyfrowuje teksty, takie informacje są bardzo istotne. Ale i dla Scrabblisty cenna może być wiedza o tym, które litery do siebie pasują.
Jak nietrudno zgadnąć, najpopularniejsze pary kolejnych liter (w artykule [2] nazywane diadami, a na stronie kryptologów – bigramami) to w języku polskim IE oraz NI. Na następnych miejscach kolejność jest różna. Na podstawie Słownika Scrabblisty reszta pierwszej dziesiątki to: OW, AN, WA, AŁ, ZA, BY, CH, CI; według strony kryptograficznej: OW, ST, NA, AN, PO, CH, CZ, RZ; w opowiadaniu „Pętla”: RZ, PO, AŁ, SZ, CZ, WI, ZY, ZE; a na GADU-GADU: ZE, NA, CZ, TA, TO, AK, SZ, PO.
W Tabeli 5 dla każdej litery podałem (na podstawie Słownika Scrabblisty) po 5 liter występujących po niej i przed nią.
Po literze z lewej kolumny | Przed literą z lewej kolumny | |
A | N, Ł, C, M, J | W, Z, I, N, Ł |
Ą | C, D, G, Ł, T | J, N, Z, I, C |
B | Y, I, A, R, O | O, A, Y, Ł, I |
C | H, I, Z, E, Y | Ą, A, Y, Ś, E |
Ć | W, M, K, C, P | A, Ś, I, Ę, E |
D | O, Z, A, R, E | O, A, E, U, Z |
E | M, N, R, J, P | I, Z, N, C, L |
Ę | C, T, Ł, D, B | I, N, R, Z, J |
F | I, A, O, R, E | E, A, O, U, Y |
G | O, A, R, N, I | E, O, A, Z, Y |
H | A, O, U, N, E | C, E, O, A, Z |
I | E, A, O, Ł, N | N, C, M, L, W |
J | Ą, A, E, C, M | A, E, U, I, O |
K | A, O, I, R, U | S, E, A, O, Y |
L | I, A, E, O, U | A, E, O, I, U |
Ł | A, O, Y, B, E | A, I, Y, P, S |
M | I, Y, U, A, O | Y, E, A, O, Ś |
N | I, A, O, E, Y | A, O, E, I, Z |
Ń | S, C, M, K, Ż | A, E, I, O, Y |
O | W, D, N, M, B | P, R, Ł, K, G |
Ó | W, Ł, R, C, Ż | R, P, K, Ł, T |
P | O, R, I, A, L | E, O, A, S, U |
R | Z, O, A, Y, U | A, E, P, O, T |
S | Z, K, T, I, A | A, E, O, U, Y |
Ś | C, M, L, N, W | Y, O, I, E, A |
T | A, O, R, Y, E | S, A, O, E, Y |
U | J, S, R, C, P | M, K, R, I, T |
W | A, Y, I, E, O | O, E, A, Y, Ó |
Y | M, Ś, C, B, W | B, W, M, N, Z |
Z | A, E, Y, O, I | R, C, S, D, O |
Ź | N, W, L, C, M | D, E, A, U, O |
Ż | E, A, Y, O, N | E, Y, O, A, J |
Tabela 5
Jak łatwo zgadnąć, po samogłoskach najczęściej występują spółgłoski i na odwrót. Ale są pewne wyjątki od tej reguły. Wśród samogłosek litera I, po której najczęściej występują inne samogłoski, a wśród spółgłosek C, R i S oraz wszystkie spółgłoski zmiękczone (Ć, Ń, Ś, Ź).
Jeśli chodzi o zagadnienie odwrotne, to powyższa prawidłowość też zachodzi i też jest kilka od niej wyjątków. Przed literami E i Ę najczęściej występuje litera I, przed K i T – S, przed Z – R, a przed Ź – D. Ciekawa jest sytuacja z literą H. Mniej więcej w 6% przypadków pojawia się na początku wyrazu, w 88% po literze C, a w 6% po wszystkich innych literach łącznie. Druga w kolejności para EH występuje ponad 60 razy rzadziej niż CH.
Bibliografia:
[1] Barbara Kowalska „Częstość występowania liter w języku polskim”, Litera, Rok II, nr 13-5/1967 [2] Marek Osiewicz, Krzysztof Skibski „Struktura statystyczna polskiego systemu graficznego.Analiza historyczno-porównawcza”, Poznańskie Studia Polonistyczne, Seria Językoznawcza t. 19 (39), z. 2, 2012
[3] L. Zubrzycka „O wyznaczaniu systemów stenograficznych”, Zastosowania Matematyki, XI, 3, 1970 [4] Wojciech Usakiewicz, Michał Derlacki „Grajmy w Scrabble”, Wydawnictwo KLEKS, Bielsko-Biała 1998