Każdy, kto trochę bardziej zaangażował się w gry planszowe, wcześniej czy później trafia na serwis boardgamegeek.com czyli BGG. Nie można przecenić tego portalu. Jest rewelacyjnym źródłem informacji o grach. Znajdziemy tam mnóstwo wyjaśnień zasad, przydatnych plików, czy wreszcie opinii – zarówno w formie recenzji jak i prostej cyfrowej oceny. Oceny te są agregowane do jednej średniej oceny, która jest często pierwszym sprawdzanym wyznacznikiem zainteresowania daną grą.
Niezależnie od tego jakie jest nasze podejście do takiego sposobu oceniania gier, można się chyba zgodzić, że średnia ocen wystawionych przez graczy, chociaż może nie jest absolutnie miarodajnym wyznacznikiem jakości gry, to jednak jest najszybszym sposobem weryfikacji, czy warto się daną grą zainteresować. Oczywiście ocena ta może być z różnych przyczyn zafałszowana (najczęściej zawyżona), więc zdecydowanie nie należy traktować jej jako prawdy objawionej!
Kolejną ciekawostką, na którą natrafia nowy lub nieuświadomiony użytkownik BGG są rankingi gier. Pomysł jest oczywisty – skoro mamy zagregowaną ocenę liczbową to nic prostszego niż zebrać gry w listę ułożoną według tych wartości. Po chwili z pewnym zaskoczeniem orientowaliśmy się, że coś się nie zgadza – ocena gry używana w rankingu jest zupełnie inna niż w opisie gry. Kolejne spostrzeżenie dotyczy faktu, że w różnych rankingach (np. głównym i gier wojennych) ta wartość bywa odmienna. Po pewnym czasie wszyscy dochodzą do wniosku, że wartość tych rankingów jest bardzo umowna i można je sobie zupełnie odpuścić. Być może jednak czasem nurtuje Was (tak jak i mnie) pytanie – skąd właściwie wzięła się taka a nie inna wartość geek ratingu? Niedawne teksty Leguna o ocenianiu na BGG oraz Michała Stajszczyka o matematyce w grach zmotywował mnie, aby spróbować się tego w końcu dowiedzieć.
Chciałem się z Wami podzielić moimi „odkryciami” i wyliczeniami – może Was również to interesowało i mając już pełną świadomość dlaczego, będziecie mogli swobodnie o rankingach z BGG zapomnieć.
Oficjalna wykładnia BGG jest następująca:
- Do rankingu wliczane są tylko gry, które uzyskały co najmniej 30 ocen. Postępowanie takie jest oczywiste, pozwala na oczyszczenie listy z gier „przypadkowych”. Gdyby każda niewydana lub „śladowa” gra znalazłaby się w rankingu to liczył by on dziesiątki tysięcy pozycji.
- Do ocen danej gry jest dodawana pewna ilość ocen średnich dla zakresu 1-10 czyli 5,5. Ich ilość jest uzależniona od tego ile ocen posiada dana gra oraz ile jest łącznie gier w konkretnym rankingu. Dokładny wzór na ilość wirtualnych ocen jest tajny, aby utrudnić manipulowanie miejscem w rankingu.
Zalety takiego postępowania są oczywiste. Uśrednienie takie pozwala uniknąć sytuacji gdy mało popularne, wysoko oceniane gry lądują na szczycie listy. Dzięki temu nie da się wprowadzić na szczyt listy gry ocenionej dziesiątkami przez paru kolegów.
Wady takiego postepowania są oczywiste. Uśrednienie takie powoduje, że mało popularne, wysoko oceniane gry nie mają szansy na wylądowanie na szczycie listy. Automatycznie jednym z głównych kryteriów staje się bowiem powszechność danej gry.
Skoro znamy ocenę jaką ma gra w ratingu (geek rating) a także ilość i średnią ocen przyznanych przez graczy, to możemy pokusić się o próbę wyliczenia, ile wirtualnych głosów jest dodawanych. Porównanie tych wartości dla wielu gier może pozwolić na odkrycie pewnych tendencji.
Czas na trochę matematyki, kto nie chce, niech nie patrzy.
Wzór na wyliczenie geek ratingu.
( S * L + x * 5,5 ) / ( x + L ) = G
Gdzie
x – szukana ilość wirtualnych ocen
G – geek rating w rankingu
S – średnia ocen przyznanych przez graczy
L – ilość ocen przyznanych przez graczy
Po drobnych przekształceniach otrzymujemy wzór na wyliczenie x.
x = L * ( G – S ) / ( 5,5 – G )
Na podstawie tego wzoru dla ponad trzydziestu gier wyliczyłem ilość doliczonych wirtualnych ocen w dwóch rankingach – głównym oraz wojennym.
Gra | Ile ocen | Średnia ocena | Ranking główny | Ranking wojenny | Wirtualne na głównym | Wirtualne na wojennym |
Sa Battalla | 30 | 8,12 | 5,589 | 5,915 | 853,146 | 159,398 |
Lonato | 49 | 6,68 | 5,572 | 5,828 | 754,056 | 127,280 |
Coral Sea | 72 | 7,12 | 5,657 | 6,117 | 670,930 | 117,044 |
La Bataille de la Moscowa | 92 | 8,9 | 5,859 | 6,849 | 779,309 | 139,875 |
Axis Empires: Totaller Krieg | 147 | 8,52 | 6,002 | 7,051 | 737,343 | 139,228 |
Unconditional Surrender | 228 | 8,63 | 6,246 | 7,412 | 728,622 | 145,243 |
The Devil’s Cauldron | 338 | 8,17 | 6,324 | 7,444 | 757,218 | 126,228 |
East Front II | 437 | 8,08 | 6,475 | 7,479 | 719,369 | 132,712 |
Thunderbolt Apache Leader | 569 | 8,36 | 6,732 | 7,612 | 751,893 | 201,521 |
ASL: Starter Kit 3 | 702 | 8 | 6,733 | 7,629 | 721,358 | 122,331 |
D-day at Omaha Beach | 803 | 8,31 | 6,98 | 7,847 | 721,615 | 158,410 |
We the People | 1008 | 7,34 | 6,594 | 7,168 | 687,356 | 103,942 |
CC:Pacific | 1120 | 8,13 | 7,144 | 7,891 | 671,727 | 111,953 |
Maria | 1518 | 7,99 | 7,224 | 7,73 | 674,471 | 176,987 |
Here I Stand | 2579 | 7,96 | 7,432 | 7,831 | 704,820 | 142,725 |
Paths of Glory | 3078 | 8,03 | 7,575 | 7,924 | 674,935 | 134,599 |
CC: Europe | 3744 | 7,93 | 7,545 | 7,794 | 704,861 | 221,963 |
C&C: Ancients | 6022 | 7,82 | 7,573 | 7,729 | 717,527 | 245,851 |
Battlelore | 8220 | 7,44 | 7,243 | 7,253 | 929,053 | 876,863 |
War of Ring | 8286 | 7,85 | 7,644 | 7,745 | 796,136 | 387,541 |
SW: X-wing | 10751 | 7,94 | 7,725 | 7,653 | 1038,861 | 1433,134 |
Memoir ’44 | 16164 | 7,53 | 7,408 | 7,315 | 1033,547 | 1914,744 |
Risk | 18003 | 5,59 | 5,475 | 5,228 | -82813,800 | -23959,875 |
Twillight Struggle | 19677 | 8,34 | 8,222 | 8,309 | 853,007 | 217,155 |
Battlestar Galactica | 20440 | 7,83 | 7,706 | 1148,939 | ||
Bohnanza | 23296 | 7,09 | 7,013 | 1185,586 | ||
Arkham Horror | 25403 | 7,42 | 7,273 | 2106,171 | ||
Race for Galaxy | 28243 | 7,8 | 7,727 | 925,7921 | ||
Citadels | 30769 | 7,19 | 7,113 | 1468,824 | ||
Ticket to Ride | 36487 | 7,51 | 7,418 | 1750,158 | ||
Pandemic | 42600 | 7,66 | 7,584 | 1553,551 | ||
Dominion | 43559 | 7,78 | 7,695 | 1686,795 | ||
Carcassone | 51879 | 7,44 | 7,347 | 2612,207 | ||
Catan | 52808 | 7,35 | 7,219 | 4024,344 |
Po przyjrzeniu się tabelce łatwo wychwycić zaskakującą anomalię. Średnia ocen dla Risk to 5,59, zaś w rankingach jest to 5,475 oraz 5,228. Obie te wartości są poniżej 5,5, a przecież nie da się ich uzyskać przez dodawanie ocen 5,5 do liczby, która jest wyższa niż 5,5…
Z anomalii Riska od razu narzuca się pierwszy wniosek – przed doliczeniem głosów wirtualnych średnia ocen graczy jest modyfikowana.
Ponieważ uzyskane wyniki dla tej gry fałszują obraz na wykresie, więc została ona z niego wykluczona.
Przyglądając się wykresowi zauważymy, że do pewnego momentu ilość dodanych głosów jest mniej więcej stała – oscyluje w z grubsza stałym przedziale. Przedział ten jest różny dla obu rankingów. Na podstawie tego można wyciągnąć wniosek, że wirtualne głosy zależą od ilości gier w rankingu ale nie zależą od ilości ocen jaką otrzymała konkretna gra. W połączeniu z wcześniejszym wnioskiem, można sądzić, że ilość wirtualek jest stała w ramach jednego rankingu.
Zdaje się temu zaprzeczać druga część wykresu, gdzie widzimy drastyczne skoki w górę i w dół, jednak ogólnie wygląda to na wzrost ilości wirtualnych głosów. Prawdopodobnie jednak jest to efekt skali powiązany z wielką ilością ocen dokonanych przez graczy.
Co z tego wszystkiego wynika? Średnia ocen graczy brana do wyliczeń wartości w rankingu, jest zauważalnie obniżona. Są dwie teorie dlaczego tak jest.
Po pierwsze system odrzuca część głosów, które uznaje za fałszywe. Są to głosy „ustawione” mające na celu podbicie (lub obniżenie) średniej oceny danej gry. Jest to robione automatycznie, wg jakichś odgórnie przyjętych i szerzej nieznanych kryteriów. Oznacza to, że podczas tego procesu może być także odrzucana nieokreślona ilość głosów normalnych graczy, którzy wpasowali się w te kryteria.
Kolejną możliwością, jest to, że algorytm wyliczający uwzględnia średnią ocen przyznanych przez gracza. Czyli 10 przyznana przez kogoś kto ma najczęściej daje 6 czy 7 ma większe znaczenie niż taka, która przyznała osoba, która najczęściej daje 9 lub 10. Ale to nic pewnego.
Co to wszystko oznacza? Że dokładne parametry wyliczeń ratingu są nieznane, wiarygodność rankingu jest pomijalna, a ja zmarnowałem trochę czasu na analizy, po których mogę zacytować Sokratesa: „Wiem, że nic nie wiem”. Jedynym pewnikiem wynikającym z całej tej pisaniny, jest to, że gra z małą ilością ocen jest w rankingu bez szans.
Jeżeli jednak Was też nurtowało kiedyś pytanie – „Jak to jest policzone?”, to może chociaż z zainteresowaniem przeczytacie ten wpis – co da mi poczucie, że jednak ten czas nie był taki do końca zmarnowany…
Do liczenia rankingu na podstawie ocen internautów używa się funkcji nieliniowej. Bardzo dobrze sprawdza się funkcja logarytmu. Na osi X mamy ilość oddanych głosów, a wartości funkcji (po znormalizowaniu np. od 0 do 1) służą jako waga średniej z oddanych głosów. Jak jest mało głosów to są one dodatkowo pomniejszane, jak głosów jest więcej to mają większą wartość. Najważniejsze jest jednak to, że przy bardzo dużej ilości głosów wartość funkcje jest już praktycznie taka sama i nie wpływa na wyniki. Dzięki temu trzy głosy po 10 punktów w rankingu będą niżej niż dwadzieścia głosów po 8 punktów. Przy dużych ilościach głosów będzie miało duże znaczenie wyłącznie jaka jest średnia ocen, wartość funkcji jest pomijalna i bliska 1.
Drugi istotny czynnik to wartościowane głosów wg tego, kiedy zostały oddane. Stare oceny muszą powoli się wypalać. Można to robić albo poprzez grupowanie starych głosów, usuwanie (nieuwzględnianie) starych ocen, branie pod uwagę tylko N ostatnich głosów czy też zmniejszanie ich wagi na osi X wykresu.
Ten element oceny jest bardzo ważny – wyobraźmy sobie, że była jakaś akcja promocyjna czy inny strzał popularności serwisu – kilka tysięcy osób oddaje głosy na to co już jest w czołówce. Potem przez rok ruch na witrynie jest mniejszy (taki jak przed strzałem) ale żadna nowa gra nie może przebić się ponad te kilka tytułów. Wspomniany modyfikator wagi głosów w czasie pozwoli po jakimś czasie wejść na podium nowym, genialnym tytułom, mimo iż sumarycznie mają mniej ocen niż tytuły nabite podczas fali przypływu.
Modyfikacje wagi głosów danych użytkowników również można wprowadzić ale mają one mniejszy sens i będą raczej mniej skomplikowane. Przykład: mierzymy zaangażowanie użytkownika (ilość ocen, wpisów, aktywność, etc.) i poniżej pewnego progu jego głosy są np. warte 1/2 tych bardziej zaangażowanych ale nie w sensie wartości oceny tylko w sensie ilości ocen (wolniej przesuwamy się na osi X na wykresie logarytmicznym, który opisałem).
Podsumowując, liczenie wg zaproponowanego przez autora algorytmu byłoby chyba zbyt proste do realnej oceny danej gry w danym momencie. Funkcja logarytmiczna jest bardziej naturalna a modyfikator czasowy pozwala zmieniać ranking wg zmieniającego się trendu.
Tylko, że ja niczego nie proponowałem. Ja próbowałem dojść do tego, jak dokładnie są liczone rankingi na BGG.
Użyłem słowa „zaproponowanego” w przenośni. Trochę smutne, że z tylko tyle udało Ci się wyłowić z mojego komentarza. Napiszę inaczej /bo się znów przyczepisz/ – szkoda, że uznałeś, że tylko tyle jest warte skomentowania w moim opisie.
Nie bardzo wiem co mam komentować. Twój komentarz to kilka propozycji jak można by tworzyć rankingi gier, natomiast mój tekst jest o tym, jak są tworzone rankingi na BGG. Czyli to zupełnie inne tematy, bo metoda tworzenia rankingu na BGG nie ma nic wspólnego z twoimi propozycjami.
Nie wnikam również w jakość twoich propozycji, bo nie czuję się dostatecznie kompetentnie w tym zakresie.
Po prostu odniosłem się do twojego podsumowania, w którym przedstawiłeś moim zdaniem nieprawidłowy wniosek, że zaproponowałem jakąś metodę liczenia. Ja po prostu opisałem, to co oficjalnie zostało przedstawione przez redakcję BGG w oficjalnym FAQ i próbowałem zgadnąć to co pozostawili nie wyjaśnione.
No świetnie, ale jaką metodą wybierzemy metodę liczenia?
bgg szuka uzytkownikow ktorych oceny wydaja sie 'nierzetelne’ i nie liczy ich przy rankingu, choc nie chowa ocen zeby nie bylo widac komu nie ufa. Jesli srednia bgg ryzyka jest nizsza niz srednia matematyczna to sugeruje ze ryzyko ma duzo 10tek od ludzi niepewnych