Czy najlepsze gry powinny być popularne? Czy może popularność jest zaprzeczeniem jakości, bo wynika ze schlebiania niewyszukanym gustom? Poświęciłem parę chwil na sprawdzenie, jakich odpowiedzi na takie pytania udziela ranking BGG. Nie ma co tu kryć – jest on istotnym punktem odniesienia dla zapalonych graczy. Prawie każdy, kto założył tam konto, dokłada się do tego rankingu, oceniając znane sobie gry (jak rozumiem, za wyjątkiem Inka). Jeśli tak robi to – jak rozumiem – także po to, by suma takich ocen dawała jakiś obraz, który inni będą brali pod uwagę. Co składa się na ten obraz?
Środowisko skupione wokół BGG od zawsze było podzielone. Najwyraźniej takie podziały się pogłębiają. Widać to po powstających osobnych rankingach. Niemniej jednak ten główny pozostaje wyjściowym, najbardziej eksponowanym. Jeszcze w marcu 2014 ściągnąłem dane pierwszego tysiąca gier w generalnym rankingu. O każdej grze można tam znaleźć pięć informacji – poza tytułem jest to rok wydania, liczba oddanych głosów, surowa ocena, miejsce w rankingu wraz z modyfikowaną oceną, która jest tego rankingu podstawą. Modyfikacja polega – o ile mi wiadomo – na dodaniu 500 domniemanych oceniających, z których każdy dał grze ocenę równą średniej ocen wszystkich gier. Cały ten zabieg – bardzo sensowny – ma zapobiec sytuacji, w której na czele rankingu nieodmiennie znalazłyby się gry ocenione na 10 przez jedną osobę. Im gra jest popularniejsza, tym ta bazowa ocena ma mniejsze znaczenie.
Te pięć informacji pozwala sprawdzić zależność pomiędzy surową oceną a popularnością, mierzoną liczbą oceniających. Szczegóły zabawy na końcu notki, generalnie jednak chodzi o to, jak może się odchylać popularność i ocena. Można tu stworzyć cztery bardzo specyficzne rankingi.
Pierwszy pokazuje gry, w których rzeczywista ocena jest wyższa niż ta, której można byłoby się spodziewać na podstawie liczby ocen. Bardzo zbliżony jest ranking gier, których rzeczywista popularność jest dalece poniżej tej, której można byłoby się spodziewać na podstawie ocen graczy. Czołówkę takiego właśnie rankingu pokazuje tabelka. Można w niej znaleźć rok wydania, średnią ocenę graczy, liczbę oddanych głosów i miejsce w rankingu BGG.
W tak wyróżnionym gronie dominują gry wojenne. Niektóre świeżutkie, niektóre sprzed ponad ćwierć wieku. Mają one oceny, o których najpopularniejsze gry rodzinne mogą tylko pomarzyć. Pojawiają się też tu ciężkawe nowości, jak Caverna czy Robinson. Jest tu wreszcie lider rankingu Twilight Struggle/Zimna Wojna i zajmująca trzecie miejsce Cywilizacja: Poprzez Wieki. Gry darzone miłością przez całkiem liczne grono, lecz jednak jakoś wybranych. Stąd moja nazwa tej kategorii – niszówki. Jest faktem, że TS ma nieomal taką samą liczbę ocen jak Dixit, zaś oceniany jest istotnie wyżej. Nie mam jednak wątpliwości, czy np. ktokolwiek z mojej ekipy graczy „piątkowych” (bo spotykamy się co tydzień w piątek) zechciałby w ogóle rozważyć zagranie w TS po rzuceniu okiem na grę. Na Dixita można zaś namówić każdego, nawet z takich, którzy na BGG w życiu nie wejdą. Można zaś przypuszczać, że ci, którzy grają w TS, wchodzą na BGG nieomal wszyscy.
Zupełnie inny ranking tworzą gry, w przypadku których liczba ocen stanowczo wyprzedza ocen takich wysokość. Nazwałem je tu sobie „nieprzejmówkami”. Nie przejmują się one marudzeniem geeków, tylko sprzedają się na potęgę.
Tu listę otwierają Osadnicy z Catanu, minimalnie wyprzedzając Carcassonne. Gdyby ktoś czerpał swoją wiedzę tylko z rankingu, nie zaglądając do liczby oceniających, pewnie by na te dwa tytuły nie zwrócił uwagi. Taki ranking ma w pierwszej dziesiątce trzy tytuły z pierwszej dziesiątki zwykłego rankingu: to Agricola, Puerto Rico i Wysokie Napięcie. To pozycje bez porównania cięższe nie tylko niż Osadnicy czy Carcassonne, lecz także 7 Cudów czy Race for the Galaxy. Najwyraźniej gry lekkie i lekkopółśrednie nie mają czego szukać w generalnym rankingu. Nawet taki Dominion, niegdyś czarny koń, trafił po czterech latach na dwudzieste miejsce. Mam wrażenie, że gry z tej listy mają na tyle małą barierę wejścia, że każdy może ich sprobować. Nie każdemu podejdą, na przykład ze względu na rodzaj interakcji (dla mnie Agricola i Cytadela są nie do przejścia, każda jednak z innego powodu), każdy jednak może ich spróbować. Jeśli oceni je gorzej, tracą w rankingu. Gry niszowe będą wyżej, bo ogromna większość graczy nawet ich nie spróbuje – zaś z tego powodu nie wpisze swojej oceny. Sam zaniżyłem średnią ocenę Agricoli, zaś Cavernie to nie grozi – po prostu do niej nie siądę.
Jest jednak i drugi koniec pierwszego modelu – gry oceniane znacznie niżej niżby to wynikało z ich popularności. Nazwałem je sobie „kontrowersyjnówki”. Ogląd ich listy rzeczywiście pokazuje, że dzielą one graczy w nieco odmienny sposób.
Wszystkie te gry mają oceny w przedziale 6,4-6,7. Zajmują miejsca gdzieś w czterech ostatnich setkach pierwszego tysiąca gier. Towarzyszą im najczęściej gry oceniane przez kilkaset osób. Oceny takich „towarzyszek” w rankingu są znacznie wyższe, lecz statystyczny „obciążnik” nie pozwala im wyprzedzić popularniejszych gier. W grupie tej – w odróżnieniu od „niszówek” – jest wiele tytułów dobrze mi znanych. Rzeczywiście są to tytuły, względem których albo ja, albo część mojej ekipy ma mieszane uczucia. Pierwsze miejsce, które zajmuje „Czerwony Listopad”, jest tu dobrym zobrazowaniem. Mało pamiętam gier, które wywołałyby tak skrajne uczucia ze względu na sam temat. Zupełnie nie podzielam niskich ocen Niagary czy Smoczego Serca, lecz wiem skądinąd, że nie wszystkim one podchodzą.
W pierwszej dziesiątce rankingu BGG jest pięć gier, które nie trafiły do żadnego z tak sporządzonych zestawień. Można je uznać za modelowe gry BGG. To Android: Netrunner, Terra Mistica, Eclipse, Mage Knight i Le Havre. Co je łączy? Nie znam żadnej z nich, lecz coś tam o nich słyszałem. W moim wyobrażeniu mają one podobny, spory ciężar i pewną hermetyczność. Jeśli ktoś zna i lubi gry w takim klimacie, może kierować się statystykami BGG bez żadnych zastrzeżeń. Jest w głównym nurcie z wszystkimi tego urokami. Jeśli jednak do tych pięciu gier czuje dystans, to lepiej nich go zachowa także do całego rankingu.
PS. Notka ta powstała sporo temu i jej związek z notką Inka jest zupełnie niezamierzony :).
Kilka słów o metodzie
Kluczowym problemem jest tu współzależność. Wcale nie jest oczywiste, co miałoby być przyczyną czego. Dodatkowo moja wiedza statystyczna jest dość ograniczona. Świadom tych problemów zabawiłem się w ten oto sposób. Policzyłem dwa modele. Jeden próbuje wyjaśnić popularność oceną (z uwzględnieniem wieku), drugi – ocenę wyjaśnić popularnością (znów z wiekiem w tle). Obydwa pokazały istotne zależności. Jednak tym, co mnie zaciekawiło, nie były same te zależności, lecz różnice rzeczywistych ocen względem takich modeli. Na podstawie takich modeli można było policzyć spodziewaną ocenę gry przy jej znanej popularności i spodziewaną popularność przy znanej ocenie. Zaś taką spodziewaną ocenę czy spodziewaną popularność można było porównać z rzeczywistymi wartościami. To właśnie takie porównanie jest podstawą moich rankingów.
Wyjaśnienie w sprawie znaczenia wieku gry. Zależność taka nie jest oczywista. Z jednej strony gry nowe mają mniej czasu na zdobycie popularności. Gdy zaś mają małą popularność, obciążenie domniemanymi ocenami ciągnie je w dół w rankingu i nie pozwala trafić do pierwszego tysiąca gier. Jednocześnie, jak można argumentować, nowe gry powinny być lepsze, bo korzystają z doświadczeń swoich poprzedniczek. W każdym razie do ostatecznych analiz wiek gry trafił z istotną zależnością. Ewidentnie starsze gry są bardziej popularne, lecz są średnio gorzej oceniane. Kłopot jest tylko z grami starszymi niż 40 lat. Dodatkowo każdy kolejny rok ma mniejsze znaczenie. Stąd wiek gry daje najwyższe związki z pozostałymi cechami, jeśli policzy się z niego pierwiastek i odrzuci nielicznych „weteranów”.
Nie jest dla mnie jasne jakie są kryteria dla „niszówek” skoro znalazły się na tej liście gry Twilight Struggle i TtA, której mają powyżej 10 tys. głosów. Twilight Struggle z ilością powyżej 15 tys. ma więcej głosów od kilku gier na liście „nieprzejmówek”.
Ważnym czynnikiem jest wiek. Obie gry przy swoim wieku i popularności mogłyby się spodziewać nieco niższych ocen, tymczasem są bardzo cenione. Zgodzę się jednak, że w ich przypadku model może budzić wątpliwości. Gdyby jednak policzyć dokładnie odwrotność rankingu wyłaniającego „nieprzejmówki” – czyli które gry mają największy „niedobór” głosujących, zważywszy na ich oceny, to znajdą się tam same gry wojenne. Są oceniane przez kilkaset osób, lecz za to bardzo wysoko.
„Modyfikacja polega – o ile mi wiadomo – na dodaniu 500 domniemanych oceniających, z których każdy dał grze ocenę równą średniej ocen wszystkich gier.”
Modyfikacja jest dużo bardziej skomplikowana i ściśle tajna. Gdyby była tak prosta, jak mówisz, nie byłoby przypadków, że jakaś gra ma zarówno więcej głosów, jak i wyższą średnią, a mimo to w rankingu jest niżej (Netrunner vs TtA, Władca Pierścieni LCG vs Shogun to dwa znane mi przykłady tego zjawiska w top 100 rankingu).
Ciekawe tylko ile osób, które zagrały w daną grę chce się podzielić oceną. No i jakie znaczenia ma moda?:)
Ciekawa analiza, podoba mi się bo zwraca uwagę na istotny problem. Szkoda, że nie wiadomo na czym dokładnie polega normalizowanie wyniku w rankingu BGG. Jak dla mnie główny ranking powinien być traktowany tylko jako ogólna sugestia, rankingi tematyczne są bardziej wiarygodne ale też trzeba do nich podchodzić z dużym dystansem.