Može li statistika biti obmanjujuća?

Stara je poslovica da brojke ne lažu, ali lažljivci znaju shvatiti. U izvjesnom smislu ovo predstavlja opreznost ljudi prema statistikama. Statistička interpretacija može uzrokovati da podaci izgledaju pogrešno. To ovisi o statističarevoj interpretaciji podataka i o tome koje su brojke iznesene u prvi plan kao ključne točke statističkog izvješća.
Na primjer, u gimnaziji učenici sada proučavaju mjere središnje tendencije, a to su srednja vrijednost, medijan, modus i raspon. Srednja vrijednost je zbroj svih podataka, podijeljen s brojem podataka. Na primjer, može se dobiti zbroj rezultata testova neke osobe i podijeliti ga s brojem testova kako bi se odredila ocjena. Međutim, na srednju vrijednost može utjecati ono što se naziva outlier, broj koji je daleko izvan normalnog raspona testiranja. To može sugerirati da bi srednja vrijednost mogla biti pogrešan način procjene učinka.

Ako osoba savršeno položi pet testova, a ne položi šesti test i tako zaradi nulu, srednja vrijednost odražava to. Na primjer, ako svi testovi vrijede 100 bodova, prosječna ocjena je otprilike 85%. Međutim, to zapravo ne sugerira prosječnu izvedbu u ovom slučaju zbog odstupanja od nule.

Druga mjera središnje tendencije koja se može koristiti je procjena medijana. Medijan je srednji broj u skupini podataka poredanih brojčano. Ako statističar ocjenjuje za medijan, to možda neće biti reprezentativno za pravi prosjek uspješnosti ili za ono što se ocjenjuje. Medijan ne može objasniti raspon podataka koji može biti ogroman i stoga može dovesti u zabludu.

Središnja tendencija procijenjena načinom samo znači promatranje broja koji se najčešće pojavljuje u skupu podataka. Dakle, ispitanik na primjer ima mod 100. Ipak, to ne odražava da osoba koja je polagala test nije uspjela polagati jedan, što je pogrešno.

Drugi načini na koje statistika može dovesti u zabludu je način na koji se postavljaju pitanja, možda u anketi, i stupanj u kojem je anketa reprezentativan uzorak zajednice. Ako ispitate grupu srednjoškolaca i upitate “Koliko ste zadovoljni svojim obrazovanjem na skali od 1-5?” može se dobiti vrlo različite odgovore ovisno o tome je li grupa reprezentativna za “prosječnog” učenika.

Ako netko ispita skupinu učenika koji su svi ravnopravni i idu u fantastičnu, dobro financiranu školu, objavljivanje takvih podataka kao reprezentativnog uzorka bilo bi namjerno varljivo. Ako netko pita učenike različitih škola s različitim ocjenama, onda će anketa vjerojatno biti reprezentativnija i pravednija. Međutim, ako netko pita učenike što misle o školama, a zatim objavi rezultate kao reprezentativni uzorak opće populacije, odgovori će tada biti vrlo iskrivljeni.
Brojke se mogu činiti vrlo konkretnim, a neke ih broje zavaraju samo zato što se čini da su činjenice i imaju neospornu vrijednost. Stoga se statistički podaci često mogu koristiti na pogrešan način kako bi se ljudi oduševili brojevima i kako bi se sporne stvari doimale više kao činjenica. Ugledni statističari znaju da pitanja moraju biti generalizirana, a također ih je potrebno postavljati ljudima koji predstavljaju populacije.

Međutim, brojke i statistike mogu biti varljivi jer ne predstavljaju pojedinca. Oni mogu pokazati kako ljudi “općenito” reagiraju na ideju, proizvod ili političkog kandidata. Ne mogu pokazati kako će se osjećati jedna osoba u svim svojim beskonačno promjenjivim kvalitetama.