Što je jednostavna linearna regresija?

Jednostavna linearna regresija primjenjuje se na statistiku i pomaže u opisu (x,y) podataka za koje se čini da imaju linearni odnos, omogućujući određeno predviđanje y ako je x poznat. Ti se podaci često iscrtavaju na dijagramima raspršenja, a formula za linearnu regresiju stvara liniju koja najbolje odgovara svim točkama, pod uvjetom da uistinu imaju linearnu korelaciju. Neće stati točno u sve točke, ali to bi trebala biti linija u kojoj zbroj kvadrata razlike između stvarnih podataka i očekivanih podataka (ostataka) stvara najmanji broj, koji se često naziva linijom najmanjih kvadrata ili linijom najbolje odgovara. Jednadžba linije za podatke uzorka i podatke o populaciji je sljedeća: y = b0 + b1x i Y = B0 + B1x.

Svatko tko je upoznat s algebrom može primijetiti sličnost ove linije s y = mx + b, a zapravo su ta dva relativno identična, osim što su dva člana na desnoj strani jednadžbe zamijenjena, tako da je B1 jednak nagibu ili m. Razlog za ovo preuređenje je što tada postaje elegantno lako dodati dodatne pojmove sa značajkama kao što su eksponenti koji mogu opisati različite nelinearne oblike odnosa.

Formule za dobivanje jednostavne linije linearne regresije relativno su složene i glomazne, a većina ljudi ne troši puno vremena na njihovo zapisivanje jer im je potrebno puno vremena za dovršavanje. Umjesto toga, razni programi, kao što je Excel ili za mnoge vrste znanstvenih kalkulatora, mogu lako izračunati liniju najmanjih kvadrata. Linija je prikladna za predviđanje samo ako postoji jasan dokaz jake korelacije između skupova (x,y) podataka. Kalkulator će generirati liniju, bez obzira na to ima li ga smisla koristiti.

U isto vrijeme generira se jednostavna linearna regresijska jednadžba, ljudi moraju gledati na razinu korelacije. To znači vrednovanje r, koeficijenta korelacije, prema tablici vrijednosti kako bi se utvrdilo postoji li linearna korelacija. Osim toga, evaluacija podataka iscrtavanjem kao dijagram raspršenosti dobar je način za dobivanje smisla imaju li podaci linearni odnos.

Ono što se onda može učiniti jednostavnom linijom linearne regresije, pod uvjetom da ima linearnu korelaciju, jest da se vrijednosti mogu zamijeniti u x, kako bi se dobila predviđena vrijednost za y. Ovo predviđanje ima svoje granice. Prisutni podaci, osobito ako je riječ samo o uzorku, mogu imati linearnu korelaciju sada, ali ne kasnije s dodatnim uzorkom materijala.

Alternativno, cijeli uzorak može dijeliti korelaciju dok cijela populacija ne. Predviđanje je stoga ograničeno, a odlazak daleko izvan dostupnih vrijednosti podataka naziva se ekstrapolacija i ne potiče se. Štoviše, trebaju li ljudi znati da ako ne postoji linearna korelacija, najbolja procjena x je srednja vrijednost svih y podataka.

U suštini, jednostavna linearna regresija je koristan statistički alat koji se može, uz diskreciju, koristiti za predviđanje y vrijednosti na temelju vrijednosti osi. Gotovo uvijek se poučava s idejom linearne korelacije budući da određivanje korisnosti regresijske linije zahtijeva analizu r. Na sreću s mnogim modernim tehničkim programima, ljudi mogu grafirati dijagrame raspršenja, dodati regresijske linije i odrediti koeficijent korelacije r s nekoliko unosa.