Linjär kontra logistisk regression
I statistisk analys är det viktigt att identifiera relationerna mellan berörda variabler till studien. Ibland kan det vara det enda syftet med själva analysen. Ett starkt verktyg som används för att fastställa förhållandet och identifiera förhållandet är regressionsanalys.
Den enklaste formen av regressionsanalys är den linjära regressionen, där relationen mellan variablerna är en linjär relation. I statistiska termer tar den fram förhållandet mellan den förklarande variabeln och svarsvariabeln. Med exempelvis regression kan vi fastställa sambandet mellan råvarupriset och konsumtionen baserat på data som samlats in från ett slumpmässigt urval. Regressionsanalys kommer att producera en regressionsfunktion för datamängden, vilket är en matematisk modell som bäst passar tillgängliga data. Detta kan lätt representeras av ett spridningsdiagram. Grafisk regression motsvarar att hitta den bästa anpassningskurvan för den angivna datamängden. Kurvens funktion är regressionsfunktionen. Med den matematiska modellen kan användningen av en vara förutsägas för ett givet pris.
Därför används regressionsanalysen i stor utsträckning vid förutsägelse och prognoser. Det används också för att etablera relationerna i experimentella data, inom områdena fysik, kemi och i många naturvetenskapliga och tekniska discipliner. Om förhållandet eller regressionsfunktionen är en linjär funktion, är processen känd som en linjär regression. I spridningsdiagrammet kan den representeras som en rak linje. Om funktionen inte är en linjär kombination av parametrarna är regressionen icke-linjär.
Logistisk regression är jämförbar med multivariat regression, och den skapar en modell för att förklara effekten av flera prediktorer på en svarsvariabel. I logistisk regression bör slutresultatvariabeln emellertid vara kategorisk (vanligtvis delad; dvs ett par uppnåbara resultat, som död eller överlevnad, även om speciella tekniker gör det möjligt att modellera mer kategoriserad information). En kontinuerlig resultatvariabel kan omvandlas till en kategorisk variabel, som ska användas för logistisk regression; dock kollapsar kontinuerliga variabler på detta sätt mestadels eftersom det minskar noggrannheten.
Till skillnad från linjär regression, mot medelvärdet, behöver prediktorvariablerna i logistisk regression inte tvingas att vara linjärt kopplade, vanligt fördelade eller ha samma varians i varje kluster. Som ett resultat är förhållandet mellan prediktor och utfallsvariabler sannolikt inte en linjär funktion.
Vad är skillnaden mellan logistisk och linjär regression?
• Vid linjär regression antas en linjär relation mellan den förklarande variabeln och svarsvariabeln och parametrar som uppfyller modellen hittas genom analys för att ge den exakta relationen.
• Linjär regression utförs för kvantitativa variabler, och den resulterande funktionen är kvantitativ.
• I den logistiska regressionen kan data som används vara antingen kategoriska eller kvantitativa, men resultatet är alltid kategoriskt.