La regressione lineare è un esame che valuta se almeno un fattore indicatore chiarisce la variabile dipendente (regola). La ricaduta ha cinque presunzioni chiave:

Relazione lineare

Tipicità multivariata

No o poca multicollinearità

Nessuna auto-relazione

Omoscedasticità

Una nota sulle dimensioni dell’esempio. Nella relazione lineare, la linea guida generale sulle dimensioni dell’esempio è che l’analisi di regressione richiede in ogni caso 20 casi per ogni fattore libero nell’indagine.

Nel prodotto sottostante, è estremamente semplice da dirigere una ricaduta e la maggior parte delle supposizioni sono precaricate e tradotte per voi.

Per cominciare, la ricaduta diretta ha bisogno che il collegamento tra i fattori autonomi e quelli del reparto sia diretto. È altrettanto essenziale verificare le eccezioni, poiché la ricaduta diretta è delicata per gli impatti delle anomalie. La supposizione di linearità può essere provata al meglio con trame disperdenti, i due modelli di accompagnamento raffigurano due casi, in cui non è disponibile alcuna e scarsa linearità

Inoltre, l’esame delle ricadute dirette richiede che tutti i fattori siano multivariati tipici. Questa supposizione può essere verificata al meglio con un istogramma o una Q-Q-Plot. L’ordinarietà può essere controllata con un test della decenza della forma, ad esempio il test di Kolmogorov-Smirnov. Nel punto in cui l’informazione non viene normalmente fatta circolare, un cambiamento non diretto (ad esempio, il cambio di registro) può risolvere questo problema

In terzo luogo, la ricaduta diretta si aspetta che non ci sia quasi nessuna multicollinearità nelle informazioni. La multicollinearità si verifica quando i fattori autonomi sono associati in modo troppo profondo l’uno all’altro.

La multicollinearità può essere provata con tre criteri centrali:

1)Matrice di correlazione – quando si elabora la rete della connessione bivariata di Pearson tra ogni variabile autonoma i coefficienti di relazione dovrebbero essere più piccoli di 1.

2) Resistenza – la resilienza stima l’impatto di un fattore libero su tutti gli altri fattori autonomi; la resilienza è determinata con un’indagine di base sulla ricaduta diretta. La resilienza è caratterizzata come T = 1 – R² per queste indagini di ricaduta in fase iniziale. Con T < 0,1 ci può essere multicollinearità nelle informazioni e con T < 0,01 sicuramente c’è.

3) FVariance Inflation Factor (VIF- la variabile di rigonfiamento della differenza di rigonfiamento della ricaduta diritta è caratterizzata come VIF = 1/T. Con VIF > 5 significa che potrebbe essere disponibile la multicollinearità; con VIF > 10 vi è indiscutibilmente la multicollinearità tra i fattori.

Nella remota possibilità che la multicollinearità si trovi nell’informazione, la focalizzazione dell’informazione (cioè la deduzione della media della variabile da ogni punteggio) può occuparsi della questione. Sia come sia, l’approccio meno complesso per fornire il problema è quello di evacuare i fattori autonomi con valori VIF elevati.

Quarto, l’analisi della regressione lineare richiede che ci sia un’autocorrelazione prossima allo zero nelle informazioni. L’autocorrelazione avviene quando i residui non sono liberi l’uno dall’altro. Per esempio, questo accade normalmente nei costi di magazzino, dove il costo non è libero dal costo passato.

4) Indice di condizione – l’indice di condizione è determinato per utilizzare un esame dei fattori sui fattori autonomi. Le stime di 10-30 mostrano una discreta multicollinearità nei fattori di ricaduta rettilinei, i valori > 30 dimostrano una solida multicollinearità.

Nel caso in cui la multicollinearità si trovi nelle informazioni che mettono a fuoco l’informazione, cioè deducendo il punteggio medio, può occuparsi della questione. Diverse scelte per gestire i problemi stanno portando ad un esame dei fattori e a trasformare gli elementi per garantire la libertà delle componenti nell’indagine sulle ricadute dirette.

In quarto luogo, l’analisi della regressione lineare richiede che non vi sia praticamente alcuna autocorrelazione nelle informazioni. L’autocorrelazione avviene quando i residui non sono autonomi l’uno dall’altro. Alla fine della giornata quando la stima di y(x+1) non è libera dalla stima di y(x).

Mentre un scatterplot consente di verificare la presenza di autocorrelazioni, è possibile testare il modello a ricaduta diritta per l’autocorrelazione con il test di Durbin-Watson. Il test di Durbin-Watson verifica la teoria non valida che i residui non sono direttamente auto-associati. Mentre d può accettare valori nell’intervallo 0 e 4, i valori intorno a 2 non dimostrano alcuna autocorrelazione. Come linea guida generale le stime di 1,5 < d < 2,5 mostrano che non c’è auto-connessione nelle informazioni. Tuttavia, il test di Durbin-Watson esamina solo l’autocorrelazione diretta e solo tra vicini diretti, che sono impatti di prima richiesta.

L’ultimo sospetto dell’esame della ricaduta diritta è l’omoscedasticità. La trama dissipata è un ottimo approccio per verificare se le informazioni sono omoscedastiche (il che significa che i residui sono equivalenti sulla linea di ricaduta). Le trame disperse di accompagnamento mostrano casi di informazioni non omoscedastiche (cioè eteroscedastiche):

Il Goldfeld-Quandt Test può essere utilizzato anche per testare l’eteroscedasticità. Il test suddivide le informazioni in due raccolte e test per verificare se le differenze dei residui sono comparative rispetto alle raccolte. Nella remota possibilità che l’omoscedasticità sia disponibile, una revisione non diretta può risolvere il problema.