analisi di regressione lineare utilizzando la regressione lineare Stata Introduzione, nota anche come semplice regressione lineare o regressione lineare bivariato, viene utilizzata quando si vuole prevedere il valore di una variabile dipendente in base al valore di una variabile indipendente. Ad esempio, è possibile utilizzare la regressione lineare per capire se le prestazioni esame può essere previsto in base al tempo di revisione (cioè la variabile dipendente sarebbe prestazioni esame, misurata da 0-100 marchi, e la variabile indipendente sarebbe tempo di revisione, misurato in ore) . In alternativa, è possibile utilizzare la regressione lineare per capire se il consumo di sigarette può essere previsto in base alla durata di fumare (cioè la variabile dipendente sarebbe il consumo di sigarette, misurata in termini di numero di sigarette consumate ogni giorno, e la variabile indipendente sarebbe fumare durata, misurata in giorni). Se si dispone di due o più variabili indipendenti, piuttosto che uno solo, è necessario utilizzare regressione multipla. In alternativa, se si desidera stabilire se esiste una relazione lineare, è possibile utilizzare la correlazione Pearsons. Nota: La variabile dipendente è indicato anche come variabile esito, di destinazione o il criterio, mentre la variabile indipendente è anche indicato come il predittore, variabile esplicativa o regressore. In ultima analisi, a seconda di quale termine si usa, è meglio essere coerenti. Si farà riferimento a queste variabili come dipendenti ed indipendenti in questa guida. In questa guida, vi mostriamo come effettuare la regressione lineare utilizzando Stata, così come interpretare e riferire i risultati di questo test. Tuttavia, prima che vi presentiamo a questa procedura, è necessario comprendere le diverse ipotesi che i dati devono soddisfare per la regressione lineare per darvi un risultato valido. Discutiamo questi presupposti prossimo. Ipotesi Ci sono sette le ipotesi che stanno alla base della regressione lineare. Se uno qualsiasi di questi sette ipotesi non sono soddisfatte, non è possibile analizzare i dati utilizzando lineare, perché non sarà possibile ottenere un risultato valido. Dal momento che le ipotesi 1 e 2 si riferiscono alla vostra scelta di variabili, non possono essere testati per l'utilizzo di Stata. Tuttavia, si dovrebbe decidere se il vostro studio soddisfa questi presupposti prima di passare. Assunzione 1: la variabile dipendente deve essere misurata a livello continuo. Esempi di tali variabili continue includono altezza (misurata in piedi e pollici), la temperatura (misurata in ° C), lo stipendio (misurato in dollari USA), tempo di revisione (misurato in ore), intelligenza (misurata con QI), il tempo di reazione ( misurata in millisecondi), prestazioni (misurato da 0 a 100), vendite (misurata in numero di transazioni al mese), e così via. Se non siete sicuri se la variabile dipendente è continua (cioè misurata durante l'intervallo o il livello di rapporto), vedere i nostri Tipi di guida variabile. Ipotesi 2: La variabile indipendente dovrebbe essere misurata a livello continuo o categoriale. Tuttavia, se si dispone di una variabile categoriale indipendente, è più comune l'utilizzo di un t-test indipendente (per 2 gruppi) o ANOVA (per 3 gruppi o più). Nel caso in cui non si è sicuri, esempi di variabili categoriali includono genere (ad esempio 2 gruppi: maschi e femmine), l'etnia (ad esempio 3 gruppi: caucasico, africano-americana), il livello di attività fisica (ad esempio 4 gruppi: sedentari, basso, moderato e alti), e professione (ad esempio 5 gruppi: chirurgo, medico, infermiere, dentista, terapeuta). In questa guida, vi mostriamo la procedura di regressione lineare e uscita Stata quando entrambe le variabili dipendenti e indipendenti sono stati misurati su un livello continuo. Fortunatamente, è possibile controllare le ipotesi 3, 4, 5, 6 e 7 con Stata. Quando si sposta verso ipotesi 3, 4, 5, 6 e 7, li suggeriamo prova in questo ordine perché rappresenta un ordine in cui, se una violazione del presupposto non è correggibile, non sarà più in grado di utilizzare la regressione lineare. In realtà, non stupitevi se i dati non riesce una o più di queste ipotesi dal momento che questo è abbastanza tipico quando si lavora con i dati del mondo reale, piuttosto che esempi da manuale, che spesso mostrano solo il modo di effettuare la regressione lineare quando tutto va bene. Tuttavia, non ti preoccupare perché anche quando i dati non riesce alcune ipotesi, vi è spesso una soluzione per superare questo (ad esempio trasformare i dati o utilizzando un altro test statistico, invece). Basta ricordare che se non controllare che i dati soddisfa queste ipotesi o si prova per loro in modo errato, i risultati che si ottengono quando si esegue la regressione lineare potrebbe non essere valido. Assunzione 3: ci deve essere una relazione lineare tra le variabili dipendenti e indipendenti. Mentre ci sono un certo numero di modi per controllare se esiste una relazione lineare tra le due variabili, si suggerisce la creazione di un grafico a dispersione utilizzando Stata, dove è possibile tracciare la variabile dipendente contro la variabile indipendente. È quindi possibile ispezionare visivamente la dispersione per verificare la linearità. Il tuo grafico a dispersione può essere simile a una delle seguenti operazioni: Se il rapporto visualizzato nel grafico a dispersione non è lineare, si dovrà o eseguire un'analisi di regressione non lineare o trasformare i dati, che si può fare usando Stata. Assunzione 4: Non ci dovrebbero essere valori anomali significativi. I valori anomali sono punti dati semplicemente singoli all'interno dei dati che non seguono lo schema abituale (per esempio in uno studio di 100 punteggi studenti IQ, dove il punteggio medio è stato di 108, con solo una piccola variazione tra gli studenti, uno studente aveva un punteggio di 156, che è molto insolito, e può anche metterla nella top 1 di punteggi QI a livello globale). I seguenti scatterplot evidenziano il potenziale impatto dei valori anomali: Il problema con valori anomali è che possono avere un effetto negativo sulla regressione che viene utilizzato per prevedere il valore della variabile dipendente in base alla variabile indipendente. Questo cambierà l'uscita che Stata produce e ridurre la precisione predittiva dei risultati. Fortunatamente, è possibile usare Stata per effettuare la diagnostica per casi quello di individuare eventuali valori anomali. Assunzione 5: Si dovrebbe avere l'indipendenza delle osservazioni. il quale è possibile controllare facilmente usando la statistica Durbin-Watson. che è un semplice test da eseguire utilizzando Stata. Assunzione 6: I suoi dati ha bisogno di mostrare omoschedasticità. che è dove le variazioni lungo la linea di misura migliore rimangono simili come ci si sposta lungo la linea. I due grafici a dispersione sotto forniscono semplici esempi di dati che soddisfi questo presupposto e uno che non riesce l'ipotesi: Quando si analizzano i propri dati, sarete fortunati se il grafico a dispersione si presenta come uno dei due sopra. Mentre questi contribuiscono a illustrare le differenze nei dati che soddisfa o viola l'assunzione di omoschedasticità, i dati del mondo reale è spesso molto più disordinato. È possibile controllare se i dati hanno mostrato omoschedasticità tracciando i residui di regressione standardizzato rispetto al valore previsto di regressione standardizzato. Assunzione 7: Infine, è necessario verificare che i residui (errori) della retta di regressione sono circa distribuiti normalmente. Due metodi comuni per verificare questa ipotesi includono utilizzando un istogramma (con una curva normale sovrapposta) o un normale P-P Plot. In pratica, il controllo per le ipotesi 3, 4, 5, 6 e 7 vorranno probabilmente la maggior parte del vostro tempo nello svolgimento di regressione lineare. Tuttavia, non è un compito difficile, e Stata fornisce tutti gli strumenti necessari per farlo. Nella sezione procedura. illustriamo la procedura Stata necessario per eseguire la regressione lineare partendo dal presupposto che non ci ipotesi sono stati violati. In primo luogo, abbiamo deciso l'esempio che usiamo per spiegare la procedura di regressione lineare in Stata. Gli studi dimostrano che l'esercizio può aiutare a prevenire le malattie cardiache. Entro limiti ragionevoli, più ci si allena, minore è il rischio di avere di soffrire di malattie cardiache. Un modo in cui l'esercizio fisico riduce il rischio di soffrire di malattie cardiache è quello di ridurre un grasso nel sangue, chiamato colesterolo. Quanto più ci si allena, minore la concentrazione di colesterolo. Inoltre, è stato recentemente dimostrato che la quantità di tempo che passate a guardare la TV ndash un indicatore di un ndash di stile di vita sedentario potrebbe essere un buon predittore di malattia cardiaca (vale a dire che è, più TV si guarda, maggiore è il rischio di malattie cardiache ). Pertanto, un ricercatore ha deciso di determinare se la concentrazione di colesterolo è stata legata al tempo trascorso a guardare la TV in altrimenti sani da 45 a 65 anni gli uomini (una categoria a rischio di persone). Per esempio, come le persone hanno trascorso più tempo a guardare la TV, hanno fatto la loro concentrazione di colesterolo anche aumentare (un rapporto positivo) o è accaduto il contrario I ricercatori hanno anche voluto sapere la percentuale di concentrazione di colesterolo che il tempo trascorso a guardare la TV potrebbe spiegare, oltre ad essere in grado di prevedere la concentrazione di colesterolo. Il ricercatore potrebbe quindi determinare se, per esempio, le persone che hanno speso otto ore trascorse a guardare la TV al giorno avevano livelli pericolosamente alti di concentrazione di colesterolo rispetto alle persone che guardano solo due ore di TV. Per effettuare l'analisi, il ricercatore ha reclutato 100 partecipanti sani di sesso maschile di età compresa tra 45 e 65 anni tra. La quantità di tempo trascorso a guardare la TV (vale a dire la variabile indipendente, timetv) e la concentrazione di colesterolo (cioè la variabile dipendente, il colesterolo) sono stati registrati per tutti i 100 partecipanti. Espresso in termini variabili, il ricercatore ha voluto regredire colesterolo su timetv. Nota: L'esempio e dati utilizzati per questa guida sono fittizi. Abbiamo semplicemente creato per gli scopi di questa guida. Impostazione in Stata In Stata, abbiamo creato due variabili: (1) timetv. che è il tempo medio giornaliero speso guardare la TV in minuti (ossia la variabile indipendente) e (2) il colesterolo. che è la concentrazione di colesterolo nel mmolL (ossia la variabile dipendente). Nota: non importa se si crea la variabile dipendente o indipendente prima. Dopo la creazione di queste due variabili timetv ndash e colesterolo ndash siamo entrati i punteggi per ciascuna nelle due colonne del foglio di calcolo Data Editor (Edit) (cioè il tempo in ore che i partecipanti guardato la TV nella colonna di sinistra (cioè timetv. Il variabile indipendente), ed i partecipanti concentrazione di colesterolo nel mmolL nella colonna di destra (cioè il colesterolo variabile dipendente), come illustrato di seguito:.. Pubblicato con il permesso scritto da parte procedura di prova StataCorp LP in Stata in questa sezione, mostrano come analizzare i dati utilizzando la regressione lineare in stata quando i sei assunzioni nella sezione precedente, le ipotesi. non sono stati violati. È possibile effettuare la regressione lineare utilizzando il codice o Statas interfaccia utente grafica (GUI). Dopo aver effettuato l'analisi, abbiamo .. mostrare come interpretare i risultati in primo luogo, scegliere se si desidera utilizzare il codice o Statas interfaccia utente grafica (GUI) il codice per effettuare la regressione lineare sui dati prende la forma: regredire DependentVariable IndependentVariable Pubblicato con il permesso scritto di StataCorp LP . Utilizzando l'esempio in cui la variabile dipendente è il colesterolo e la variabile indipendente è timetv. il codice richiesto sarebbe: colesterolo regresso timetv Nota 1: È necessario essere precisi quando inserendo il codice nella casella. Il codice è case sensitive. Ad esempio, se hai inserito il colesterolo dove la C è maiuscola e non minuscola (cioè un piccolo c), che dovrebbe essere, si ottiene un messaggio di errore simile al seguente: Nota 2: Se siete ancora ottenere il messaggio di errore nella nota 2 : sopra, vale la pena controllare il nome assegnato al due variabili nell'Editor dei dati quando si imposta il file (ad esempio vedere la schermata Editor dati di cui sopra). Nella casella sul lato destro dello schermo Editor di dati, è il modo in cui hai digitato le variabili nella sezione, non la sezione che è necessario entrare nel codice (vedi sotto per la nostra variabile dipendente). Questo può sembrare ovvio, ma è un errore che a volte è fatta, con conseguente errore nella precedente nota 2. Quindi, inserire il codice, regredire colesterolo timetv. e premere il pulsante ReturnEnter sulla tastiera. Pubblicato con il permesso scritto da parte StataCorp LP. È possibile visualizzare l'output Stata che sarà prodotta qui. Interfaccia grafica utente (GUI) I tre passaggi necessari per effettuare la regressione lineare in Stata 12 e 13 sono riportati di seguito: Fare clic su S TATISTICHE GT Modelli lineari e dei relativi regressione lineare GT nel menu principale, come illustrato di seguito: Pubblicato con il permesso scritto di StataCorp LP. Verrà presentato con regresso ndash finestra di dialogo Regressione lineare: Pubblicato con il permesso scritto da parte StataCorp LP. Selezionare il colesterolo dal di dentro la variabile dipendente: casella a discesa, e timetv dall'interno delle variabili indipendenti: casella a discesa. Vi ritroverete con la seguente schermata: Pubblicato con il permesso scritto da parte StataCorp LP. Uscita di analisi di regressione lineare in Stata Se i dati passati ipotesi 3 (cioè vi era una relazione lineare tra le due variabili), 4 (vale a dire non c'erano valori anomali significativi), assunzione 5 (cioè si aveva l'indipendenza delle osservazioni), assunzione 6 ( vale a dire i dati hanno mostrato omoschedasticità) e assunzione 7 (cioè i residui (errori) sono stati di circa normalmente distribuito), che abbiamo spiegato in precedenza nella sezione ipotesi, si avrà solo bisogno di interpretare il seguente output di regressione lineare in Stata: Pubblicato con il permesso scritto da parte StataCorp LP. L'uscita consiste di quattro importanti informazioni: (a) il 2 valore di R (riga R-squared) rappresenta la proporzione della varianza nella variabile dipendente che può essere spiegato con la nostra variabile indipendente (tecnicamente è la percentuale di variazione rappresentato dal modello di regressione al di sopra e al di là del modello di media). Tuttavia, R 2 è basato sul campione ed è una stima positivamente distorta della proporzione della varianza della variabile dipendente rappresentato dal modello di regressione (cioè è troppo grande) (b) un nuovo valore R 2 (Adj R - fila al quadrato), che corregge bias positivo per fornire un valore che ci si aspetterebbe nella popolazione (c) il valore F, i gradi di libertà (F (1, 98)) e la significatività statistica del modello di regressione (Prob GT F fila) e (d) i coefficienti per la variabile costante e indipendente (colonna Coef.), che è le informazioni necessarie per prevedere la variabile dipendente, il colesterolo. utilizzando la variabile indipendente, timetv. In questo esempio, R 2 0,151. Rettificato R 2 0.143 (3 d. p.), il che significa che la variabile indipendente, timetv. spiega 14.3 della variabilità della variabile dipendente, il colesterolo. nella popolazione. Rettificato R 2 è anche una stima della dimensione dell'effetto, che a 0,143 (14.3), è indicativa di medie dimensioni effetto, secondo Cohen (1988) classificazione. Tuttavia, di solito si tratta di R 2 non rettificato R 2 che viene riportato nei risultati. In questo esempio, il modello di regressione è statisticamente significativa, F (1, 98) 17,47, p .0001. Ciò indica che, nel complesso, il modello applicato può statisticamente significativo prevedere la variabile dipendente, il colesterolo. Nota: Vi presentiamo l'uscita dalla regressione lineare sopra. Tuttavia, dal momento che si dovrebbe avere testato i dati per le ipotesi che abbiamo spiegato in precedenza nella sezione Ipotesi, sarà anche necessario per interpretare l'output Stata che è stato prodotto quando testato per queste ipotesi. Questo include: (a) i grafici a dispersione che hai utilizzato per controllare se ci fosse una relazione lineare tra le due variabili (cioè Assunzione 3) (b) la diagnostica per casi per verificare non vi erano valori anomali significativi (cioè Assunzione 4) (c) l'uscita dal la statistica di Durbin-Watson per verificare l'indipendenza delle osservazioni (cioè Assunzione 5) (d) un grafico a dispersione dei residui di regressione standardizzato rispetto al valore previsto di regressione standardizzato per determinare se i dati hanno mostrato omoschedasticità (ovvero Assunzione 6) e un istogramma (con sovrapposto curva normale) e normale Plot PP per verificare se i residui (errori) sono stati circa una distribuzione normale (cioè Assunzione 7). Inoltre, ricorda che se i dati non sono riusciti qualsiasi di queste ipotesi, l'output che si ottiene dalla procedura di regressione lineare (cioè l'uscita discutiamo sopra) non sarà più rilevanti, e potrebbe essere necessario effettuare un test statistico diverso da analizzare i tuoi dati. Segnalazione l'output di analisi di regressione lineare Quando si riporta l'uscita del regressione lineare, è buona norma includere: (a) una introduzione all'analisi voi effettuata (b) le informazioni sul campione, comprese le eventuali valori mancanti (c) la F - value osservato, gradi di libertà e significato livello (ossia il p - value) (d) la percentuale di variabilità nella variabile dipendente spiegata dalla variabile indipendente (cioè l'rettificato R 2) e (e) l'equazione di regressione per il modello. Sulla base dei risultati di cui sopra, si potrebbe riportare i risultati di questo studio come segue: A regressione lineare ha stabilito che il tempo quotidiano trascorso a guardare la TV in grado di prevedere in modo statisticamente significativo la concentrazione di colesterolo, F (1, 98) 17.47, p .0001 e il tempo trascorso a guardare la TV rappresentato il 14.3 della variabilità spiegato nella concentrazione di colesterolo. L'equazione di regressione è: previsti colesterolo concentrazione -2.135 0.044 x (tempo trascorso a guardare la TV). Oltre al riportare i risultati di cui sopra, un diagramma può essere utilizzato per presentare visivamente i risultati. Ad esempio, è possibile farlo utilizzando un grafico a dispersione con intervalli di confidenza e di previsione (anche se non è molto comune per aggiungere l'ultimo). Questo può rendere più facile per gli altri a capire i risultati. Inoltre, è possibile utilizzare l'equazione di regressione lineare per fare previsioni circa il valore della variabile dipendente in base a diversi valori della variabile indipendente. Mentre Stata non produce questi valori come parte della procedura di regressione lineare sopra, vi è una procedura in Stata che è possibile utilizzare per fare so. NOTICE: Il gruppo di consulenza statistica Idre sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare mantenimento e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca digitale e l'istruzione Aiuto Consulting Group Stat dando un regalo FAQ Come si interpretano un modello di regressione quando alcune variabili sono di log trasformato Introduzione In questa pagina, si discuterà come interpretare un modello di regressione in cui alcune variabili in il modello sono stati registro trasformato. I dati di esempio può essere scaricato qui (il file è in formato. csv). Le variabili del set di dati stanno scrivendo, leggendo, e punteggi di matematica (scrittura. Lettura e matematica). il registro trasformato scrittura (lgwrite) e log punteggi trasformati matematica (lgmath) e femminile. Per questi esempi, abbiamo preso il logaritmo naturale (ln). Tutti gli esempi sono fatte in Stata, ma possono essere facilmente generate in ogni pacchetto statistico. Negli esempi che seguono, la scrittura variabile o la sua versione trasformata log saranno utilizzati come variabile risultato. Gli esempi sono utilizzati per scopi illustrativi e non intendono avere senso sostanziale. Qui è una tabella di diversi tipi di mezzi di scrittura variabile. variabile risultato è trasformato log Molto spesso, una relazione lineare si ipotizza tra una variabile esito registro trasformato e un gruppo di variabili predittive. Scritto matematicamente, il rapporto segue l'equazione dove y è la variabile esito e x1. xk sono le variabili predittive. In altre parole, supponiamo che log (y) - (. O Y è log-normale condizione che tutte le covariate) x 946 è distribuita normalmente, Dal momento che questo è solo un ordinario di regressione dei minimi quadrati, possiamo facilmente interpretare un coefficiente di regressione, dire 946 1, come la variazione attesa nel registro di y rispetto ad un aumento una unità x1 possesso di tutte le altre variabili in qualsiasi valore fisso, assumendo che x1 entra il modello solo come effetto principale. Ma cosa succede se vogliamo sapere cosa succede alla variabile esito y se stesso per un aumento di un unità in x1 Il modo naturale per farlo è quello di interpretare i coefficienti di regressione elevate a potenza, EXP (946). poiché elevamento a potenza è l'inverso della funzione logaritmica. Iniziamo con il modello di solo intercetta, log (scrittura) 946 0. Possiamo dire che 3,95 è la media prevista incondizionata del registro di scrittura. Pertanto il valore elevate a potenza è exp (3,948,347 mila) 51.85. Questa è la media geometrica di scrittura. L'enfasi qui è che è la media geometrica anziché della media aritmetica. OLS regressione della variabile y originale viene utilizzato per stimare l'aritmetica atteso media e OLS la regressione della variabile esito log trasformata è stimata la media geometrica atteso della variabile originale. Ora consente di passare a un modello con una singola variabile predittore binaria. Prima di tuffarsi nel interpretazione di questi parametri, consente di ottenere i mezzi della nostra variabile dipendente, scrivere. per sesso. Ora siamo in grado di mappare le stime dei parametri per le medie geometriche per i due gruppi. L'intercetta di 3,89 è il log di media geometrica di scrittura quando femminile 0, vale a dire per i maschi. Pertanto, il valore elevate a potenza di esso è la media geometrica per il gruppo maschile: exp (3.892) 49.01. Cosa possiamo dire circa il coefficiente per il femminile. Nella scala logaritmica, è la differenza tra le medie geometriche attesi del registro di scrittura tra le studentesse e gli studenti di sesso maschile. Nella scala originale della scrittura variabile. è il rapporto tra la media geometrica di scrittura per gli studenti di sesso femminile sopra la media geometrica di scrittura per studenti maschi, exp (,1032,614 mila) 54.3438349.01222 1.11. In termini di variazione percentuale, possiamo dire che il passaggio da studenti maschi a studentesse, ci aspettiamo di vedere circa 11 aumento della media geometrica di scrittura punteggi. Ultimo, consente di guardare un modello con più variabili predittive. Il coefficiente exp a potenza (946 1) femmina è il rapporto tra la media geometrica previsto per il gruppo di studenti femminile sopra la media geometrica previsto per il gruppo studenti maschi, quando leggi matematica si svolgono in qualche valore fisso. Naturalmente, le medie geometriche previsti per il gruppo studenti maschi e femmine saranno diversi per diversi valori di lettura e matematica. Tuttavia, il loro rapporto è una costante: exp (946 1). Nel nostro esempio, exp (946 1) exp (0,114,718 mila) 1.12. Possiamo dire che la scrittura punteggi sarà 12 più elevato per le studentesse che per gli studenti di sesso maschile. Per la lettura variabile. si può dire che per un aumento di un unità di lettura. ci aspettiamo di vedere un aumento di circa 0,7 per iscritto punteggio, dal momento che exp (,0066,305 mila) 1,006,653 mila. Per un incremento di dieci unità di lettura. ci aspettiamo di vedere un aumento di circa 6,9 per iscritto punteggio, dal momento che exp (,006,63051 milioni) 1,0685,526 mila. L'intercetta diventa meno interessante quando le variabili predittive non sono centrati e sono continui. In questo modello, l'intercetta è la media prevista per log (scrittura) per il maschio (femmina 0) quando leggi matematica sono uguali a zero. In sintesi, quando è accedere trasforma la variabile esito, è naturale interpretare i coefficienti di regressione a potenza. Questi valori corrispondono a variazioni del rapporto delle medie geometriche attesi della variabile risposta originale. Alcune variabili predittive (non tutti) sono di registro trasformata Di tanto in tanto, abbiamo anche alcune variabili predittive in fase di log trasformati. In questa sezione, ci sarà uno sguardo a un esempio in cui alcune variabili predittive sono di log-trasformati, ma la variabile esito è nelle sue dimensioni originali. Scritto nell'equazione, abbiamo Poiché si tratta di una regressione OLS, l'interpretazione dei coefficienti di regressione per le variabili non trasformate sono invariate da una regressione OLS senza variabili trasformate. Ad esempio, la differenza media prevista per iscritto punteggi tra gli studenti maschi e femmine è di circa 5,4 punti, tenendo le altre variabili predittive costante. D'altra parte, a causa della trasformazione logaritmica, gli effetti stimati della matematica e lettura sono più lineare, anche se l'effetto di lgmath e lgread sono lineari. Il grafico seguente mostra la curva dei valori previsti contro i punteggi di lettura per il gruppo studenti femminile in possesso di matematica segnare costante. Come possiamo interpretare il coefficiente di 16,85,218 mila per la variabile di registro del punteggio lettura Consente di prendere due valori di lettura punteggio, R1 e R2. La differenza media previsto per iscritto punteggio a R1 e R2, tenendo le altre variabili predittive costante, è di scrittura (r2) - write (R1) 946 3 (log (r2) - log (R1)) 946 3 log (r2r1). Questo significa che fino a quando l'incremento percentuale in lettura (la variabile predittore) è fisso, vedremo la stessa differenza per iscritto punteggio, indipendentemente da dove il punteggio di lettura di base è. Ad esempio, si può dire che per un aumento di 10 nel leggere il punteggio, la differenza l'atteso significare che scrivono i punteggi saranno sempre 946 3 log (1.10) 16.85218log (1.1) 1.61. Sia la variabile esito e alcune variabili predittive sono trasformate di registro Che cosa accade quando le variabili sia la variabile esito e predittore sono di registro trasformano Possiamo combinare le due situazioni descritte in precedenza in uno solo. Qui è un esempio di un tale modello. Scritto come un'equazione, siamo in grado di descrivere il modello: Per le variabili che non vengono trasformati, come ad esempio femminile. il suo coefficiente a potenza è il rapporto tra la media geometrica per la femmina alla media geometrica del gruppo studenti maschi. Per esempio, nel nostro esempio, possiamo dire che l'aumento per cento previsto in media geometrica dal gruppo di studenti di sesso maschile al gruppo di studenti di sesso femminile è di circa 12 in possesso di altre variabili, dal momento che exp (0,1142,399 mila) 1.12. Per la lettura punteggio, si può dire che per un aumento di un unità di lettura punteggio, ci aspettavamo di vedere circa 0,7 di aumento della media geometrica della scrittura punteggio, dal momento che exp (,0066,086 mila) 1.007. Ora, consente di concentrarsi sugli effetti della matematica. Prendere due valori di matematica. M1 e M2, e tenere le altre variabili predittive in qualsiasi valore fisso. L'equazione di cui sopra produce Può essere semplificata per l'accesso (scrittura (m2) write (M1)) 946 2 (log (m2m1)). portando a Questo ci dice che finché il rapporto dei due punteggi matematica, m2m1 rimane lo stesso, il rapporto atteso della variabile risposta, scrivere. resta lo stesso. Ad esempio, possiamo dire che per ogni aumento di 10 punteggio matematica, il rapporto atteso delle due medie geometriche per la scrittura di punteggio sarà 1,10,946 mila 2 1.10.4085369 1,0397,057 mila. In altre parole, ci aspettiamo circa 4 aumento per iscritto punteggio quando il punteggio matematica aumenta di 10. Il contenuto di questo sito web non deve essere interpretata come un'approvazione di un particolare sito web, il libro, o di un prodotto software dalla University of California.
Comments
Post a Comment