Thursday 7 September 2017

Esempi Di Regressione Di Discontinuità Nel Forex Stata


Lee e Lemieux (p. 31, 2009) suggeriscono il ricercatore di presentare i grafici mentre si fa l'analisi di regressione di progettazione discontinuità (RDD). Essi suggeriscono la seguente procedura:. per un po 'di banda h, e per qualche numero di bin K0 e K1 a sinistra ea destra del valore cut-off, rispettivamente, l'idea è quella di costruire cassoni (bk, b, per k 1. K K0K1, dove bk c (K0k1) cdot h. poi confronta i risultati medi appena a sinistra ea destra del punto di taglio. in tutti i casi, mostriamo anche i valori tted da un modello di regressione quartica stimato separatamente su ogni lato del punto di taglio. (p. 34 della stessa carta) la mia domanda è come si fa a programmare tale procedura in Stata o R per tracciare i grafici della variabile risultato contro variabile assegnazione (con intervalli di confidenza) per il forte RDD. Un esempio campione in Stata è menzionato qui e qui (sostituire rd con rdobs) e un esempio di campione in R è qui. Tuttavia, credo che entrambi questi non ha ancora implementare il passaggio 1. Nota, che entrambi hanno i dati grezzi con le linee a muro in trame. grafico campione senza variabile fiducia Lee e Lemieux, 2009 Grazie in anticipo chiesto 5 dicembre 12 a 13:. 04Regression-discontinuità l'analisi Requisiti il ​​RD disegno di base è un modello pre-test-post-test a due gruppi, come indicato nella notazione di progettazione. Come nelle altre versioni di questo disegno della struttura (ad esempio, l'analisi della covarianza esperimento randomizzato, la non equivalenti gruppi di progettazione), avremo bisogno di un modello statistico che include un termine per il pre-test, uno per il post-test, e una variabile dummy codificato per rappresentare il programma. Ipotesi in Analysis E 'importante prima di discutere il modello analitico specifico per comprendere i presupposti che devono essere soddisfatte. Questa presentazione presuppone che abbiamo a che fare con il design di base RD come descritto in precedenza. Le variazioni nella progettazione saranno discussi in seguito. Ci sono cinque ipotesi centrali che devono essere fatte in modo che il modello analitico che viene presentata opportuno, ciascuna delle quali è discusso a sua volta: The Criterion taglio. Il criterio di taglio deve essere seguita senza eccezioni. Quando c'è misassignment rispetto al valore di cut-off (a meno che non è noto per essere casuale), una minaccia selezione nasce e stime degli effetti del programma sono suscettibili di essere di parte. Misassignment rispetto al cutoff, spesso definito un disegno RD fuzzy, introduce complessità di analisi che si trovano al di fuori del campo di applicazione di questa discussione. La distribuzione Pre-Post. Si presume che la distribuzione pre-post è descrivibile come una funzione polinomiale. Se il vero rapporto di pre-post è logaritmica, esponenziale o qualche altra funzione, il modello indicato di seguito è misspecified e stime degli effetti del programma sono suscettibili di essere di parte. Naturalmente, se i dati possono essere trasformati per creare una distribuzione polinomio prima dell'analisi il seguente modello può essere appropriato anche se è probabile che sia più problematica da interpretare. A volte è anche il caso che, anche se il vero rapporto non è polinomiale, un polinomio sufficientemente alto ordine sarà adeguatamente conto di tutto ciò che esiste funzione. Tuttavia, l'analista non è in grado di sapere se questo è il caso. Confronto Gruppo Pretest varianza. Ci deve essere un numero sufficiente di valori pre-test del gruppo di controllo per consentire un'adeguata stima del rapporto vero (cioè pre-post linea di regressione) per quel gruppo. Di solito è desiderabile avere variabilità nel gruppo di programmi come bene anche se ciò non è strettamente necessario perché si può proiettare la linea gruppo di confronto di un unico punto per il gruppo di programmi. Continuo Distribuzione Pretest. Entrambi i gruppi devono provenire da una singola distribuzione di pre-test continuo con la divisione tra i gruppi determinati dal cutoff. In alcuni casi si potrebbe essere in grado di trovare gruppi intatti (ad esempio due gruppi di pazienti provenienti da due aree geografiche diverse) che casualmente dividono in qualche misura, in modo da implicare una certa soglia. Tali gruppi naturalmente discontinui devono essere usati con cautela a causa della maggiore probabilità che se ne differivano naturalmente al taglio prima del programma di una tale differenza potrebbe riflettere un bias di selezione che potrebbe introdurre discontinuità pre-post naturali in quel punto. L'attuazione del programma. Si presume che il programma è uniformemente consegnato a tutti i destinatari, cioè che tutti ricevono lo stesso dosaggio, durata, quantità di formazione, o altro. Se questo non è il caso, è necessario modellare esplicitamente il programma come attuato, complicando così l'analisi alquanto. Il Curvilinearity problema Il problema principale per l'analisi dei dati dal disegno RD è il modello misspecificazione. Come verrà illustrato di seguito, quando si misspecify il modello statistico, si rischia di ottenere stime distorte dell'effetto del trattamento. Per introdurre questa idea, Iniziamo considerando cosa succede se i dati (vale a dire il rapporto bivariata pre-post) sono curvilinee e siamo in forma un modello in linea retta ai dati. Figura 1. Una relazione curvilinea. La figura 1 mostra una semplice relazione curvilinea. Se la linea curva nella figura 1 descrive la relazione pre-post, allora dobbiamo tenerne conto nel nostro modello statistico. Si noti che, anche se vi è un valore cutoff a 50 in figura, non c'è salto o discontinuità nella linea al taglio. Questo indica che non vi è alcun effetto del trattamento. Figura 2. Una misura relazione curvilinea con un modello in linea retta. Ora, guarda figura 2. La figura mostra cosa succede quando ci troviamo in un modello in linea retta al rapporto curvilineo della figura 1. Nel modello, abbiamo limitato le pendici di entrambe le rette per essere lo stesso (cioè non ci permettiamo per qualsiasi interazione tra il programma e prova preliminare). Si può vedere che il modello di linea retta suggerisce che c'è un salto al taglio, anche se possiamo vedere che nella vera funzione non vi è alcuna discontinuità. Figura 3. Una relazione curvilinea in forma con un modello in linea retta con diverse pendenze per ogni linea (un effetto di interazione). Anche tenendo conto della retta degrada differire doesnt risolvere il problema. La figura 3 mostra cosa accade in questo caso. Sebbene la pseudo-effetto in questo caso è più piccolo rispetto a quando le piste sono costretti ad essere uguali, ancora ottiene una pseudo-effetto. La conclusione è semplice. Se il vero modello è curvo e servire soltanto rette, è probabile a concludere erroneamente che il trattamento ha fatto la differenza quando non ha fatto. Si tratta di una specifica istanza del problema più generale della specificazione del modello. Modello Specifiche Per capire il problema specificazione del modello e come si riferisce al disegno RD, dobbiamo distinguere tre tipi di specifiche. La figura 4 mostra il caso dove esattamente specificare il vero modello. Che cosa significa esattamente specificare significare L'equazione sopra descrive la verità per i dati. Esso descrive una semplice linea retta relazione pre-post con un effetto del trattamento. Si noti che include termini per la post-test Y, il pre-test X, e la variabile trattamento Z. manichino-coded L'equazione inferiore mostra il modello che specifichiamo nell'analisi. Esso comprende anche un termine per il post-test Y, il pre-test X, e la variabile trattamento Z. dummy-coded E questo è tutto ciò che comprende - non ci sono termini inutili nel modello che abbiamo specificato. Quando abbiamo esattamente specifichiamo il vero modello, otteniamo stime imparziali ed efficienti l'effetto del trattamento. Figura 4. Un modello esattamente specificato. Ora, consente di guardare la situazione in figura 5. Il vero modello è lo stesso come in Figura 4. Tuttavia, questa volta specificare un modello analitico che include un termine supplementare e inutile. In questo caso, perché abbiamo inserito tutti i termini necessari, la nostra stima dell'effetto del trattamento sarà imparziale. Tuttavia, paghiamo un prezzo per l'inclusione di termini non necessari nella nostra analisi - la stima dell'effetto del trattamento non sarà efficace. Cosa significa Ciò significa che la probabilità che concluderemo il nostro non funziona il trattamento quando in realtà non è aumentato. Compreso un termine non necessaria per l'analisi è come aggiungere rumori inutili ai dati - rende più difficile per noi vedere l'effetto del trattamento, anche se il suo lì. Figura 5. Un modello overspecified. Infine, si consideri l'esempio descritto in Figura 6. Qui, la verità è più complicata di nostro modello. In realtà, ci sono due termini che non abbiamo incluso nella nostra analisi. In questo caso, avremo un effetto preventivo trattamento che è allo stesso tempo parziale e inefficiente. Figura 6. Un modello underspecified. Strategia di analisi Data la discussione del modello di misspecificazione, siamo in grado di sviluppare una strategia di modellazione che è stato progettato, in primo luogo, per premunirsi contro stime distorte e, dall'altro, per garantire la massima efficienza delle stime. L'opzione migliore sarebbe ovviamente specificare il vero modello esattamente. Ma questo è spesso difficile da ottenere in pratica perché il vero modello è spesso oscurata dal errore nei dati. Se dobbiamo fare un errore - se dobbiamo misspecify il modello - avremmo generalmente preferiscono overspecify il vero modello piuttosto che underspecify. Overspecification assicura che abbiamo incluso tutti i termini necessari anche a scapito di quelle inutili. Si produrrà una stima non distorta dell'effetto, anche se sarà inefficiente. Underspecification è la situazione che vorresti di più evitare perché produce entrambe le stime distorte e inefficienti. Tenuto conto di questa sequenza di preferenza, la nostra strategia di analisi generale sarà quello di iniziare specificando un modello che noi siamo abbastanza certo è overspecified. La stima dell'effetto del trattamento per questo modello è probabile che sia imparziale anche se sarà inefficiente. Poi, nelle analisi successive, rimuovere gradualmente i termini di ordine superiore fino a quando la stima dell'effetto del trattamento sembra differire da quella iniziale o fino a quando la diagnostica modello (ad esempio grafici dei residui) indicano che il modello si adatta male. Passi nel Analisi L'analisi di base RD prevede cinque fasi: Figura 7. Trasformare il pre-test sottraendo il valore di cutoff. L'analisi inizia sottraendo il valore di interruzione da ogni punteggio pretest, creando il termine pre-test modificato illustrato nella figura 7. Questo viene fatto al fine di impostare l'intercetta uguale al valore di interruzione. Come funziona Se sottraiamo cutoff da ogni valore pre-test, il pre-test modificato sarà uguale a 0 dove era originariamente al valore di cutoff. Dal momento che l'intercetta è per definizione il valore y quando x0, ciò che abbiamo fatto è impostato X a 0 al taglio, rendendo il taglio del punto di intercettazione. Esaminare Relazione visivamente. Ci sono due cose importanti da cercare in un grafico del rapporto pre-post. In primo luogo è importante determinare se vi è alcuna discontinuità visivamente percepibile in relazione al taglio. La discontinuità potrebbe essere un cambiamento di livello verticale (effetto principale), un cambiamento nella pendenza (effetto di interazione), o entrambi. Se è visivamente evidente che vi è una discontinuità al taglio, allora non si dovrebbe essere soddisfatti con i risultati analitici che indicano alcun effetto del programma. Tuttavia, se discontinuità è visivamente evidente, può essere che la variabilità nei dati è mascherare un effetto e si deve seguire attentamente i risultati analitici. La seconda cosa da cercare nella relazione bivariata è il grado di un polinomio eventualmente richiesta come indicato dalla pendenza bivariato della distribuzione, in particolare nel gruppo di confronto. Un buon approccio è quello di contare il numero di punti di flessione (cioè il numero di volte che la distribuzione flette o curve) che sono evidenti nella distribuzione. Se la distribuzione appare lineare, non ci sono punti di flessione. Un unico punto di flessione potrebbe essere indicativo di un secondo (quadratica) ordine polinomiale. Queste informazioni verranno utilizzate per determinare il modello iniziale che saranno specificati. Specificare di ordine superiore Termini e interazioni. A seconda del numero di punti di flessione identificati nel passaggio 2, si crea successiva trasformazioni della variabile assegnazione modificato, X. La regola generale è che si va due ordini di polinomiale superiore a quella indicata dal numero di punti di flessione. Pertanto, se il rapporto bivariato apparso lineare (cioè non c'erano punti di flessione), si vorrebbe creare trasformazioni fino ad un secondo ordine (0 2) polinomio. Ciò è mostrato nella Figura 8. Non sembra esserci flessi o curve nella distribuzione bivariata di figura 8. Figura 8. distribuzione Bivariate senza punti di flessione. Il primo polinomio di ordine esiste già nel modello (X) e così si avrebbe solo a creare il polinomio di secondo grado elevando al quadrato X per ottenere X 2. Per ogni trasformazione di X uno crea anche il termine di interazione moltiplicando il polinomio per Z . In questo esempio ci sarebbero due termini di interazione: X i Z i e X i 2 Z i. Ogni trasformazione può essere facilmente realizzata mediante moltiplicazione lineare sul computer. Se ci sembrava essere due punti di flessione nella distribuzione bivariata, si potrebbe creare trasformazioni fino al quarto (2 2) il potere e le loro interazioni. Esame visivo non deve essere l'unica base per la determinazione iniziale del grado di un polinomio che è necessaria. Certo, prima esperienza di modellazione analoghi dati devono essere presi in considerazione. La regola empirica qui dato implica che si dovrebbe sbagliare sul lato di sovrastimare la vera funzione polinomiale che è necessaria per ragioni di cui sopra a discutere specifiche del modello. Per qualsiasi potere è inizialmente valutato da un esame visivo si dovrebbe costruire tutte le trasformazioni e le loro interazioni fino a quel potere. Pertanto, se viene scelto quarta potenza, si deve costruire tutti quattro termini X X 4 e le loro interazioni. A questo punto, si è pronti per iniziare l'analisi. Qualsiasi programma regressione multipla accettabile può essere utilizzato per realizzare questo sul computer. Una regredisce semplicemente i punteggi post-test, Y, il pre-test X modificata, la variabile Z trattamento, e tutte le trasformazioni di ordine superiore e interazioni create al punto 3. Il coefficiente di regressione associato con il termine Z (cioè la variabile appartenenza al gruppo) è la stima dell'effetto principale del programma. Se c'è una discontinuità verticale cutoff sarà stimato mediante questo coefficiente. Si può verificare la significatività del coefficiente (o qualsiasi altro) creando un t-test standard utilizzando l'errore standard del coefficiente che viene sempre fornito in uscita programma per computer. Figura 9. Il modello iniziale per il caso di nessun punto di flessione (scheda tecnica completa del modello quadratica). Se l'analista al passo 3 sovrastimato correttamente la funzione polinomiale necessaria per modellare la distribuzione della stima dell'effetto programma sarà almeno essere imparziale. Tuttavia, includendo termini che non possono essere necessari nel vero modello, la stima è probabile che sia inefficiente, cioè, i termini di errore standard saranno gonfiati e, quindi, il significato dell'effetto programma possono essere sottovalutati. Tuttavia, se a questo punto dell'analisi coefficiente è altamente significativa, sarebbe ragionevole concludere che vi è un effetto di programma. La direzione dell'effetto viene interpretato in base al segno del coefficiente e la direzione della scala del posttest. effetti di interazione possono essere esaminati. Per esempio, un'interazione lineare sarebbe implicata da un coefficiente di regressione significativa per il termine XZ. Sulla base dei risultati del passaggio 4 si potrebbe desiderare di tentare di rimuovere termini apparentemente inutili e nuova stima l'effetto del trattamento con maggiore efficienza. Questa è una procedura difficile e dovrebbe essere affrontata con cautela se si vuole ridurre al minimo la possibilità di bias. Per fare questo dovrebbe certamente esaminare l'uscita di regressione nel passaggio 4 rilevando il grado in cui il modello complessivo si adatta ai dati, la presenza di eventuali coefficienti insignificanti e il modello di residui. Un modo conservativo per decidere come perfezionare il modello sarebbe quello di esaminare anzitutto il termine di ordine più alto nel modello attuale e la sua interazione. Se entrambi i coefficienti sono non significativa, e le misure e modello di residui di bontà di adattamento indicano un buon adattamento potrebbe cadere questi due termini e Ripeti stima il modello risultante. Così, se uno stimato fino a un polinomio di quarto ordine, e trovarono i coefficienti per X 4 e X 4 Z erano non significativa, questi termini possono essere eliminati e il modello di terzo ordine respecified. Si potrebbe ripetere questa procedura fino a quando: 1) uno dei coefficienti è significativo b) la misura della bontà di adattamento scende sensibilmente o, c) il modello di residui indica un modello che non si adatta. Il modello finale può ancora includere termini inutili, ma ci sono probabilmente meno di questi e, di conseguenza, l'efficienza dovrebbe essere maggiore. le procedure specifiche del modello che comportano cadere qualsiasi termine in qualsiasi fase dell'analisi sono più pericolosi e più probabilità di produrre stime distorte a causa della notevole Multicollinearità che esisterà tra i termini del modello. Esempio di analisi è più facile capire come i dati da un design RD viene analizzato, mostrando un esempio. I dati di questo esempio sono mostrati in Figura 10. Figura 10. Distribuzione bivariato per esempio di analisi RD. Molte cose sono evidenti visivamente. In primo luogo, vi è un effetto del trattamento enorme. In effetti, la figura 10 mostra simulati dati in cui il vero effetto del trattamento è di 10 punti. In secondo luogo, entrambi i gruppi sono ben descritti da linee rette - non ci sono punti di flessione apparenti. Pertanto, il modello iniziale ben specifica è quella piena quadratica sopra indicato in figura 9. I risultati della specifica iniziale sono mostrati in Figura 11. L'effetto preventivo trattamento è quello accanto alla variabile gruppo. Questa stima iniziale è 10,231 (SE 1.248) - molto vicino al vero valore di 10 punti. Ma si noti che ci sono prove che alcuni dei termini di ordine superiore non sono statisticamente significativi e non possono essere necessari nel modello. In particolare, il termine di interazione lineare linint (XZ), e sia il quadratica (X 2) e l'interazione quadratica (X 2) Z termini non sono significativi. Figura 11. risultati di regressione per il modello quadratico completo. Anche se potremmo essere tentati (e forse anche giustificato) di abbandonare tutti e tre i termini dal modello, se seguiamo le linee guida di cui sopra al punto 5 inizieremo facendo cadere solo il quad due termini quadratici e quadint. I risultati di questo modello sono illustrati nella Figura 12. Figura 12. risultati di regressione per il modello iniziale senza termini quadratici. Possiamo vedere che in questo modello l'effetto preventivo trattamento è ora 9.89 (SE .95). Di nuovo, questa stima è molto vicino al vero effetto del trattamento 10 punti. Si noti, tuttavia, che l'errore standard (SE) è più piccola di quanto non fosse nel modello originale. Questo è il guadagno in termini di efficienza si ottiene quando si eliminano i due termini quadratici non necessari. Possiamo anche vedere che il linint lineare termine di interazione è ancora non significativa. Questo termine sarebbe significativo se le pendici delle linee per i due gruppi erano diverse. ispezione visiva mostra che le piste sono le stesse e quindi ha senso che questo termine non è significativo. Infine, lascia cadere il termine di interazione lineari non significativa e specificare nuovamente il modello. Questi risultati sono illustrati nella Figura 13. Figura 13. risultati di regressione per il modello finale. Vediamo in questi risultati che l'effetto del trattamento e SE sono quasi identico al modello precedente e che la stima effetto del trattamento è una stima imparziale del vero effetto di 10 punti. Possiamo anche vedere che tutti i termini nel modello finale sono statisticamente significativi, il che suggerisce che sono necessari per modellare i dati e non devono essere eliminati. Quindi, che cosa fa il nostro modello sembra visivamente figura 14 mostra la distribuzione bivariata originale con il modello di regressione. Figura di distribuzione 14. Bivariata con il modello di regressione finale. Chiaramente, il modello si adatta bene, sia statisticamente e visivamente.

No comments:

Post a Comment