Thursday 4 May 2017

Umzugsdurchschnitt Pacf


Die Charakterisierung einer Zeitreihe beinhaltet die Schätzung nicht nur einer Mittel - und Standardabweichung, sondern auch die Korrelationen zwischen Beobachtungen, die in der Zeit getrennt sind. In der Identifikationsphase des Box Jenkins-Verfahrens sind die empirische Autokorrelation (ACF) sowie die partielle Autokorrelationsfunktion (PACF) wichtige Werkzeuge. Die Autokorrelationsfunktion misst die Stärke der Beziehung zwischen und. Zum Beispiel, wenn in der Nähe von einem, ein hoher Wert wird von einem hohen Wert gefolgt werden morgen. Das ACF ist ein wichtiges Instrument, um die Reihenfolge der gleitenden durchschnittlichen Zeitreihenmodelle zu identifizieren. Teilweise Autokorrelationen messen die Stärke der Beziehung zwischen Beobachtungen in einer Zeitreihensteuerung für die Wirkung von dazwischenliegenden Zeiträumen. Speziell sind partielle Autokorrelationen nützlich, um die Reihenfolge der autoregressiven Modelle zu identifizieren. Die Plots von ACF und PACF werden als Korrelogram bezeichnet. Die Ljung-Box-Statistik (Q-Statistik) bei lag k ist eine Teststatistik für die Nullhypothese, dass es keine Autokorrelation bis zur Ordnung k gibt. Die Definition von es ist: ist asymptotisch verteilt als ein mit Freiheitsgraden gleich der Anzahl der Autokorrelationen. Die Autokorrelation einer Reihe bei Verzögerung wird geschätzt durch: Wo ist das Stichprobenmittel der Zeitreihe. Die partielle Autokorrelation einer Serie wird geschätzt durch: Das Add-In wird in VBA geschrieben. Alle Links werden in einem neuen Fenster geöffnet. Xycoon, Time Series Analysis - ARIMA Modelle - Grundlegende Definitionen und Theoreme über ARIMA Modelle (HTML) mathworld. Beschreibung der Autokorrelation. (HTML) Links zu anderen Seiten dieser Seiten sind nur zur Information und Kurt Annen übernimmt keinerlei Verantwortung oder Haftung für den Zugriff auf oder das Material auf einer Website, die von oder zu dieser Website verlinkt ist. Zum Herunterladen klicken Sie auf den Dateinamen Das Korrelogram Add-In wurde von Kurt Annen geschrieben. Dieses Programm ist Freeware. Aber ich würde mich sehr freuen, wenn Sie mir meine Arbeit geben könnten, indem Sie mir Informationen über mögliche offene Positionen als Wirtschaftswissenschaftler zur Verfügung stellen. Mein Fokus als Ökonom ist die Ökonometrie und die dynamische Makroökonomie. Wenn Sie das Programm mögen, schicken Sie mir bitte eine E-Mail. Korrelogram Excel Add-In Schritte bei der Auswahl eines Prognosemodells Ihr Prognosemodell sollte Merkmale enthalten, die alle wichtigen qualitativen Eigenschaften der Daten erfassen: Muster der Variation in Level und Trend, Auswirkungen von Inflation und Saisonalität, Korrelationen zwischen Variablen, etc. Darüber hinaus, Die Annahmen, die Ihrem gewählten Modell zugrunde liegen, sollten mit Ihrer Intuition übereinstimmen, wie sich die Serie in der Zukunft verhalten wird. Bei der Anpassung eines Prognosemodells haben Sie einige der folgenden Optionen: Diese Optionen werden im Folgenden kurz beschrieben. Weitere Informationen finden Sie im dazugehörigen Prognose-Ablaufdiagramm für eine bildliche Darstellung des Modellspezifikationsprozesses und verweisen auf das Statgraphics Model Specification Panel, um zu sehen, wie die Modellmerkmale in der Software ausgewählt werden. Deflation Wenn die Serie das Inflationswachstum zeigt, dann wird die Deflation dazu beitragen, das Wachstumsmuster zu berücksichtigen und die Heterosedastizität in den Residuen zu reduzieren. Sie können entweder (i) die vergangenen Daten entleeren und die langfristigen Prognosen mit einer konstanten angenommenen Rate neu anlegen oder (ii) die vergangenen Daten durch einen Preisindex wie den CPI deflationieren und dann die langfristigen Prognosen quellenfristig neu erstellen Eine Prognose des Preisindexes. Option (i) ist am einfachsten. In Excel können Sie einfach eine Spalte von Formeln erstellen, um die ursprünglichen Werte durch die entsprechenden Faktoren zu teilen. Zum Beispiel, wenn die Daten monatlich sind und Sie mit einer Rate von 5 pro 12 Monate deflationieren möchten, würden Sie durch einen Faktor von (1.05) (k12) teilen, wobei k der Zeilenindex (Beobachtungsnummer) ist. RegressIt und Statgraphics haben integrierte Tools, die dies automatisch für Sie tun. Wenn Sie diese Route gehen, ist es in der Regel am besten, die angenommene Inflationsrate gleich Ihrer besten Schätzung der aktuellen Rate, vor allem, wenn Sie gehen zu prognostizieren mehr als eine Periode vor. Wenn Sie stattdessen Option (ii) wählen, müssen Sie zuerst die deflationierten Prognosen und Vertrauensgrenzen auf Ihre Datenkalkulationstabelle speichern, dann eine Prognose für den Preisindex erzeugen und speichern und schließlich die entsprechenden Spalten zusammen multiplizieren. (Rückkehr nach oben) Logarithmus-Transformation Wenn die Reihe das zusammengesetzte Wachstum und ein multiplikatives saisonales Muster zeigt, kann eine Logarithmus-Transformation zusätzlich zu oder lieu der Deflation hilfreich sein. Die Protokollierung der Daten wird ein inflationäres Wachstumsmuster nicht verkleinern, aber es wird es so ausrichten, dass es durch ein lineares Modell (z. B. ein zufälliges Spaziergang oder ARIMA-Modell mit konstantem Wachstum oder ein lineares exponentielles Glättungsmodell) angepasst werden kann. Auch das Protokollieren wird multiplikative saisonale Muster zu additiven Mustern umwandeln, so dass, wenn Sie saisonale Anpassung nach dem Protokollieren durchführen, sollten Sie den additiven Typ verwenden. Die Protokollierung befasst sich mit der Inflation implizit, wenn Sie wollen, dass die Inflation explizit modelliert wird - d. h. Wenn Sie möchten, dass die Inflationsrate ein sichtbarer Parameter des Modells ist oder wenn Sie Plots von deflationierten Daten anzeigen möchten, dann sollten Sie sich entleeren, anstatt sich zu loggen. Eine weitere wichtige Verwendung für die Log-Transformation ist die Linearisierung von Beziehungen zwischen Variablen in einem Regressionsmodus l. Wenn zum Beispiel die abhängige Variable eine multiplikative und nicht additive Funktion der unabhängigen Variablen ist oder wenn die Beziehung zwischen abhängigen und unabhängigen Variablen in Form von prozentualen Änderungen anstelle von absoluten Änderungen linear ist, dann eine Log-Transformation auf eine oder mehrere Variablen anwenden Kann angemessen sein, wie im Beispiel des Bierverkaufs. (Zurück zum Seitenanfang.) Saisonale Anpassung Wenn die Serie ein starkes Saisonmuster hat, von dem angenommen wird, dass sie von Jahr zu Jahr konstant ist, kann die saisonale Anpassung ein geeigneter Weg sein, um das Muster zu schätzen und zu extrapolieren. Der Vorteil der saisonalen Anpassung ist, dass es das saisonale Muster explizit modelliert und Ihnen die Möglichkeit gibt, die saisonalen Indizes und die saisonbereinigten Daten zu studieren. Der Nachteil ist, dass es die Schätzung einer großen Anzahl von zusätzlichen Parametern erfordert (insbesondere für monatliche Daten), und es stellt keine theoretische Begründung für die Berechnung von fehlerhaften Konfidenzintervallen zur Verfügung. Out-of-Sample-Validierung ist besonders wichtig, um das Risiko der Überlagerung der vergangenen Daten durch saisonale Anpassung zu reduzieren. Wenn die Daten stark saisonal sind, aber Sie nicht wählen saisonale Anpassung, die Alternativen sind entweder (i) verwenden Sie eine saisonale ARIMA-Modell. Die implizit das saisonale Muster mit saisonalen Verzögerungen und Unterschieden prognostiziert, oder (ii) das Winters saisonale exponentielle Glättungsmodell verwenden, das zeitveränderliche saisonale Indizes schätzt. (Zurück zum Seitenanfang.) QuotIndependentquot-Variablen Wenn es noch andere Zeitreihen gibt, von denen man glaubt, dass sie in Bezug auf Ihre interessante Serie (zB führende Wirtschaftsindikatoren oder politische Variablen wie Preis, Werbung, Promotions etc.) Möchte die Regression als Modelltyp betrachten. Ob Sie Regression wählen oder nicht, müssen Sie die oben genannten Möglichkeiten für die Umwandlung Ihrer Variablen (Deflation, Log, saisonale Anpassung - und vielleicht auch differenzierende) berücksichtigen, um die Zeitdimension zu nutzen und die Beziehungen zu linearisieren. Auch wenn Sie an dieser Stelle keine Regression wählen, können Sie erwähnen, Regressoren später zu einem Zeitreihenmodell (z. B. einem ARIMA-Modell) hinzuzufügen, wenn die Residuen sich mit anderen Variablen signifikanten Kreuzkorrelationen ergeben. (Zurück zum Seitenanfang) Glättung, Mittelung oder zufälliger Spaziergang Wenn Sie sich für die saisonale Anpassung der Daten entschieden haben - oder wenn die Daten nicht saisonal beginnen, dann können Sie vielleicht ein Mittelwert oder ein Glättungsmodell verwenden Passt das nicht-seasonal Muster, das in den Daten an dieser Stelle bleibt. Ein einfaches gleitendes durchschnittliches oder einfaches exponentielles Glättungsmodell berechnet lediglich einen lokalen Durchschnitt von Daten am Ende der Reihe, unter der Annahme, dass dies die beste Schätzung des aktuellen Mittelwerts ist, um den die Daten schwanken. (Diese Modelle gehen davon aus, dass der Mittelwert der Serie langsam und zufällig ohne anhaltende Trends variiert.) Eine einfache exponentielle Glättung wird normalerweise einem einfachen gleitenden Durchschnitt bevorzugt, weil ihr exponentiell gewichteter Durchschnitt eine sinnvollere Aufgabe hat, die älteren Daten zu diskontieren, weil seine Glättungsparameter (alpha) ist kontinuierlich und lässt sich leicht optimieren und weil es eine zugrundeliegende theoretische Grundlage für die Berechnung von Konfidenzintervallen hat. Wenn Glättung oder Mittelung nicht hilfreich zu sein scheint - d. h. Wenn der beste Prädiktor des nächsten Wertes der Zeitreihe einfach seinen vorherigen Wert ist - dann wird ein zufälliges Wandermodell angezeigt. Dies ist beispielsweise dann der Fall, wenn die optimale Anzahl von Terme im einfachen gleitenden Durchschnitt 1 ist oder wenn der optimale Wert von alpha in einfacher exponentieller Glättung 0,9999 beträgt. Browns lineare exponentielle Glättung kann verwendet werden, um eine Serie mit langsam zeitveränderlichen linearen Trends passen, aber vorsichtig sein, um solche Trends sehr weit in die Zukunft zu extrapolieren. (Die sich schnell wachsenden Konfidenzintervalle für dieses Modell belegen seine Ungewissheit über die ferne Zukunft.) Holts lineare Glättung schätzt auch zeitveränderliche Trends, verwendet aber separate Parameter für die Glättung von Level und Trend, was in der Regel eine bessere Anpassung an die Daten liefert Als Brown8217s Modell. Q uadratische exponentielle Glättung versucht, zeitvariable quadratische Trends abzuschätzen und sollte praktisch niemals verwendet werden. (Dies entspricht einem ARIMA-Modell mit drei Ordnungen von Nichtseason-Differenzen.) Lineare exponentielle Glättung mit einem gedämpften Trend (d. h. ein Trend, der sich in entfernten Horizonten abflacht) wird oft in Situationen empfohlen, in denen die Zukunft sehr unsicher ist. Die verschiedenen exponentiellen Glättungsmodelle sind Sonderfälle von ARIMA Modellen (siehe unten) und können mit ARIMA Software ausgestattet werden. Insbesondere ist das einfache exponentielle Glättungsmodell ein ARIMA (0,1,1) Modell, das Holt8217s lineare Glättungsmodell ist ein ARIMA (0,2,2) Modell und das gedämpfte Trendmodell ist ein ARIMA (1,1,2 ) Modell. Eine gute Zusammenfassung der Gleichungen der verschiedenen exponentiellen Glättungsmodelle finden Sie auf dieser Seite auf der SAS-Website. (Die SAS-Menüs für die Spezifizierung von Zeitreihenmodellen werden auch dort gezeigt, wie sie in den Statgraphiken ähnlich sind.) Lineare, quadratische oder exponentielle Trendlinienmodelle sind weitere Optionen für die Extrapolation einer entsetzten Serie, aber sie übertreffen selten zufällige Spaziergänge, Glättung oder ARIMA-Modelle auf Geschäftsdaten. (Zurück zum Seitenanfang) Winters Seasonal Exponential Smoothing Winters Saisonale Glättung ist eine Erweiterung der exponentiellen Glättung, die gleichzeitig zeitveränderliche Level-, Trend - und saisonale Faktoren mit rekursiven Gleichungen schätzt. (So, wenn du dieses Modell benutzt, würdest du die Daten nicht saisonal anpassen.) Die Wintersaisonfaktoren können entweder multiplikativ oder additiv sein: Normalerweise sollten Sie die multiplikative Option wählen, wenn Sie die Daten nicht angemeldet haben. Obwohl das Winters-Modell clever und vernünftig intuitiv ist, kann es schwierig sein, in der Praxis anzuwenden: Es hat drei Glättungsparameter - Alpha, Beta und Gamma - für die getrennte Glättung der Level-, Trend - und Saisonfaktoren, die geschätzt werden müssen gleichzeitig. Die Bestimmung der Startwerte für die saisonalen Indizes kann durch Anwendung der Verhältnis-zu-Verschiebung durchschnittlichen Methode der saisonalen Anpassung an Teil oder alle der Serie und oder durch Backforecasting erfolgen. Der Schätzalgorithmus, den Statgraphics für diese Parameter verwendet, scheitert manchmal nicht und liefert Werte, die bizarr aussehende Prognosen und Konfidenzintervalle geben, also würde ich bei der Verwendung dieses Modells Vorsicht walten lassen. (Zurück zum Seitenanfang.) ARIMA Wenn Sie keine saisonale Anpassung wählen (oder wenn die Daten nicht saisonal sind), können Sie das ARIMA-Modell-Framework verwenden. ARIMA-Modelle sind eine sehr allgemeine Klasse von Modellen, die zufälligen Spaziergang, zufälligen Trend, exponentielle Glättung und autoregressive Modelle als spezielle Fälle beinhaltet. Die konventionelle Weisheit ist, dass eine Serie ein guter Kandidat für ein ARIMA-Modell ist, wenn (i) es durch eine Kombination von differenzierenden und anderen mathematischen Transformationen wie Protokollierung stationiert werden kann, und (ii) Sie haben eine beträchtliche Menge an Daten zu arbeiten : Mindestens 4 volle Jahreszeiten bei saisonalen Daten. (Wenn die Serie durch Differenzierung nicht adäquat stationärisiert werden kann - zB wenn es sehr unregelmäßig ist oder ihr Verhalten im Laufe der Zeit qualitativ verändert hat - oder wenn Sie weniger als 4 Datenperioden haben, dann wäre es besser, mit einem Modell besser zu sein Das saisonale Anpassung und eine Art einfache Mittelung oder Glättung verwendet.) ARIMA Modelle haben eine spezielle Namenskonvention von Box und Jenkins eingeführt. Ein nicht-seasonales ARIMA-Modell wird als ARIMA (p, d, q) - Modell klassifiziert, wobei d die Anzahl der nicht-seasonalen Differenzen ist, p die Anzahl der autoregressiven Terme (Verzögerungen der differenzierten Reihe) und q die Anzahl der Moving - Durchschnittliche Ausdrücke (Verzögerungen der Prognosefehler) in der Vorhersagegleichung. Ein saisonales ARIMA-Modell wird als ARIMA (p, d, q) x (P, D, Q) klassifiziert. Wobei D, P und Q jeweils die Anzahl der saisonalen Unterschiede, saisonale autoregressive Begriffe (Verzögerungen der differenzierten Reihen bei Vielfachen der Saisonperiode) und saisonale gleitende Durchschnittsterme (Verzögerungen der Prognosefehler bei Vielfachen der Saison Periode). Der erste Schritt in der Anpassung eines ARIMA-Modells ist es, die richtige Reihenfolge der Differenzierung zu bestimmen, die benötigt wird, um die Serie zu stationieren und die Brutto-Features der Saisonalität zu entfernen. Dies ist gleichbedeutend mit der Bestimmung, welche Quoten-Zufalls-Spaziergang oder Zufalls-Trend-Modell den besten Ausgangspunkt bietet. Versuchen Sie nicht, mehr als 2 Gesamtaufträge von differencing (nicht saisonale und saisonale kombiniert) zu verwenden, und verwenden Sie nicht mehr als einen saisonalen Unterschied. Der zweite Schritt ist zu bestimmen, ob ein konstanter Begriff in das Modell gehören: in der Regel haben Sie einen konstanten Begriff, wenn die gesamte Reihenfolge der Differenzierung ist 1 oder weniger, sonst sind Sie nicht. In einem Modell mit einer Reihenfolge der Differenzierung stellt der konstante Begriff den durchschnittlichen Trend in den Prognosen dar. In einem Modell mit zwei Ordnungen der Differenzierung wird der Trend in den Prognosen durch den am Ende der Zeitreihe beobachteten lokalen Trend bestimmt und der konstante Term repräsentiert den Trend-in-the-Trend, dh die Krümmung der Langzeit - Langfristige prognosen Normalerweise ist es gefährlich, Trends-in-Trends zu extrapolieren, also unterdrücken Sie den dazugehörigen Begriff in diesem Fall. Der dritte Schritt besteht darin, die Anzahl der autoregressiven und gleitenden Durchschnittsparameter (p, d, q, P, D, Q) zu wählen, die benötigt werden, um jegliche Autokorrelation zu beseitigen, die in den Resten des naiven Modells verbleibt (dh jegliche Korrelation, Bloß differenzierend). Diese Zahlen bestimmen die Anzahl der Verzögerungen der differenzierten Serien und die Verzögerungen der Prognosefehler, die in der Prognosegleichung enthalten sind. Wenn es an dieser Stelle keine signifikante Autokorrelation in den Residuen gibt, dann ist das getan: das beste Modell ist ein naives Modell Wenn es eine signifikante Autokorrelation bei den Verzögerungen 1 oder 2 gibt, sollten Sie versuchen, q1 einzustellen, wenn einer der folgenden Punkte zutrifft: ( I) Es gibt einen nicht-saisonalen Unterschied im Modell, (ii) die Verzögerung 1 Autokorrelation ist negativ. Und (iii) die restliche Autokorrelationskurve ist sauberer (weniger, mehr isolierte Spikes) als die restliche partielle Autokorrelationskurve. Wenn es keinen nicht-saisonalen Unterschied in der Modell-und und die Lag 1 Autokorrelation ist positiv und und die restlichen partiellen Autokorrelation Handlung sieht sauberer, dann versuchen p1. (Manchmal sind diese Regeln für die Wahl zwischen p1 und q1 in Konflikt mit einander, in welchem ​​Fall es wahrscheinlich nicht viel Unterschied, die Sie verwenden. Versuchen Sie sie beide und vergleichen.) Wenn es Autokorrelation bei Verzögerung 2, die nicht durch die Einstellung p1 entfernt wird Oder q1, dann kannst du p2 oder q2 oder gelegentlich p1 und q1 ausprobieren. Noch seltener kann man Situationen begegnen, in denen p2 oder 3 und q1 oder umgekehrt die besten Ergebnisse liefert. Es wird sehr dringend empfohlen, dass Sie pgt1 und qgt1 nicht im selben Modell verwenden. Im Allgemeinen sollten Sie bei der Montage von ARIMA-Modellen eine zunehmende Modellkomplexität vermeiden, um nur winzige weitere Verbesserungen der Fehlerstatistiken oder das Aussehen der ACF - und PACF-Plots zu erhalten. Auch in einem Modell mit pgt1 und qgt1 gibt es eine gute Möglichkeit der Redundanz und Nicht-Eindeutigkeit zwischen den AR - und MA-Seiten des Modells, wie in den Anmerkungen zur mathematischen Struktur des ARIMA-Modells s erläutert. Es ist in der Regel besser, in einer vorwärts schrittweise statt rückwärts schrittweise Weise vorzugehen, wenn man die Modellspezifikationen anpasst: Mit einfacheren Modellen beginnen und nur noch mehr Begriffe hinzufügen, wenn es einen klaren Bedarf gibt. Die gleiche Regelung gilt für die Anzahl der saisonalen autoregressiven Begriffe (P) und die Anzahl der saisonalen gleitenden Durchschnittstermine (Q) in Bezug auf die Autokorrelation zum Saisonzeitraum (z. B. Verzögerung 12 für monatliche Daten). Versuchen Sie Q1, wenn es bereits einen saisonalen Unterschied im Modell gibt und die saisonale Autokorrelation negativ ist und die restliche Autokorrelationskurve in der Nähe der Saisonverzögerung sauberer aussieht, sonst versuchen Sie P1. (Wenn es logisch ist, dass die Serie eine starke Saisonalität aufweist, dann müssen Sie einen saisonalen Unterschied verwenden, sonst wird das saisonale Muster bei Langzeitprognosen ausblenden.) Gelegentlich können Sie P2 und Q0 oder Vice v ersa ausprobieren, Oder PQ1. Allerdings ist es sehr dringend empfohlen, dass PQ nie größer sein sollte als 2. Saisonmuster haben selten die Art von perfekter Regelmäßigkeit über eine ausreichend große Anzahl von Jahreszeiten, die es ermöglichen würde, zuverlässig zu identifizieren und zu schätzen, dass viele Parameter. Außerdem wird der Backforecasting-Algorithmus, der bei der Parameterschätzung verwendet wird, wahrscheinlich zu unzuverlässigen (oder sogar verrückten) Ergebnissen führen, wenn die Anzahl der Jahreszeiten von Daten nicht signifikant größer als PDQ ist. Ich würde nicht weniger als PDQ2 volle Jahreszeiten empfehlen, und mehr ist besser. Auch bei der Montage von ARIMA-Modellen sollten Sie darauf achten, dass die Daten nicht übertrieben werden, trotz der Tatsache, dass es eine Menge Spaß sein kann, sobald Sie den Hang davon bekommen. Wichtige Sonderfälle: Wie oben erwähnt, ist ein ARIMA (0,1,1) - Modell ohne Konstante identisch mit einem einfachen exponentiellen Glättungsmodell und nimmt einen Floating-Level an (d. h. keine mittlere Reversion), aber mit null langfristigem Trend. Ein ARIMA (0,1,1) Modell mit Konstante ist ein einfaches exponentielles Glättungsmodell mit einem linearen Trendbegriff. Ein ARIMA (0,2,1) oder (0,2,2) Modell ohne Konstante ist ein lineares exponentielles Glättungsmodell, das einen zeitveränderlichen Trend ermöglicht. Ein ARIMA (1,1,2) - Modell ohne Konstante ist ein lineares exponentielles Glättungsmodell mit gedämpftem Trend, d. h. ein Trend, der sich schließlich in längerfristigen Prognosen abhebt. Die gebräuchlichsten saisonalen ARIMA-Modelle sind das ARIMA (0,1,1) x (0,1,1) Modell ohne Konstante und das ARIMA (1,0,1) x (0,1,1) Modell mit konstantem. Die ersteren dieser Modelle setzen grundsätzlich eine exponentielle Glättung sowohl der nicht-seasonalen als auch der saisonalen Komponenten des Musters in den Daten ein, während sie einen zeitveränderlichen Trend zulassen, und das letztere Modell ist etwas ähnlich, nimmt aber einen konstanten linearen Trend an und ist daher etwas langer - term Vorhersagbarkeit. Sie sollten immer diese beiden Modelle unter Ihrer Aufstellung von Verdächtigen, wenn passende Daten mit konsistenten saisonalen Muster. Einer von ihnen (vielleicht mit einer geringfügigen Variation, wie z. B. steigende p oder q um 1 undeiner Einstellung P1 sowie Q1) ist oft die beste. (Zurück zum Seitenanfang) Identifizieren der Zahlen von AR - oder MA-Terme in einem ARIMA-Modell ACF - und PACF-Plots: Nachdem eine Zeitreihe durch Differenzierung stationärisiert wurde, ist der nächste Schritt bei der Anpassung eines ARIMA-Modells, ob AR oder MA zu bestimmen ist Begriffe sind erforderlich, um jede Autokorrelation zu korrigieren, die in der differenzierten Reihe bleibt. Natürlich, mit Software wie Statgraphics, können Sie nur versuchen, einige verschiedene Kombinationen von Begriffen und sehen, was am besten funktioniert. Aber es gibt einen systematischeren Weg, dies zu tun. Durch Betrachten der Autokorrelationsfunktion (ACF) und partiellen Autokorrelations - (PACF) - Plots der differenzierten Serien können Sie die Anzahl der benötigten AR - und MA-MA-Terme vorläufig identifizieren. Sie sind bereits mit dem ACF-Plot vertraut: Es ist nur ein Balkendiagramm der Koeffizienten der Korrelation zwischen einer Zeitreihe und Verzögerungen von sich selbst. Die PACF-Kurve ist eine Auftragung der partiellen Korrelationskoeffizienten zwischen der Serie und den Verzögerungen von sich selbst. Im Allgemeinen ist die quasiologische Korrelation zwischen zwei Variablen die Menge der Korrelation zwischen ihnen, die nicht durch ihre gegenseitigen Korrelationen mit einem bestimmten Satz von anderen Variablen erklärt wird. Wenn wir zum Beispiel eine Variable Y auf anderen Variablen X1, X2 und X3 rückgängig machen, ist die partielle Korrelation zwischen Y und X3 die Korrelation zwischen Y und X3, die nicht durch ihre gemeinsamen Korrelationen mit X1 und X2 erklärt wird. Diese partielle Korrelation kann als Quadratwurzel der Reduktion der Varianz berechnet werden, die durch Addition von X3 zur Regression von Y auf X1 und X2 erreicht wird. Eine partielle Autokorrelation ist die Menge der Korrelation zwischen einer Variablen und einer Verzögerung von sich selbst, die nicht durch Korrelationen bei allen niederwertigenlags erklärt wird. Die Autokorrelation einer Zeitreihe Y bei Verzögerung 1 ist der Koeffizient der Korrelation zwischen Yt und Yt - 1. Was vermutlich auch die Korrelation zwischen Y t -1 und Y t -2 ist. Aber wenn Y t mit Y t -1 korreliert ist. Und Y t -1 gleich mit Y t -2 korreliert ist. Dann sollten wir auch erwarten, eine Korrelation zwischen Yt und Yt-2 zu finden. In der Tat ist die Korrelation, die wir bei der Verzögerung 2 erwarten sollten, genau das Quadrat der Lag-1-Korrelation. Somit ist die Korrelation bei Verzögerung 1 quadratisch auf Verzögerung 2 und vermutlich auf höherwertige Verzögerungen. Die partielle Autokorrelation bei Verzögerung 2 ist daher die Differenz zwischen der tatsächlichen Korrelation bei der Verzögerung 2 und der erwarteten Korrelation aufgrund der Ausbreitung der Korrelation bei Verzögerung 1. Hierbei handelt es sich um die Autokorrelationsfunktion (ACF) der UNITS-Reihe, bevor eine Differenzierung durchgeführt wird: Die Autokorrelationen sind für eine große Anzahl von Verzögerungen bedeutsam - aber vielleicht sind die Autokorrelationen bei den Verzögerungen 2 und darüber nur auf die Ausbreitung der Autokorrelation bei Verzögerung 1 zurückzuführen. Dies wird durch die PACF-Kurve bestätigt: Beachten Sie, dass die PACF-Kurve eine signifikante Bedeutung hat Spike nur bei lag 1, was bedeutet, dass alle Autokorrelationen höherer Ordnung effektiv durch die Lag-1-Autokorrelation erklärt werden. Die partiellen Autokorrelationen an allen Verzögerungen können berechnet werden, indem man eine Folge von autoregressiven Modellen mit zunehmender Anzahl von Verzögerungen anpasst. Insbesondere ist die partielle Autokorrelation bei der Verzögerung k gleich dem geschätzten AR (k) - Koeffizienten in einem autoregressiven Modell mit k Terms - d. h. Ein multiples Regressionsmodell, bei dem Y auf LAG (Y, 1), LAG (Y, 2) usw. bis zu LAG (Y, k) regressiert wird. So können Sie durch die bloße Inspektion des PACF bestimmen, wie viele AR-Begriffe Sie verwenden müssen, um das Autokorrelationsmuster in einer Zeitreihe zu erklären: Wenn die partielle Autokorrelation bei der Verzögerung k und bei signifikanter Verzögerung nicht signifikant ist, d. h. Wenn die PACF-Quoten bei der Verzögerung k abschneiden - dann schlägt das vor, dass man ein autoregressives Bestellmodell anpassen sollte. Der PACF der UNITS-Serie bietet ein extremes Beispiel für das Cut-off-Phänomen: Es hat eine sehr große Spike bei lag 1 Und keine anderen signifikanten Spikes, was darauf hinweist, dass in Abwesenheit der Differenzierung ein AR (1) - Modell verwendet werden sollte. Allerdings wird sich der AR (1) - Dext in diesem Modell als gleichbedeutend mit einer ersten Differenz erweisen, da der geschätzte AR (1) - Koeffizient (der die Höhe des PACF-Spikes bei Verzögerung 1 ist) fast genau gleich 1 ist Nun ist die Prognosegleichung für ein AR (1) - Modell für eine Reihe Y ohne Ordnungen der Differenzierung: Ist der AR (1) - Koeffizient 981 1 in dieser Gleichung gleich 1, so ist es gleichbedeutend mit der Vorhersage, dass die erste Differenz Von Y ist konstant - dh Es ist gleichbedeutend mit der Gleichung des zufälligen Spaziergangsmodells mit dem Wachstum: Die PACF der UNITS-Serie sagt uns, dass, wenn wir es nicht unterscheiden, dann ein AR (1) - Modell passen, das sich als gleichwertig erweisen wird Ein erster unterschied Mit anderen Worten, es sagt uns, dass UNITS wirklich eine Reihenfolge der Differenzierung benötigt, um stationär zu sein. AR - und MA-Signaturen: Wenn der PACF einen scharfen Cutoff zeigt, während der ACF langsamer abfällt (dh signifikante Spikes bei höheren Verzögerungen hat), so sagen wir, dass die stationäre Serie eine signifikante Signatur anzeigt, was bedeutet, dass das Autokorrelationsmuster leichter erklärt werden kann Durch Hinzufügen von AR-Terme als durch Hinzufügen von MA-Terme. Sie werden wahrscheinlich feststellen, dass eine AR-Signatur häufig mit einer positiven Autokorrelation bei Verzögerung 1 - d. h. Es neigt dazu, in Serie, die leicht unter differenziert sind. Der Grund dafür ist, dass ein AR-Term in der Prognosegleichung wie ein quadratischer Unterschied stehen kann. Zum Beispiel handelt es in einem AR (1) - Modell der AR-Term wie ein erster Unterschied, wenn der autoregressive Koeffizient gleich 1 ist, tut es nichts, wenn der autoregressive Koeffizient null ist, und er wirkt wie eine partielle Differenz, wenn der Koeffizient zwischen ist 0 und 1. Wenn also die Serie etwas unterdifferenziert ist - also Wenn das nichtstationäre Muster der positiven Autokorrelation nicht vollständig beseitigt ist, wird es eine Teildifferenz fordern, indem man eine AR-Signatur anzeigt. Daher haben wir die folgende Faustregel für die Bestimmung, wann man AR-Terme hinzufügen soll: Regel 6: Wenn die PACF der differenzierten Reihe einen scharfen Cutoff zeigt und die Lag-1-Autokorrelation positiv ist - i. e. Wenn die Serie erscheint etwas andersdifferencedquot - dann erwägen Hinzufügen eines AR-Begriffs auf das Modell. Die Verzögerung, bei der die PACF abschneidet, ist die angegebene Anzahl von AR-Terme. Grundsätzlich kann jedes Autokorrelationsmuster aus einer stationärisierten Reihe entfernt werden, indem man genügend autoregressive Begriffe (Verzögerungen der stationären Serie) der Prognosegleichung hinzufügt und die PACF sagt, wie viele solche Begriffe wahrscheinlich benötigt werden. Allerdings ist dies nicht immer der einfachste Weg, um ein gegebenes Muster der Autokorrelation zu erklären: Manchmal ist es effizienter, MA-Terme (Verzögerungen der Prognosefehler) stattdessen hinzuzufügen. Die Autokorrelationsfunktion (ACF) spielt bei MA-Terme die gleiche Rolle, dass der PACF für AR-Terme spielt - das heißt, der ACF sagt Ihnen, wie viele MA-Begriffe wahrscheinlich benötigt werden, um die verbleibende Autokorrelation aus der differenzierten Serie zu entfernen. Wenn die Autokorrelation bei Verzögerung k ist, aber nicht bei höheren Verzögerungen - d. h. Wenn die ACF-Quoten bei Verzögerung k abschneiden - bedeutet dies, dass genau k MA-Begriffe in der Prognosegleichung verwendet werden sollen. Im letzteren Fall sagen wir, dass die stationäre Serie eine signifikante Signatur anzeigt, was bedeutet, dass das Autokorrelationsmuster leichter durch Hinzufügen von MA-Terme erklärt werden kann, als durch Hinzufügen von AR-Terme. Eine MA-Signatur ist gewöhnlich mit einer negativen Autokorrelation bei Verzögerung 1 - d. h. Es neigt dazu, in Serie zu kommen, die etwas überdimensioniert sind. Der Grund hierfür ist, dass ein MA-Term die Reihenfolge der Differenzierung in der Prognosegleichung punktuell aufheben kann. Um dies zu sehen, ist zu erinnern, dass ein ARIMA (0,1,1) Modell ohne Konstante einem Simple Exponential Smoothing Model entspricht. Die Prognosegleichung für dieses Modell ist dort, wo der MA (1) Koeffizient 952 1 der Menge 1 - 945 im SES-Modell entspricht. Wenn 952 1 gleich 1 ist, entspricht dies einem SES-Modell mit 945 0, was nur ein CONSTANT-Modell ist, weil die Prognose niemals aktualisiert wird. Dies bedeutet, dass, wenn 952 1 gleich 1 ist, tatsächlich die differenzierende Operation auslöscht, die normalerweise die SES-Prognose erlaubt, sich bei der letzten Beobachtung wieder zu verankern. Wenn andererseits der gleitendurchschnittliche Koeffizient gleich 0 ist, reduziert sich dieses Modell auf ein zufälliges Wandermodell - d. h. Es verlässt den differenzierenden Betrieb allein. Also, wenn 952 1 etwas größer als 0 ist, ist es so, als ob wir teilweise eine Reihenfolge der Differenzierung annullieren. Wenn die Serie schon etwas überdimensioniert ist - d. h. Wenn eine negative Autokorrelation eingeführt wurde - dann wird es einen Forcot einen Unterschied abgeben, der teilweise durch die Anzeige einer MA-Signatur abgebrochen wird. (Eine Menge von Armwellen geht hier weiter Eine strengere Erklärung dieses Effektes findet sich in der mathematischen Struktur von ARIMA Models Handzettel.) Daher die folgende zusätzliche Faustregel: Regel 7: Wenn die ACF der differenzierten Serie a zeigt Scharfe Abschaltung und die Lag-1-Autokorrelation ist negativ Wenn die Serie erscheint etwas quittiertdifferencedquot - dann erwägen Hinzufügen einer MA-Begriff zum Modell. Die Verzögerung, bei der der ACF abschaltet, ist die angegebene Anzahl von MA-Terme. Ein Modell für die UNITS-Serie - ARIMA (2,1,0): Bisher haben wir festgestellt, dass die UNITS-Serie (mindestens) eine Reihenfolge der Nichtseason-Differenzierung benötigt, um stationär zu sein. Nach der Einnahme einer nicht-seasonalen Differenz - d. h. Anpassung eines ARIMA (0,1,0) - Modells mit konstanten - die ACF - und PACF-Plots sehen so aus: Beachten Sie, dass (a) die Korrelation bei lag 1 signifikant und positiv ist und (b) die PACF einen schärferen Quotenausschnitt hat als Der ACF. Insbesondere hat die PACF nur zwei signifikante Spikes, während die ACF vier hat. So zeigt die differenzierte Reihe nach Regel 7 eine AR (2) Signatur. Wenn wir also die Reihenfolge des AR-Termes auf 2 setzen - d. h. Passen ein ARIMA (2,1,0) Modell - wir erhalten die folgenden ACF - und PACF-Plots für die Residuen: Die Autokorrelation bei den entscheidenden Verzögerungen - nämlich Verzögerungen 1 und 2 - wurde eliminiert und es gibt kein erkennbares Muster In höherer Ordnung. Die Zeitreihenpläne der Residuen zeigen eine etwas beunruhigende Tendenz, vom Mittelwert weg zu wandern: Allerdings zeigt der Analysezusammenfassungsbericht, dass das Modell dennoch in der Validierungsperiode sehr gut abläuft, beide AR-Koeffizienten unterscheiden sich deutlich von Null und dem Standard Die Abweichung der Residuen wurde von 1.54371 auf 1.4215 (fast 10) durch die Addition der AR-Terme reduziert. Darüber hinaus gibt es keine Anzeichen für eine Quotenwurzel, weil die Summe der AR-Koeffizienten (0,2522540.195572) nicht nahe bei 1 liegt. (Einheitswurzeln werden im Folgenden näher erläutert.) Im Großen und Ganzen scheint dies ein gutes Modell zu sein . Die (untransformierten) Prognosen für das Modell zeigen einen linearen Aufwärtstrend, der in die Zukunft projiziert wird: Der Trend in den Langzeitprognosen ist auf die Tatsache zurückzuführen, dass das Modell einen Nichtseasonaldifferenz und einen konstanten Begriff beinhaltet: Dieses Modell ist grundsätzlich ein zufälliger Spaziergang mit Wachstum durch die Addition von zwei autoregressiven Begriffen - d. h. Zwei Verzögerungen der differenzierten Serie. Die Steigung der Langzeitprognosen (d. h. der durchschnittliche Anstieg von einer Periode zur anderen) entspricht dem Mittelwert in der Modellübersicht (0.467566). Die Prognosegleichung lautet: wobei 956 der konstante Term in der Modellzusammenfassung (0.258178), 981 1 der AR (1) - Koeffizient (0,25224) und 981 2 der AR (2) - Koeffizient (0.195572) ist. Mittlerweile gegen Konstante: Im Allgemeinen bezieht sich der Quatenzausdruck in der Ausgabe eines ARIMA-Modells auf den Mittelwert der differenzierten Reihe (dh der durchschnittliche Trend, wenn die Reihenfolge der Differenzierung gleich 1 ist), während die Quantenkonstante der konstante Term ist Auf der rechten Seite der Prognosegleichung. The mean and constant terms are related by the equation: CONSTANT MEAN(1 minus the sum of the AR coefficients). In this case, we have 0.258178 0.467566(1 - 0.25224 - 0.195572) Alternative model for the UNITS series--ARIMA(0,2,1): Recall that when we began to analyze the UNITS series, we were not entirely sure of the correct order of differencing to use. One order of nonseasonal differencing yielded the lowest standard deviation (and a pattern of mild positive autocorrelation), while two orders of nonseasonal differencing yielded a more stationary-looking time series plot (but with rather strong negative autocorrelation). Here are both the ACF and PACF of the series with two nonseasonal differences: The single negative spike at lag 1 in the ACF is an MA(1) signature, according to Rule 8 above. Thus, if we were to use 2 nonseasonal differences, we would also want to include an MA(1) term, yielding an ARIMA(0,2,1) model. According to Rule 5, we would also want to suppress the constant term. Here, then, are the results of fitting an ARIMA(0,2,1) model without constant: Notice that the estimated white noise standard deviation (RMSE) is only very slightly higher for this model than the previous one (1.46301 here versus 1.45215 previously). The forecasting equation for this model is: where theta-1 is the MA(1) coefficient. Recall that this is similar to a Linear Exponential Smoothing model, with the MA(1) coefficient corresponding to the quantity 2(1-alpha) in the LES model. The MA(1) coefficient of 0.76 in this model suggests that an LES model with alpha in the vicinity of 0.72 would fit about equally well. Actually, when an LES model is fitted to the same data, the optimal value of alpha turns out to be around 0.61, which is not too far off. Here is a model comparison report that shows the results of fitting the ARIMA(2,1,0) model with constant, the ARIMA(0,2,1) model without constant, and the LES model: The three models perform nearly identically in the estimation period, and the ARIMA(2,1,0) model with constant appears slightly better than the other two in the validation period. On the basis of these statistical results alone, it would be hard to choose among the three models. However, if we plot the long-term forecasts made by the ARIMA(0,2,1) model without constant (which are essentially the same as those of the LES model), we see a significant difference from those of the earlier model: The forecasts have somewhat less of an upward trend than those of the earlier model--because the local trend near the end of the series is slightly less than the average trend over the whole series--but the confidence intervals widen much more rapidly. The model with two orders of differencing assumes that the trend in the series is time-varying, hence it considers the distant future to be much more uncertain than does the model with only one order of differencing. Which model should we choose That depends on the assumptions we are comfortable making with respect to the constancy of the trend in the data. The model with only one order of differencing assumes a constant average trend--it is essentially a fine-tuned random walk model with growth--and it therefore makes relatively conservative trend projections. It is also fairly optimistic about the accuracy with which it can forecast more than one period ahead. The model with two orders of differencing assumes a time-varying local trend--it is essentially a linear exponential smoothing model--and its trend projections are somewhat more more fickle. As a general rule in this kind of situation, I would recommend choosing the model with the lower order of differencing, other things being roughly equal. In practice, random-walk or simple-exponential-smoothing models often seem to work better than linear exponential smoothing models. Mixed models: In most cases, the best model turns out a model that uses either only AR terms or only MA terms, although in some cases a quotmixedquot model with both AR and MA terms may provide the best fit to the data. However, care must be exercised when fitting mixed models. It is possible for an AR term and an MA term to cancel each others effects . even though both may appear significant in the model (as judged by the t-statistics of their coefficients). Thus, for example, suppose that the quotcorrectquot model for a time series is an ARIMA(0,1,1) model, but instead you fit an ARIMA(1,1,2) model--i. e. you include one additional AR term and one additional MA term. Then the additional terms may end up appearing significant in the model, but internally they may be merely working against each other. The resulting parameter estimates may be ambiguous, and the parameter estimation process may take very many (e. g. more than 10) iterations to converge. Hence: Rule 8: It is possible for an AR term and an MA term to cancel each others effects, so if a mixed AR-MA model seems to fit the data, also try a model with one fewer AR term and one fewer MA term--particularly if the parameter estimates in the original model require more than 10 iterations to converge. For this reason, ARIMA models cannot be identified by quotbackward stepwisequot approach that includes both AR and MA terms. In other words, you cannot begin by including several terms of each kind and then throwing out the ones whose estimated coefficients are not significant. Instead, you normally follow a quotforward stepwisequot approach, adding terms of one kind or the other as indicated by the appearance of the ACF and PACF plots. Unit roots: If a series is grossly under - or overdifferenced--i. e. if a whole order of differencing needs to be added or cancelled, this is often signalled by a quotunit rootquot in the estimated AR or MA coefficients of the model. An AR(1) model is said to have a unit root if the estimated AR(1) coefficient is almost exactly equal to 1. (By quotexactly equal quot I really mean not significantly different from . in terms of the coefficients own standard error . ) When this happens, it means that the AR(1) term is precisely mimicking a first difference, in which case you should remove the AR(1) term and add an order of differencing instead. (This is exactly what would happen if you fitted an AR(1) model to the undifferenced UNITS series, as noted earlier.) In a higher-order AR model, a unit root exists in the AR part of the model if the sum of the AR coefficients is exactly equal to 1. In this case you should reduce the order of the AR term by 1 and add an order of differencing. A time series with a unit root in the AR coefficients is nonstationary --i. e. it needs a higher order of differencing. Rule 9: If there is a unit root in the AR part of the model--i. e. if the sum of the AR coefficients is almost exactly 1--you should reduce the number of AR terms by one and increase the order of differencing by one. Similarly, an MA(1) model is said to have a unit root if the estimated MA(1) coefficient is exactly equal to 1. When this happens, it means that the MA(1) term is exactly cancelling a first difference, in which case, you should remove the MA(1) term and also reduce the order of differencing by one. In a higher-order MA model, a unit root exists if the sum of the MA coefficients is exactly equal to 1. Rule 10: If there is a unit root in the MA part of the model--i. e. if the sum of the MA coefficients is almost exactly 1--you should reduce the number of MA terms by one and reduce the order of differencing by one. For example, if you fit a linear exponential smoothing model (an ARIMA(0,2,2) model) when a simple exponential smoothing model (an ARIMA(0,1,1) model) would have been sufficient, you may find that the sum of the two MA coefficients is very nearly equal to 1. By reducing the MA order and the order of differencing by one each, you obtain the more appropriate SES model. A forecasting model with a unit root in the estimated MA coefficients is said to be noninvertible . meaning that the residuals of the model cannot be considered as estimates of the quottruequot random noise that generated the time series. Another symptom of a unit root is that the forecasts of the model may quotblow upquot or otherwise behave bizarrely. If the time series plot of the longer-term forecasts of the model looks strange, you should check the estimated coefficients of your model for the presence of a unit root. Rule 11: If the long-term forecasts appear erratic or unstable, there may be a unit root in the AR or MA coefficients. None of these problems arose with the two models fitted here, because we were careful to start with plausible orders of differencing and appropriate numbers of AR and MA coefficients by studying the ACF and PACF models. More detailed discussions of unit roots and cancellation effects between AR and MA terms can be found in the Mathematical Structure of ARIMA Models handout.

No comments:

Post a Comment