Sunday 5 November 2017

Gesentreerde Bewegende Gemiddelde Statistiek


Wanneer die berekening van 'n lopende bewegende gemiddelde, die plasing van die gemiddelde in die middel tydperk sinvol In die vorige voorbeeld het ons bereken die gemiddeld van die eerste 3 tydperke en sit dit langs tydperk 3. Ons kan die gemiddelde geplaas in die middel van die tyd interval van drie tydperke, dit is, langs tydperk 2. dit werk goed met vreemde tydperke, maar nie so goed vir selfs tydperke. So waar sou ons plaas die eerste bewegende gemiddelde wanneer M 4 Tegnies, sou die bewegende gemiddelde op t 2.5, 3.5 val. Om hierdie probleem wat ons glad Mas using 2. So glad ons die stryk waardes As ons gemiddeld 'n gelyke getal terme te vermy, moet ons die stryk waardes glad Die volgende tabel toon die resultate met behulp van M 4.David, Ja, MapReduce is bedoel is om te werk op 'n groot hoeveelheid data. En die idee is dat in die algemeen, die kaart en die vermindering van funksies shouldn39t sorg hoeveel mappers of hoeveel reducers daar, that39s net optimalisering. As jy mooi oor die algoritme ek gepos dink, kan jy sien dat dit doesn39t aangeleentheid wat Mapper kry wat gedeeltes van die data. Elke insette rekord sal beskikbaar wees om elke verminder operasie wat dit nodig het. â € Joe K 18 September 12 by 22:30 In die beste van my begrip bewegende gemiddelde is nie mooi kaarte te MapReduce paradigma sedert sy berekening in wese is gly venster oor gesorteerde data, terwyl mnr is die verwerking van nie-gesny wissel van gesorteerde data. Oplossing ek sien is soos volg: a) Om te implementeer persoonlike partisioneerder om in staat wees om twee verskillende mure te maak in twee lopies. In elk hardloop jou reducers sal verskillende reekse data te kry en te bereken bewegende gemiddelde waar approprieate Ek sal probeer om te illustreer: In die eerste lopie data vir reducers moet wees: R1: Q1, Q2, Q3, K4 R2: V5, V6, Q7, Q8 . hier sal jy cacluate bewegende gemiddelde vir 'n paar Qs. In volgende lopie moet jou reducers data te kry soos: R1: Q1. V6 R2: V6. Q10 R3: Q10..Q14 En caclulate die res van bewegende gemiddeldes. Dan sal jy nodig het om totaal resultate. Idee van persoonlike partisioneerder dat dit twee modi van die operasie sal moet - elke keer verdeel in gelyke wissel, maar met 'n paar verskuiwing. In 'n pseudokode dit sal lyk. partisie (keySHIFT) / (MAXKEY / numOfPartitions) waar: SHIFT sal geneem word van die opset. MAXKEY maksimum waarde van die sleutel. Ek neem aan vir eenvoud dat hulle begin met 'n nul. RecordReader, IMHO is nie 'n oplossing, want dit is beperk tot spesifieke split en kan nie meer as split grens skuif. Nog 'n oplossing sou wees om te implementeer persoonlike logika van verdeel insette data (dit is deel van die InputFormat). Dit kan gedoen word om 2 verskillende skyfies, soortgelyk aan skeiding te doen. antwoord 17 September 12 aan 8: 59moving gemiddelde gemiddeld van tydreeksdata (waarnemings eweredig gespasieerde in tyd) van 'n paar agtereenvolgende tydperke. Genoem beweeg omdat dit voortdurend recomputed as nuwe data beskikbaar raak, dit vorder deur die val van die vroegste waarde en die toevoeging van die jongste waarde. Byvoorbeeld, kan die bewegende gemiddelde van ses maande verkoop word bereken deur die gemiddelde van verkope van Januarie tot Junie, dan is die gemiddeld van verkope van Februarie tot Julie dan Maart tot Augustus en so aan. Bewegende gemiddeldes (1) verminder die effek van tydelike verskille in data, (2) die verbetering van die passing van data om 'n lyn ( 'n proses genaamd smoothing) om die data in tendens duideliker wys, en (3) na vore te bring enige waarde bo of onder die tendens. As jy iets met 'n baie hoë variansie is die berekening van die beste wat jy kan in staat wees om te doen, is uit die bewegende gemiddelde. Ek wou weet wat die bewegende gemiddelde was van die data, so ek sal 'n beter begrip van hoe ons doen het. As jy probeer om uit te vind 'n paar nommers wat verander dikwels die beste wat jy kan doen is om te bereken die bewegende gemiddelde. Die beste van BusinessDictionary, gemiddeldes dailyMoving bewegende gemiddeldes Met konvensionele datastelle afgelewer die gemiddelde waarde is dikwels die eerste, en een van die mees bruikbare, opsommingstatistiek te bereken. Wanneer data in die vorm van 'n tydreeks, die reeks beteken is 'n nuttige maatstaf, maar nie die dinamiese aard van die data weerspieël. Gemiddelde waardes bereken oor kortsluiting periodes, hetsy voor die huidige tydperk of gesentreer op die huidige tydperk, is dikwels meer nuttig. Omdat so 'n gemiddelde waardes sal wissel, of beweeg, soos die huidige tydperk beweeg van tyd t 2, t 3. ens staan ​​hulle bekend as bewegende gemiddeldes (Mas). 'N Eenvoudige bewegende gemiddelde is (tipies) die ongeweegde gemiddelde van k voor waardes. 'N eksponensieel geweeg bewegende gemiddelde is in wese dieselfde as 'n eenvoudige bewegende gemiddelde, maar met bydraes tot die gemiddelde geweegde deur hul nabyheid aan die huidige tyd. Want daar is nie een nie, maar 'n hele reeks bewegende gemiddeldes vir enige gegewe reeks, die stel van Mas kan hulself getrek word op grafieke, ontleed as 'n reeks, en gebruik in die modellering en voorspelling. 'N verskeidenheid van modelle kan gebou word met behulp van bewegende gemiddeldes, en dit is bekend as MA modelle. As sulke modelle word gekombineer met outoregressiewe (AR) modelle die gevolglike saamgestelde modelle is bekend as ARMA of ARIMA modelle (die Ek is vir geïntegreerde). Eenvoudige bewegende gemiddeldes Sedert 'n tydreeks kan as 'n stel waardes beskou word,, t 1,2,3,4, N die gemiddeld van hierdie waardes kan bereken word. As ons aanvaar dat N is nogal groot, en ons kies 'n heelgetal k wat is veel kleiner as n. kan ons 'n stel van blok gemiddeldes, of eenvoudig bewegende gemiddeldes (van orde k) bereken: Elke maat verteenwoordig die gemiddelde van al die datawaardes oor 'n interval van k waarnemings. Let daarop dat die eerste moontlike MA van orde k gt0 is dat vir t k. Meer in die algemeen kan ons die ekstra onderskrif val in die uitdrukkings bo en skryf: Dit bepaal dat die geskatte gemiddelde op tydstip t is die eenvoudige gemiddelde van die waargeneem waarde op tydstip t en die voorafgaande k -1 tyd stappe. As gewigte word toegepas wat die bydrae van waarnemings wat verder weg in die tyd is verminder, is die bewegende gemiddelde gesê eksponensieel word stryk. Bewegende gemiddeldes word dikwels gebruik as 'n vorm van vooruitskatting, waardeur die beraamde waarde vir 'n reeks op tydstip t 1, S T1. geneem word as die MA vir die tydperk tot en met tyd t. bv vandag se skatting is gebaseer op 'n gemiddelde van vorige aangeteken waardes tot en met gister se (vir daaglikse data). Eenvoudige bewegende gemiddeldes kan gesien word as 'n vorm van gladstryking. In die onderstaande diagram getoon word byvoorbeeld het die lugbesoedeling dataset getoon in die inleiding tot hierdie onderwerp is aangevul deur 'n 7-daagse bewegende gemiddelde (MA) reël, hier in rooi. Soos gesien kan word, die MA lyn glad uit die pieke en trôe in die data en kan baie nuttig wees in die identifisering van tendense wees. Die standaard toekomsgerigte berekening formule beteken dat die eerste k -1 datapunte het geen MA waarde, maar daarna berekeninge uit te brei na die finale data punt in die reeks. PM10 daaglikse gemiddelde waardes, Greenwich bron: London Luggehalte Network, www. londonair. org. uk Een rede vir die berekening van eenvoudige bewegende gemiddeldes op die voorgeskrewe wyse, is dat dit in staat stel om waardes te bereken vir alle tydgleuwe van tyd tk tot op hede en as 'n nuwe meting verkry vir tyd t 1, die MA vir tyd t 1 kan die reeds bereken stel bygevoeg. Dit bied 'n eenvoudige prosedure vir 'n dinamiese datastelle. Daar is egter 'n paar probleme met hierdie benadering. Dit is redelik om te argumenteer dat die gemiddelde waarde van die afgelope 3 periodes, sê, moet geleë wees op tyd t -1, nie tyd t. en vir 'n MA oor 'n gelyke getal periodes miskien is dit moet geleë wees by die middelpunt tussen twee tyd intervalle. 'N oplossing vir hierdie probleem is om gesentreer MA berekeninge, waarin die MA op tydstip t is die gemiddeld van 'n simmetriese stel waardes rondom t gebruik. Ten spyte van die ooglopende meriete, is hierdie benadering nie oor die algemeen gebruik word, want dit vereis dat data is beskikbaar vir toekomstige gebeure, wat nie die geval mag wees. In gevalle waar analise is geheel en al van 'n bestaande reeks, kan die gebruik van gesentreer Mas beter wees. Eenvoudige bewegende gemiddeldes kan beskou word as 'n vorm van gladstryking, die verwydering van 'n paar hoë frekwensie komponente van 'n tydreeks en beklemtoon (maar nie die verwydering van) tendense in 'n soortgelyke wyse as die algemene opvatting van digitale filter. Inderdaad, bewegende gemiddeldes is 'n vorm van lineêre filter. Dit is moontlik om 'n bewegende gemiddelde berekening van toepassing op 'n reeks wat reeds stryk, dit wil sê glad of filter 'n reeds stryk reeks. Byvoorbeeld, met 'n bewegende gemiddelde van orde 2, ons kan dit beskou as synde bereken met behulp van gewigte, sodat die MA by x 2 0.5 x 1 0.5 x 2. Net so, die MA by x 3 0.5 x 2 0.5 x 3. As ons dien 'n tweede vlak van gladstryking of filter, ons het 0,5 x 2 0.5 x 3 0.5 (0.5 x 1 0.5 x 2) 0.5 (0.5 x 2 0.5 x 3) 0.25 x 1 0.5 x 2 0,25 x 3 dws die 2-stadium filter proses (of konvolusie) het 'n wisselvallig geweegde simmetriese bewegende gemiddelde, met gewigte vervaardig. Veelvuldige konvolusie kan ingewikkeld geweegde bewegende gemiddeldes, waarvan sommige is gevind veral gebruik in gespesialiseerde velde, soos in lewensversekering berekeninge te produseer. Bewegende gemiddeldes gebruik kan word om periodieke effekte verwyder indien bereken met die lengte van die periodisiteit as 'n bekende. Byvoorbeeld, met 'n maandelikse data seisoenale variasies dikwels verwyder kan word (indien dit die doel) deur toe te pas 'n simmetriese 12 maande bewegende gemiddelde met al maande gelyke gewigte, behalwe die eerste en laaste wat geweeg deur 1/2. Dit is omdat daar sal 13 maande in die simmetriese model (huidige tyd, t / -. 6 maande). Die totale is gedeel deur 12. Soortgelyke prosedures kan vir enige goed gedefinieerde periodisiteit word aangeneem. Eksponensieel geweeg bewegende gemiddeldes (EWMA) Met die eenvoudige bewegende gemiddelde formule: alle waarnemings is ewe geweegde. As ons noem hulle die gelyke gewigte, Alpha t. elk van die k gewigte sou gelyk 1 / k. sodat die som van die gewigte sal wees 1, en die formule sou wees: Ons het reeds gesien dat verskeie programme van hierdie proses lei tot die gewigte wissel. Met eksponensieel geweeg bewegende gemiddeldes die bydrae tot die gemiddelde waarde van waarnemings wat meer verwyder betyds beraadslaag verminder, en sodoende meer onlangse (plaaslike) gebeure beklemtoon. In wese 'n glad parameter, 0lt Alpha LT1, is bekend gestel, en die formule hersien om 'n simmetriese weergawe van hierdie formule van die vorm sal wees: As die gewigte in die simmetriese model is gekies as die terme van die bepalings van die binomiale uitbreiding, (1/21/2) 2S. hulle sal vat om 1, en as Q groot word, sal die normaalverdeling benader. Dit is 'n vorm van kern gewig, met die Binomiale optree as die kern funksie. Die twee stadium konvolusie in die vorige subartikel beskryf is juis hierdie reëling, met Q 1, opbrengs die gewigte. In eksponensiële gladstryking is dit nodig om 'n stel gewigte gebruik wat som tot 1 en wat verminder in grootte meetkundig. Die gewigte gebruik is tipies van die vorm: Om te wys dat hierdie gewigte op te som tot 1, oorweeg die uitbreiding van 1 / as 'n reeks. Ons kan skryf en die uitdrukking in hakies gebruik te maak van die binomiale formule (1- x) p brei. waar x (1-) en p -1, wat gee: Dit bied dan 'n vorm van geweegde bewegende gemiddelde van die vorm: Hierdie opsomming kan geskryf word as 'n herhaling verhouding: wat berekening grootliks vereenvoudig, en vermy die probleem wat die gewig regime moet streng oneindige wees vir die gewigte op te som tot 1 (vir klein waardes van alfa. hierdie is tipies nie die geval). Die notasie wat gebruik word deur verskillende skrywers wissel. Sommige gebruik die letter S aan te dui dat die formule is in wese 'n reëlmatige veranderlike, en skryf: terwyl die beheerteorie literatuur gebruik dikwels Z eerder as S vir die eksponensieel geweeg of glad waardes (sien, byvoorbeeld, Lucas en Saccucci, 1990, LUC1 , en die NIST webwerf vir meer besonderhede en uitgewerkte voorbeelde). Bogenoemde aangehaal formules uit die werk van Roberts (1959 ROB1), maar Hunter (1986, HUN1) gebruik 'n uitdrukking van die vorm: wat meer geskik is vir gebruik in 'n paar prosedures kan wees. Met alfa 1 die gemiddelde skatting is eenvoudig sy gemeet waarde (of die waarde van die vorige data-item). Met 0,5 die skatting is die eenvoudige bewegende gemiddelde van die huidige en vorige metings. In voorspellingsmodelle die waarde, S t. word dikwels gebruik as die skatting of voorspelling waarde vir die volgende tydperk, dit wil sê as die skatting vir x op tydstip t 1. So ons het: Dit dui aan dat die voorspelling waarde op tydstip t 1 is 'n kombinasie van die vorige eksponensieel geweeg bewegende gemiddelde plus 'n komponent wat die geweegde voorspelling fout, Epsilon verteenwoordig. op tyd t. Die aanvaarding van 'n tydreeks gegee en 'n voorspelling is nodig, word 'n waarde vir Alpha vereis. Dit kan geskat word van die bestaande data deur die evaluering van die som van 'n vierkant voorspelling foute te kry met wisselende waardes van Alpha vir elke T 2,3. die opstel van die eerste skatting van die eerste waargenome data waarde wees, x 1. In beheer aansoeke ter waarde van Alpha is belangrik in wat gebruik word in die bepaling van die boonste en onderste beheer perke, en raak die gemiddelde duur lank (ARL) verwag voor hierdie beheer perke is gebreek (onder die aanname dat die tyd reeks verteenwoordig 'n stel van ewekansige, identies verdeelde onafhanklike veranderlikes met 'n gemeenskaplike variansie). Onder hierdie omstandighede die variansie van die beheer statistiek: is (Lucas en Saccucci, 1990): beheer perke word gewoonlik gestel as vaste veelvoude van hierdie asimptotiese variansie, bv / - 3 keer die standaardafwyking. 1,134 en die proses sal een of ander perk in 500 bereik - As alfa 0,25, byvoorbeeld, en die data wat gemonitor word aangeneem dat 'n normale verspreiding, N (0,1) het, terwyl dit in beheer, die beheer perke sal / kan stappe op die gemiddelde. Lucas en Saccucci (1990 LUC1) lei die ARLs vir 'n wye verskeidenheid van alfa waardes en onder verskillende aannames met behulp van Markov Chain prosedures. Hulle tabuleer die resultate, insluitend die verskaffing van ARLs wanneer die gemiddelde van die beheerproses is verskuif deur sommige verskeie van die standaardafwyking. Byvoorbeeld, met 'n 0.5 verskuiwing met alfa 0,25 die ARL is minder as 50 keer stappe. Die hierbo beskryf benaderings staan ​​bekend as een eksponensiële gladstryking. as die prosedures wat eenmaal aan die tydreeks toegepas en dan ontleed of beheer prosesse uit op die gevolglike stryk dataset gedra. As die dataset sluit 'n tendens en / of seisoenale komponente, twee - of drie-fase eksponensiële gladstryking kan hieronder toegedien word as 'n middel van die verwydering (uitdruklik modellering) hierdie effekte (sien verder, die afdeling oor vooruitskatting., En die NIST uitgewerkte voorbeeld ). CHA1 Chat Field C (1975) die ontleding van Times Reeks: teorie en praktyk. Chapman en Hall, Londen HUN1 Hunter J S (1986) Die eksponensieel geweeg bewegende gemiddelde. J van kwaliteit Tegnologie, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) eksponensieel Geweegde Moving Gemiddelde beheer Skemas: Properties en verbeteringe. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) beheer Chart Toetse Op grond van Meetkundige bewegende gemiddeldes. Technometrics, 1, 239-250Spreadsheet implementering van seisoenale aanpassing en eksponensiële gladstryking Dit is maklik om seisoenale aanpassing voer en pas eksponensiële gladstryking modelle met behulp van Excel. Die skerm beelde en kaarte hieronder is geneem uit 'n sigblad wat is opgestel om multiplikatiewe seisoenale aanpassing en lineêre eksponensiële gladstryking op die volgende kwartaallikse verkope data van Buitenboord Marine illustreer: Om 'n afskrif van die sigbladlêer self te bekom, kliek hier. Die weergawe van lineêre eksponensiële gladstryking wat hier gebruik sal word vir doeleindes van demonstrasie is Brown8217s weergawe, bloot omdat dit geïmplementeer kan word met 'n enkele kolom van formules en daar is net een glad konstante te optimaliseer. Gewoonlik is dit beter om Holt8217s weergawe dat afsonderlike glad konstantes vir vlak en tendens het gebruik. Die vooruitskatting proses verloop soos volg: (i) die eerste keer die data is seisoenaal-aangepaste (ii) dan voorspellings gegenereer vir die seisoenaal-aangepaste data via lineêre eksponensiële gladstryking en (iii) Ten slotte het die seisoensaangesuiwerde voorspellings is quotreseasonalizedquot om voorspellings vir die oorspronklike reeks te verkry . Die aanpassingsproses seisoenale word in kolomme gedoen D deur G. Die eerste stap in seisoenale aanpassing is om te bereken 'n gesentreerde bewegende gemiddelde (hier opgevoer in kolom D). Dit kan gedoen word deur die gemiddelde van twee een-jaar-wye gemiddeldes wat geneutraliseer deur 'n tydperk relatief tot mekaar. ( 'N kombinasie van twee geneutraliseer gemiddeldes eerder as 'n enkele gemiddelde nodig vir sentrering doeleindes wanneer die aantal seisoene is selfs.) Die volgende stap is om die verhouding te bereken om bewegende gemiddelde --i. e. die oorspronklike data gedeel deur die bewegende gemiddelde in elke tydperk - wat hier uitgevoer word in kolom E. (Dit is ook die quottrend-cyclequot komponent van die patroon genoem, sover tendens en besigheid-siklus effekte kan oorweeg word om almal wat bly nadat gemiddeld meer as 'n geheel jaar se data. natuurlik, maand-tot-maand veranderinge wat nie as gevolg van seisoenale kan bepaal word deur baie ander faktore, maar die 12-maande-gemiddelde glad oor hulle 'n groot mate.) die na raming seisoenale indeks vir elke seisoen word bereken deur die eerste gemiddeld al die verhoudings vir daardie spesifieke seisoen, wat gedoen word in selle G3-G6 behulp van 'n AVERAGEIF formule. Die gemiddelde verhoudings word dan verklein sodat hulle som presies 100 keer die aantal periodes in 'n seisoen, of 400 in hierdie geval, wat gedoen word in selle H3-H6. Onder in kolom F, word VLOOKUP formules wat gebruik word om die toepaslike seisoenale indeks waarde in elke ry van die datatabel voeg, volgens die kwartaal van die jaar wat dit verteenwoordig. Die gesentreerde bewegende gemiddelde en die seisoensaangepaste data beland lyk soos hierdie: Let daarop dat die bewegende gemiddelde lyk tipies soos 'n gladder weergawe van die seisoensaangepaste reeks, en dit is korter aan beide kante. Nog 'n werkblad in dieselfde Excel lêer toon die toepassing van die lineêre eksponensiële gladstryking model om die seisoensaangepaste data, begin in kolom G. 'n Waarde vir die glad konstante (alfa) bo die voorspelling kolom ingeskryf (hier, in sel H9) en vir gerief dit die omvang naam quotAlpha. quot (die naam is opgedra deur die opdrag quotInsert / naam / Createquot.) die LES model is geïnisialiseer deur die oprigting van die eerste twee voorspellings gelyk aan die eerste werklike waarde van die seisoensaangepaste reeks toegeken. Die formule wat hier gebruik word vir die LES voorspelling is die enkel-vergelyking rekursiewe vorm van Brown8217s model: Hierdie formule is in die sel wat ooreenstem met die derde tydperk (hier, sel H15) aangegaan en kopieer af van daar af. Let daarop dat die LES voorspelling vir die huidige tydperk verwys na die twee voorafgaande waarnemings en die twee voorafgaande voorspelling foute, sowel as om die waarde van alfa. So, die voorspelling formule in ry 15 slegs verwys na data wat beskikbaar is in ry 14 en vroeër was. (Natuurlik, as ons wou eenvoudig in plaas van lineêre eksponensiële gladstryking te gebruik, kan ons die SES formule hier vervang in plaas. Ons kan ook gebruik Holt8217s eerder as Brown8217s LES model, wat nog twee kolomme van formules sou vereis dat die vlak en tendens bereken wat gebruik word in die vooruitsig.) die foute word bereken in die volgende kolom (hier, kolom J) deur die aftrekking van die voorspellings van die werklike waardes. Die wortel beteken kwadraat fout is bereken as die vierkantswortel van die variansie van die foute plus die vierkant van die gemiddelde. (Dit volg uit die wiskundige identiteit. MSE afwyking (foute) (gemiddeld (foute)) 2) By die berekening van die gemiddelde en variansie van die foute in hierdie formule, is die eerste twee periodes uitgesluit omdat die model vooruitskatting nie eintlik nie begin totdat die derde tydperk (ry 15 op die sigblad). Die optimale waarde van alfa kan óf gevind word deur die hand verander alfa tot die minimum RMSE is gevind, of anders kan jy die quotSolverquot gebruik om 'n presiese minimering. Die waarde van alfa dat die Solver gevind word hier (alpha0.471) getoon. Dit is gewoonlik 'n goeie idee om die foute van die model (in omskep eenhede) te plot en ook om te bereken en stip hul outokorrelasies by lags van tot een seisoen. Hier is 'n tydreeks plot van die (seisoenaangepaste) foute: Die fout outokorrelasies word bereken deur gebruik te maak van die funksie CORREL () om die korrelasies van die foute te bereken met hulself uitgestel word deur een of meer periodes - besonderhede word in die sigblad model . Hier is 'n plot van die outokorrelasies van die foute by die eerste vyf lags: Die outokorrelasies by lags 1 tot 3 is baie naby aan nul, maar die pen op lag 4 (wie se waarde is 0.35) is 'n bietjie lastig - dit dui daarop dat die seisoenale aanpassing proses het nie heeltemal suksesvol. Maar dit is eintlik net effens betekenisvol. 95 betekenis bands om te toets of outokorrelasies is aansienlik verskil van nul is min of meer plus-of-minus 2 / SQRT (N-k), waar n die steekproefgrootte en k is die lag. Hier N 38 en k wissel van 1 tot 5, so die vierkant-wortel-van-n-minus-k is ongeveer 6 vir almal, en vandaar die perke vir die toets van die statistiese betekenisvolheid van afwykings van nul is min of meer plus - of-minus 2/6, of 0.33. As jy die waarde van alfa wissel met die hand in hierdie Excel model, kan jy die effek op die tydreeks en outokorrelasie erwe van die foute in ag te neem, sowel as op die wortel-gemiddelde-kwadraat fout, wat onder sal wees geïllustreer. Aan die onderkant van die sigblad, is die voorspelling formule quotbootstrappedquot in die toekoms deur bloot vervang voorspellings vir werklike waardes by die punt waar die werklike data loop uit - d. w.z. waar quotthe futurequot begin. (Met ander woorde, in elke sel waar 'n toekomstige datawaarde sou plaasvind, 'n selverwysing is ingevoeg wat daarop dui dat die voorspelling gemaak vir daardie tydperk.) Al die ander formules is eenvoudig van bo af gekopieer: Let daarop dat die foute vir voorspellings van die toekoms is al bereken as nul. Dit beteken nie dat die werklike foute sal nul wees nie, maar eerder dit weerspieël bloot die feit dat vir doeleindes van voorspelling is ons veronderstelling dat die toekoms data die voorspellings sal gelyk gemiddeld. Die gevolglike LES voorspellings vir die seisoenaal-aangepaste data soos volg lyk: Met hierdie besondere waarde van Alpha, wat is optimaal vir een-periode-vooruit voorspellings, die geprojekteerde tendens is effens opwaarts, wat die plaaslike tendens wat oor die afgelope 2 jaar is waargeneem of so. Vir ander waardes van Alpha dalk 'n heel ander tendens projeksie verkry. Dit is gewoonlik 'n goeie idee om te sien wat gebeur met die langtermyn-tendens projeksie wanneer Alpha is uiteenlopend, omdat die waarde wat die beste vir 'n kort termyn vooruitskatting sal nie noodwendig die beste waarde vir die voorspelling van die meer verre toekoms wees. Byvoorbeeld, hier is die resultaat wat verkry word indien die waarde van alfa hand is ingestel op 0,25: Die geprojekteerde langtermyn-tendens is nou negatiewe eerder as positiewe Met 'n kleiner waarde van Alpha model plaas meer gewig op ouer data in sy skatting van die huidige vlak en tendens, en sy voorspellings langtermyn weerspieël die afwaartse neiging waargeneem oor die afgelope 5 jaar, eerder as die meer onlangse opwaartse neiging. Hierdie grafiek ook duidelik illustreer hoe die model met 'n kleiner waarde van Alpha is stadiger te reageer op quotturning pointsquot in die data en dus geneig is om 'n fout van die dieselfde teken maak vir baie tye in 'n ry. Die 1-stap-ahead voorspelling foute is groter gemiddeld as dié verkry voordat (RMSE van 34,4 eerder as 27.4) en sterk positief autocorrelated. Die lag-1 outokorrelasie van 0,56 oorskry grootliks die waarde van 0.33 hierbo bereken vir 'n statisties beduidende afwyking van nul. As 'n alternatief vir slingerspoed die waarde van alfa ten einde meer konserwatisme te voer in 'n lang termyn voorspellings, is 'n quottrend dampeningquot faktor soms by die model ten einde te maak die geprojekteerde tendens plat uit na 'n paar periodes. Die finale stap in die bou van die voorspelling model is om die LES voorspellings quotreasonalizequot deur hulle deur die toepaslike seisoenale indekse te vermenigvuldig. So, die reseasonalized voorspellings in kolom Ek is net die produk van die seisoenale indekse in kolom F en die seisoensaangepaste LES voorspellings in kolom H. Dit is relatief maklik om vertrouensintervalle bereken vir een-stap-ahead voorspellings gemaak deur hierdie model: eerste bereken die RMSE (wortel-gemiddelde-kwadraat fout, wat net die vierkantswortel van die MSE) en dan bereken 'n vertrouensinterval vir die seisoensaangepaste voorspel deur optelling en aftrekking twee keer die RMSE. (Oor die algemeen 'n 95 vertrouensinterval vir 'n een-tydperk lig voorspelling is min of meer gelyk aan die punt voorspelling plus-of-minus twee keer die geskatte standaardafwyking van die voorspelling foute, die aanvaarding van die fout verspreiding is ongeveer normale en die steekproefgrootte groot genoeg is, sê, 20 of meer. Hier is die RMSE eerder as die monster standaardafwyking van die foute is die beste raming van die standaard afwyking van toekomstige vooruitsig foute, want dit neem vooroordeel sowel toevallige variasies in ag.) die vertroue perke vir die seisoensaangepaste voorspelling is dan reseasonalized. saam met die voorspelling, deur hulle met die toepaslike seisoenale indekse te vermenigvuldig. In hierdie geval is die RMSE is gelyk aan 27.4 en die seisoensaangepaste voorspelling vir die eerste toekoms tydperk (Desember-93) is 273,2. sodat die seisoensaangepaste 95 vertrouensinterval is 273,2-227,4 218,4 te 273.2227.4 328,0. Vermenigvuldig hierdie perke deur Decembers seisoenale indeks van 68,61. Ons kry onderste en boonste vertroue grense van 149,8 en 225,0 rondom die Desember-93 punt voorspelling van 187,4. Vertroue perke vir voorspellings meer as een tydperk wat voorlê, sal oor die algemeen uit te brei as die voorspelling horison toeneem, as gevolg van onsekerheid oor die vlak en tendens asook die seisoenale faktore, maar dit is moeilik om hulle te bereken in die algemeen deur analitiese metodes. (Die geskikte manier om vertroue perke vir die LES voorspelling bereken is deur die gebruik van ARIMA teorie, maar die onsekerheid in die seisoenale indekse is 'n ander saak.) As jy 'n realistiese vertroue interval vir 'n voorspelling wil meer as een tydperk wat voorlê, met al die bronne van fout in ag, jou beste bet is om empiriese metodes gebruik: byvoorbeeld, 'n vertrouensinterval vir 'n 2-stap vorentoe voorspel verkry, jy kan 'n ander kolom skep op die sigblad om 'n 2-stap-ahead voorspelling bereken vir elke tydperk ( deur Opstarten die een-stap-ahead voorspelling). bereken dan die RMSE van die 2-stap-ahead voorspelling foute en gebruik dit as die basis vir 'n 2-stap-ahead vertroue interval.

No comments:

Post a Comment