PN ved som som sagt alt så der må være nogen der kan hjælpe mig med dette spørgsmål, da det er alt for længe siden, at jeg har beskæftiget mig med dette. :)
Jeg skal lave en opgave, hvor min stikprøve skal være repræsentativ for en større population. Selskaberne som der vælges mellem er opdelt efter markedsværdi og jeg skal således udvælge 20 af disse.
Jeg vil gerne vide hvilken af disse metoder, der giver den mest repræsentative stikprøve. Hvis begge kan anvendes vil jeg gerne høre om der er nogen ulemper/fordele ved de to.
1. Vælge hver x. selskab på listen (fx hver 20. selskab)
2. Opdele listen med selskaber i grupper af y og så tilfældigt udvælge ét selskab fra hver gruppe. (Vist kaldet stratifikation hvis jeg husker rigtigt)
Jeg skal have kigget de gamle lærerbøger igennem, men det kunne jo være jeg kunne blive ført i den rigtige retning af et par kloge hoveder herinde. :)
På forhånd tak for hjælpen.
PNVA: Repræsentativ stikprøve
LOL Razga...
Common!... Manden stiller et seriøst spørgsmål. Og han ville jo netop IKKE have random.
Jeg fulgte desværre for lidt med i vores statistikundervisning på CBS, så kan ikke selv hjælpe :(
Det afhænger så vidt jeg huske af, hvad du skal bruge stikprøverne til at estmere?
@Kasperoviz
Jeg skal bl.a. undersøge spreadet på NYSE og skal derfor bruge en stikprøve af selskaberne på NYSE.
Razga har faktisk en pointe, da det er en metode, som man kan bruge, når man bedriver forskning.
Om din forskning er repræsentativ eller ej handler jo også i høj grad om statistisk usikkerhed omend udtrækningsmetoden selvfølgelig spiller en rolle.
Umiddelbart er det nok smartest at stratificere, dette kræver selvfølgelig at du har nogle data at stratificere efter, men du nævner selv at selskaberne er opdelt efter markedsværdi, så jeg vil tro du kan bruge denne værdi til at stratificere din stikprøve :)
Dog skal du ikke nødvendigvis opdele i 20 grupper og vælge en fra hver, men derimod opdele i et mindre antal strata og vælge et "passende" antal fra hver gruppe.
Hvorfor beregner du ikke spredningen ud fra markedsværdien for alle de selskaber, som du har på listen?
Hvis du lagdeler ud fra forskellige markedsværdier og efterfølgende tager x antal ud fra hvert lag, får du så vidt jeg lige kan se et helt forkert estimat på di spredning.
Ellers som Vanvid.
Nu har du kendskab til hele populationen (inkl. relevante parametre), så det ville være smart at udvælge i henhold til disse. Du skal nok kun stratificere efter 1-2 parametre, når du kun skal bruge 20 selskaber.
Herefter er udvælgelsen relativt nem. Læg firmaerne i Excel og brug =random funktionen, men der er mange mere opfindsomme unbiased metoder, fx a la Razga's idé.
/A
@alle
Den med skålen dur ikke. Det nytter ikke noget, at jeg fx får 15 af de 20 største selskaber og 5 af de mindste. Som Asger_b siger så har jeg kendskab til hele populationen og den eneste betingelse er sådan set at den udtrukne stikprøve repræsenterer markedet (hvor der her kun fokuseres på markedsværdien af selskabet. Brancher, aktiekurs, antal aktier osv er underordnet her).
Så hvordan udtrækker jeg bedst blandt populationen? Skal jeg inddele dem i grupper efter MV og tilfældigt udtrække et selskab fra hver gruppe eller skal jeg bare tage hver 30. (eksempelvis) selskab på listen over populationen. :)
@SkatKat
"Umiddelbart er det nok smartest at stratificere, dette kræver selvfølgelig at du har nogle data at stratificere efter, men du nævner selv at selskaberne er opdelt efter markedsværdi, så jeg vil tro du kan bruge denne værdi til at stratificere din stikprøve :)
Dog skal du ikke nødvendigvis opdele i 20 grupper og vælge en fra hver, men derimod opdele i et mindre antal strata og vælge et "passende" antal fra hver gruppe."
Det er noget i den stil som jeg forestiller mig. Jeg kan dog ikke se fordelen ved at lave et mindre antal strata. Når jeg har hele populationen vil det vil bare øge usikkerheden, vil det ikke?
Laptop: Pointen er, at du skal stratificere i forhold til antal - lad mig eksemplificere:
25% af selskaberne har MV<5
50% af selskaberne har MV mlm 5 og 10
25% af selskaberne har MV >10
I din sample, skal du så have hhv. 5 10 og 5 selskaber fra hver gruppe.
Det er OGSÅ en mulighed (der i øvrigt giver fin logik), at inddele samplen i 4 lige store grupper (hvor MV så ikke er lineær), og så tage et ensartet antal fra hver gruppe. Det er fx det der sker, hvis du inddeler popupationen i 20 grupper (lineært efter MV), for herefter at uddrage 1 selskab fra hver (dvs. 1 selskab fra en gruppe, hvis MV ligger i intervallet 3-4.2).
Det kommer an på, hvad du skal bruge det til.
Husk at du ikke SELV må vælge selskabet, men skal bruge en randomizer.
/A
@OP: Har lige et par spørgsmål
Er formålet at estimere spredningen? eller er det fordelingen, du generelt vil kunne repræsentere ved den metode, som du ønsker at udtage dine stikprøver med?
Hvor stor en del af prøvegrundlaget må indgå i stikprøven?
@Asger_b
Ja okay jeg kan godt følge dig der, men vil jeg ikke opnå det samme resultat med opdelingen i 20?
Det er vel groft sagt det samme som hvis jeg siger følgende:
Gruppe 1: MV mellem 48-50
Gruppe 2: MV mellem 46-48
Gruppe 3: MV mellem 44-46
Gruppe 4: MV mellem 42-44
Gruppe 5: MV mellem 40-42
...
Lad os sige at de 5 grupper udgør 25% af selskaberne.
Så kan jeg enten sige:
25% af selskaberne har en MV mellem 40-50
Og så udtrække 5 selskaber.
Eller jeg kan sige, at der er de 5 grupper og så udtrække ét selskab fra hver gruppe.
Jeg vil mene at man med nr 2 sikrer en endnu bedre udvælgelse, da jeg i metode 1 risikerer at trække fx 5 som har en MV mellem 48-50, hvilket ikke er muligt ved metode 2.
Hvis grupperingen er skæv således, at der fx er mange store selskaber, så tager min metode vel også højde for det, da grupperingerne er opdelt efter MV. Det vil så betyde at der er mange grupper med høje MV og færre grupper med lave MV. :)
@kasperoviz
Nej det er ikke formålet. Jeg skal lave en opgave, hvor jeg bl.a. (der skal undersøges meget mere!) bagefter skal kunne sige følgende:
"Spreadet på selskaber noteret på NYSE er faldet over de seneste 10 år".
Det kan jeg ikke sige, hvis jeg bare vælger 20 random aktier, da jeg så ikke kan sige det generelt for hele NYSE. Det kræver, at jeg medtager såvel store som små aktier. Hvad de beskæftiger sig med og alt andet er underordnet. Jeg skal bare have en stikprøve, der dækker hele NYSE, når man kigger på MV.
Så til dit spørgsmål må det være fordelingen, som jeg lige forstår dig. :)
Nu er det market structure data og derfor er antallet af selskaber ikke så vigtigt, men jeg vil gerne medtage et vist antal så jeg føler mig "dækket" godt ind. Jeg mener at kunne huske at der i et andet fag er en formel man kan bruge, men den tror jeg ikke bliver nødvendig. Jeg tror derfor jeg ender på en 10-20 selskaber. :)
@Laptop Du må vel netop ikke inddele i grupper, der er inddelt efter MV, og så tage lige mange prøver fra hver, da du så vil få lige så mange prøver fra en gruppe med eks. 5 % af virksomhederne, som du vil få fra en gruppe med 2% af virksomhederne, idet det giver et forkert billede.
Men igen: Hvad skal du præcist estimere?
Den tilfældige udvælgelse tager højde for at den netop er tilfældig og at du kan være så "uheldig" at udvælge flere store eller små virksomheder end, hvad der ville være et repræsentativt udsnit...
Hvis du er så usikker på det, så er den nemmeste og bedste løsning da bare at øge stikprøvestørrelsen... Evt. bare at medtage alle virksomheder, når du nu kender dem alle... Jeg er ikke klar over, hvor tidskrævende det er at indsamle data for de forskellige virksomheder, men hvis det ikke er så slemt, så vil det da klart være at foretrække at øge stikprøvestørrelsen...
omg, folkens. Nu skal i ikke give manden en dårlig start med at foreslå ham data-mining.
Imo er razga spot on, simple tilfældig udvægelse er vejen frem, heraf på den forventede fordeling af selskaber afspejles i stik-prøven, som så bør skinne igennem på samtlige at dine estimerede koefficienter.
Du skal dog være opmærksom på, at når du skal beregne spreads på NYSE, så kan der forekomme både mulitkollinaeritet og autokorrelation, hvilket kan være med til at dine standard errors bliver biased, hvorfor du ikke kan udfører hypotese tests.
Jeg foreslår dig, sådan set, at du får hele dit datasæt beregnet med samtlige værdier du skal bruge og så laver du 3 stik-prøver. Beregner samtlige koefficienter og foretager samtlige hypotese tests. Herefter tester du så på om stik-prøverne er signifikant forskellige...
PS. Den med skålen virker, jeg har lige haft adgang til et større data-sæt omkring samtlige danske aktiver, af en bestemt art, der er blevet handlet mellem 2002 og 2008. Jeg benyttede mig af ovenstående strategi, for at sikre mig, at jeg ikke data-minede, altså gav resultat en drejning, som jeg gerne ville have den til.
Men derudover, så tror jeg ikke, at selv udvægelsesmetoden har så meget at sige, sålænge du begrunder dit valg, men umiddelbart, så bør du tage fat i en kyndig indenfor finansie-økonometri på dit uddannelses sted.
@Kasperoviz
Jeg laver jo grupperne så der er lige mange selskaber i hver gruppe. Kan derfor ikke se problemet. Jeg rangerer alle selskaber efter MV og deler så op i 20 grupper med lige mange selskaber i hver gruppe.
Se mit svar kl 23:19 for hvad jeg skal estimere.
@Jaybee
Det er fuldstændig umuligt at medtage hele populationen og uden betydning med den type data jeg arbejder med. :)
@Fissehans
Helt random er ikke fremgangsmåden her. Hvis jeg vælger 20 tilfældige selskaber så kan jeg ikke sige noget generelt for hele NYSE, hvilket er formålet med opgaven. Derfor skal jeg medtage markedsværdier og bruge disse i udvælgelsen, så hele markedet bliver repræsenteret. Jeg har diskuteret dette med min vejleder, da jeg først bare havde valgt 20 tilfældige selskaber.
Jeg har regnet på disse spreads før og der opstår forskellige problemer, når du skal sammenligne spreads, men resultaterne er dog meget tydelige. Desuden er spreadet ikke det primære i opgaven, men en nødvendighed for at gå videre.
Jeg kan ikke beregne data for hele populationen. Det er som sagt umuligt og ikke nødvendigt.