Vissza a TÁRKI nyitóoldalára
TÁRKI logó Közvélemény- és piackutatás Adatbank Társadalomkutatás Kiadványok Magunkról English

Kiadványok

Társadalmi Riport | Társadalompolitikai Tanulmányok | Műhelytanulmányok, gyorsjelentések | Szerepváltozások | Könyvek munkatársainktól | Munkatársak publikációi | Kiadványrendelés

 

Rudas Tamás: Hogyan olvassunk közvélemény-kutatásokat?

3. Hány embert kell megkérdezni? (Mintanagyság)

Minél nagyobb a minta, annál megbízhatóbbak az eredmények. Ezt mindenki tudni véli, bár nem biztos, hogy mindenki ugyanazt érti ezen az állításon. Mielőtt azonban megkeresnénk azt a jelentést, amely helyes, emlékezzünk a Literary Digest kudarcára. Ha egy mintát rossz módon választanak, a nagyobb létszám nem segít. Ekkor ugyanis csak nagyobb léptékben lesz rossz az eredmény. Tehát a nagy mintalétszám csak akkor kívánatos, ha egyébként a mintát helyesen választották.

A minta nagy voltának egyik szokásos értelmezése az, hogy a minta elemszáma nagy. Annak megállapításához, hogy a minta elég nagy-e ebben az értelemben, olyan kritériumokat kellene felállítani, amelyeket akármilyen populáció esetén alkalmazhatunk. A másik szokásos értelmezés az, hogy a minta a vizsgált sokaságnak nagy hányadát képviseli. Annak eldöntéséhez, hogy egy ilyen típusú kritérium teljesül-e, ismerni kell a vizsgált populáció létszámát. Sok esetben ez a létszám nem ismert (gondoljunk csak a hajléktalanok véleményével foglalkozó vizsgálatra).

Az, hogy a minta milyen mértékben közelíti az egész népességet, sok tényezőtől függ. De matematikai szempontból lényegében csak háromtól: a populáció becsülni kívánt jellemzőjétől, a mintavétel módjától és a minta elemszámától.

A populáció becsülni kívánt jellemzője lehet egy arányszám, melyet gyakran százalékos formában fejezünk ki (például egy pártra adott szavazatok aránya az összes szavazaton belül) vagy egy átlag (például egy politikus rokonszenv-osztályzatainak átlaga). Első látásra úgy tűnhet, hogy ez a két eset nem különbözhet nagyon: az arány is egy átlag. Ehhez arra az egyszerű trükkre van szükség, hogy a párt szavazóihoz rendeljük az 1 értéket, azokhoz pedig, akik nem erre a pártra szavaznának, rendeljük a 0-t. Így minden megfigyelést egy értékkel jellemzünk, és ezeknek összege éppen a vizsgált párt szavazóinak száma. A keresett arány ez az érték osztva a minta teljes elemszámával. De ha egy összeget ( a 0-k és 1-ek összegét) elosztjuk a tagok számával, az átlagot kapjuk. Ezért a párt szavazóinak aránya a mintában a megfigyelt 0-k és 1-ek átlaga lesz. Ezen könnyű azonosíthatóság ellenére a két eset eltér. Feltéve, hogy a párt szavazóinak népességbeli arányát ismerjük, a szavazóknak a különböző mintákban vett számát vagy arányát illetően hasznos állításokat tehetünk. Az átlagos rokonszenv-osztályzat esetében a mintákban megfigyelt értékek eloszlása a népességbeli átlagon túlmenően még mástól is függ. Amennyiben a szavazóknak a populációbeli aránya adott, például, ha egy nyolcmilliós népességben a párt szavazóinak aránya 15%, akkor ez – természetesen – csak úgy fordulhat elő, hogy a népességben egymillió-kétszázezren erre a pártra szavaznak és hatmillió-nyolcszázezren nem erre a pártra szavaznak. Tehát a minket érdeklő jellemző ebben az esetben meghatározza az egész populációt jellemző viszonyokat. Ezzel szemben, ha egy politikus rokonszenv-átlaga 4, akkor ez úgy is előfordulhat, hogy a népesség fele hármas, fele pedig ötös osztályzatot ad, vagy úgy, hogy a népesség egyharmada ötös, kétharmada pedig kettes osztályzatot. Tehát ebben az esetben a minket érdeklő jellemző nem határozza meg az egész népesség értékeit. Emiatt a minták jó vagy rossz voltának mértékét nem csak az a tény határozza meg, hogy az népesség átlagos osztályzata négyes, hanem az is, hogy milyen osztályzatokból jön össze ez a négyes. Ha például a népességben mindenki négyes osztályzatot ad, akkor ezt minden minta híven tükrözi, de ha a népesség fele hármas, fele ötös osztályzatot ad, akkor lesznek jobb és rosszabb minták (amelyek többé vagy kevésbé pontosan tükrözik ezt).

A mintavétel módját most csak idealizált, matematikai szemszögből tárgyaljuk. Később lesz szó azokról a mintavételi eljárásokról, amelyek a gyakorlatban is kivitelezhetőek és elméleti szempontból is kielégítő eredményeket adnak. Az egyszerű véletlen mintavétel technikailag pontos jelentése az, hogy a vizsgálandó népességből a mintába kerülőket egymás után választjuk; egyik választás sem függ az előző eredményétől; és minden húzás alkalmával a vizsgálandó népesség minden (addig ki nem választott) tagjának egyforma esélye van a mintába kerülésre. A mintavételi módszerek aszerint is csoportosíthatóak, hogy a mintavétel visszatevéssel vagy anélkül történik. Ennek a különbségnek a megértéséhez tegyük fel, hogy a vizsgálandó népesség minden egyedének a neve fel van írva egy cédulára, a cédulákat egy dobozba helyezzük, és alapos keverés után kihúzzuk az első mintába került személy nevét. Visszatevés nélküli mintavétel esetén ezután újra keverünk, és utána kihúzzuk a második nevet. Visszatevéses mintavétel esetén az első nevet tartalmazó cédulát visszatesszük, mielőtt újra kevernénk. Ez azt jelenti, hogy visszatevéses mintavételnél, legalábbis elvileg, fennáll annak a lehetősége, hogy ugyanazt a személyt kétszer válasszuk. Ezért közvélemény-kutatásnál sohasem alkalmaznak visszatevéses mintavételt. Értelmetlen lenne ugyanazt a személyt kétszer is megkérdezni. Visszatevéses és visszatevés nélküli mintavétel esetén a keletkező minták statisztikai viselkedése némileg eltér. Ez az eltérés annál kisebb, minél kisebb hányada a mintanagyság a populáció méretének. Ha a populáció nagy a mintához képest, akkor ugyanazon személy kétszeri mintába kerülésének a valószínűsége kicsi, és ezért a visszatevéses és visszatevés nélküli mintavétel közötti különbség is kicsi. Egy olyan közvélemény-kutatásban, ahol egy többmilliós népességet egy néhány ezres minta alapján vizsgálunk, a kétféle mintavétel közötti különbség elhanyagolható, ezért a továbbiakban ezzel nem is foglalkozunk.

A minta elemszámának a növelése ténylegesen csökkenti a népességbeli érték és a megfelelő mintabeli érték várható eltérését. Ebben az értelemben a nagyobb minta jobb. Mindaddig, amíg az előző bekezdésben tett feltevés (hogy a mintanagyság kicsi a populáció nagyságához képest) igaz, a minta relatív nagysága (a mintaelemszám és a populáció nagyságának hányadosa) nem befolyásolja a mintából nyerhető becslés jóságát, ez csak a minta elemszámától függ. A 3.-7. táblázatok ezt a függést illusztrálják. Különböző mintanagyságokra és különböző valós értékekre mutatják meg azt, hogy különféle bizonyossággal mekkora eltérést várhatunk a becsült értékek és a valódi értékek között.

3. ábra

4. ábra

5. ábra

6. ábra

7. ábra

Ezekben a táblázatokban az látható, hogy különböző valós (tehát az egész népességre vonatkozó) értékeknél, 100, 500, 1000, 2000 és 3000 nagyságú minták esetén a mintából becsült érték várhatóan mekkora lesz. A táblázatok megadják azt, hogy 99%-os, 95%-os, 90%-os és 75%-os bizonyossággal a becsült értékek milyen intervallumokban helyezkednek el. Ha például a populációban az érték 20%, akkor egy 2000 nagyságú mintát használva, a mintából becsült érték 95%-os valószínűséggel 18,2% és 21,8% között lesz. Ez azt jelenti, hogy ha egy közvélemény-kutató cég működése során ugyanabból a népességből többször választ azonos véletlen módszerrel 2000 elemű mintát, akkor várhatóan húsz alkalom közül tizenkilencszer a becslése nem fog jobban eltérni a valódi 20%-tól, mint 1,8%. A 2000 elemű mintákra vonatkozó táblázat azt is mutatja, hogy a mintából becsült érték 99%-os valószínűséggel, azaz várhatóan 100 eset közül 99-szer, 17,7% és 22,3% között lesz, ha a valódi érték 20%. Azonos mintanagyságon belül az 50%-hoz közelebbi értékeket valamivel kisebb pontossággal lehet eltalálni, mint az attól távolabb levőket.

A mintanagyság növelésével a becslés várható pontossága nő. Egy 3000 főt tartalmazó minta esetén, akármi is a populációban érvényes arány, ezt húsz esetből tizenkilencben kevesebb, mint két százalékpontnyi hibával megtudhatjuk, sőt 99%-os biztonsággal a hiba kevesebb lesz, mint két és fél százalékpont. (Bár a mindennapi beszédben ez nincs feltétlenül így, a százalék és százalékpont kifejezések eltérő jelentésűek. Ha a valódi arány 50% és becslésünk hibája nem több, mint 10 százalék, akkor a becsült érték 45% és 55 százalék között lesz. A 10 százalékpontnyi hiba pedig 40% és 60% közötti becslést jelent. A százalékpont tehát az egész bizonyos százalékát jelenti anélkül, hogy erre külön utalnánk, a százalék pedig egy másik, az adott szövegkörnyezetben definiálandó, másik mennyiség százalékát.)

A táblázatok alkalmasak arra is, hogy bennük nem szereplő értékekre vonjunk le következtetéseket. Például, ha a valódi érték 23% és a mintanagyság 2000, akkor a megfelelő táblázatból kiolvashatjuk, hogy 20%-os arány esetén a 95%-os biztonsághoz legfeljebb 1,8%-os hiba tartozik, 30%-os arány esetén pedig ugyanehhez a megbízhatósághoz legfeljebb 2%-os hiba. Ezért 23%-os valódi arányhoz és 95%-os megbízhatósághoz a hiba nagyjából 1,9%-os lehet. Hasonló, úgynevezett interpoláció végezhető, ha itt nem bemutatott mintanagyság esetére akarunk hibahatárokat megállapítani.

A táblázatok további felhasználási lehetősége az, ha egy közvélemény-kutatásból rendelkezésünkre áll egy becsült érték, és arra vagyunk kíváncsiak, hogy a népességre jellemző értékről mit mondhatunk ennek alapján. Ebben az esetben megnézzük, hogy ha a becsült érték lenne a valódi érték, akkor adott biztonsággal, például 95% valószínűséggel, mekkora lenne a hiba. Ha a mintanagyság 2000 és a becsült érték a minta alapján 20%, akkor jó közelítéssel azt mondhatjuk, hogy a táblázatból kiolvasható intervallum, (18,2%-21,8%) olyan eljárással keletkezett, amely az esetek 95%-ában tartalmazza a valódi arányt. Ezt úgy fejezzük ki, hogy az ehhez az intervallumhoz tartozó megbízhatósági szint 95%. A megbízhatósági szint és a valószínűség rokon, de határozottan eltérő fogalmak. Értelmetlen lenne az az állítás, hogy a (18,2%-21,8%) intervallum 95%-os valószínűséggel tartalmazza a valódi értéket. A valószínűség fogalmát csak véletlen jelenségekkel kapcsolatban használhatjuk. A valódi érték nem véletlen mennyiség, hanem rögzített, bár elöttünk ismeretlen. A szóban forgó intervallum szintén nem véletlen miután a 20%-ot már megfigyeltük. Ennek megfigyelése előtt az intervallum előre pontosan nem meghatározható helyzetű, tehát véletlen, hiszen csak annyit tudunk, hogy az intervallum végpontjai a mintából származó becslés értékénél 1,8 százalékponttal kisebb, illetve annyival nagyobb számok lesznek. A megfigyelés után azonban a véletlen jelleg elvész. Ezért az a helyes állítás, hogy a 18,2%-21,8% intervallum egy olyan eljárás eredménye, amely az esetek 95%-ban olyan intervallumot ad, amely tartalmazza a valódi értéket.

A közvélemény-kutatások eredményeinek publikálásakor a fenti táblázatokban közölt információkra általában az úgynevezett hibahatár megadásával utalnak. Ennek szokásos formája az, hogy a hibahatár például n3%. Néha azt közlik, hogy a hibahatár a vizsgált jellemző valódi értékétől függően legfeljebb három százalékpont. A megadott hibahatár jelentése az, hogy ha egy bizonyos tulajdonság a vizsgált népesség felére volna jellemző, akkor ezt az adott mintanagyság mellett a vizsgálatok 68%-ában ekkora pontossággal meg tudnánk becsülni, tehát a becslésünk 47% és 53% között lenne. Ennek az állításnak a pontos jelentését a 2. fejezetben írtuk le. Mint a táblázatokból láttuk, azonos valószínűségi szint mellett az 50% eltalálásához kapcsolódó hiba a legnagyobb, és erre utal az a kitétel, hogy a hibahatár legfeljebb az adott érték. Azt is látjuk a táblázatokból, hogy a rögzített valószínűséghez tartozó hibahatár csak a mintanagyságtól függ. A 8. táblázat az ebben az értelemben vett maximális hibahatárt adja meg különböző mintanagyságokra. Ne feledjük, ez csak annyit jelent, hogy az esetek kétharmadában várhatóan ennél nem nagyobb az eltérés a valódi és a becsült érték között.

8. ábra

Az ebben a táblázatban közölt hibahatárok a „hibahatárnál nem nagyobb hiba az esetek kétharmadában” szabályon túlmenően, még egyéb megbízhatósági állításokat is lehetővé tesznek. A hibahatár kétszeresénél nem lesz nagyobb a hiba a minták 95%-ában, és a hibahatár háromszorosánál nem lesz nagyobb a hiba a minták 99,7%-ában.

A mintanagyság szerepének megítélésében a 68%, 95%, 99,7% szabály ismerete a legfontosabb. Amint ezt a 2. fejezetben leírtuk, ezek a leglényegesebb mutatószámok arra nézve, hogy egy mintától milyen pontosságú becsléseket várhatunk. Az összes lehetséges adott elemszámú mintáknak ekkora hányada ad rendre a valódi értéktől 1, 2, illetve 3 hibahatárnál kevésbé eltérő becslést. Természetesen a legfeljebb 1 hibahatárnyit eltérő minták egyúttal 2 hibahatárnyinál is kisebb eltérésűek, és a legfeljebb 2 hibahatárnyi hibájú minták szerepelnek a 3 hibahatárnál kisebb eltérésű minták között, így kapjuk az egyre növekvő hányadokat. A hibahatár a mintanagyságtól függ. Amint azt a fenti táblázat mutatja, 2500 elemszámú mintáknál a hibahatár éppen egy százalékpont; ennél kisebb létszámú mintáknál ennél nagyobb a hibahatár; ennél nagyobb elemszámú minták esetén pedig ennél kisebb. Ha tehát a mintanagyság legalább 2500, akkor a minták 95%-a, azaz húsz minta közül várhatóan tizenkilenc, a valóságos értéktől nem fog két százalékpontnál jobban eltérni. Ha a mintanagyság 1000, akkor húsz mintából tizenkilenc várhatóan annyira jó, hogy a becsült érték és a valódi érték eltérése nem több, mint 3,2%.

A fenti táblázatokban közölt értékek a becslés hibájának csak egyetlen komponensére vonatkoznak. Ez a komponens abból származik, hogy véletlen mintavételt alkalmaztunk. Ha a vizsgált populáció mérete sokkal nagyobb, mint a mintanagyság, akkor a véletlen hiba nagyságát kiolvashatjuk a táblázatokból. Az előrejelzések hibájának másik két összetevője abból származik, hogy egyrészt a mintaválasztás gyakorlati módja (lásd a következő fejezetet) eltér az itt feltételezett ideálistól, másrészt pedig a megkérdezettek közül nem mindenkinek van határozott álláspontja a vizsgált kérdésről vagy nem is válaszol. Azt a pontatlanságot, amelyet e két tényező okoz, nem lehet könnyen számszerűsíteni, de nehéz elképzelni, hogy egy-két százaléknál kisebb lenne. Ezért a közvélemény-kutatások mintáját nem érdemes túl nagyra választani, a 3000-nél nagyobb mintanagyság semmiképpen sem tűnik indokoltnak: a gyakorlati mintavételből és a nemválaszolókból valamint a bizonytalankodókból származó hibák ekkor már dominánssá válnak. Ha a vizsgálatra annyi pénz is rendelkezésre áll, hogy akár négy- vagy ötezer embert is meg lehetne kérdezni, akkor jobb ennek a pénznek egy részét a válaszhiány csökkentésére és a valódi véleménnyel rendelkezőknek az elkülönítésére fordítani. Így még egy viszonylag kisebb mintán alapuló közvélemény-kutatás is megbízhatóbb lehet.

Abban az esetben, ha nem csak egyszerűen százalékos arányokat (például különböző pártok szavazóinak arányát) akarjuk megbecsülni a minta alapján, hanem bizonyos szempontok közötti összefüggésekre is kíváncsiak vagyunk, akkor a fent javasoltnál nagyobb létszámú minták is szükségesek lehetnek. Ennek a kérdésnek a részletes tárgyalásával nem foglalkozunk.

Összefoglalás

Egyszerű véletlen mintavétel esetén már néhány ezres minta is nagy valószínűséggel egy-két százalékos pontossággal teszi lehetővé a népesség megoszlásának becslését. A más okból származó hibák ennél feltehetőleg nagyobbak.

Ne költsük pénzünket öt- vagy tízezres mintanagyságú közvélemény-kutatásra, mert a becslések pontatlansága sokkal nagyobb lesz, mint amit a mintanagyságra alapozó képletek alapján várnánk.

Ha a deklarált mintanagyságnak nem felel meg a közölt hibahatár, akkor valószínűleg sok a válaszhiány, ami erősen csökkenti az eredmények általánosíthatóságát


Társadalmi Riport | Társadalompolitikai Tanulmányok | Műhelytanulmányok, gyorsjelentések | Szerepváltozások | Könyvek munkatársainktól | Munkatársak publikációi | Kiadványrendelés