Disseny de la mostra

Per raons d'economia en temps i diners, normalment no es treballa amb totes les unitats o individus de la població que es vol estudiar, sinó amb mostres extretes d'aquesta població . El mostratge és el procés d'escollir mostres representatives per a un estudi estadístic: els elements seleccionats en la mostra han de ser suficientment representatius de la població total per garantir que els resultats obtinguts sobre ella siguin generalitzables i inferibles a tota la població, per això és molt important realitzar una correcta extracció de la mostra.

Així doncs, el mostratge es basa en la probabilitat de que un conjunt d'elements puguin estar distribuïts de forma que proporcioni una representació de la població de la que s'han extret, i en la probabilitat d'estimar valors de variables mesurables de la població amb un cert nivell d'error degut al mètode de mostreig.

Els passos per seleccionar una mostra són: (1)

1. Definició de la població (els elements, unitats de mostratge, abast i temps).
2. Identificació del marc mostral del qual se seleccionarà la mostra. El marc mostral ha de ser el més complet possible, ja que la mostra escollida serà representativa de la població inclosa en el marc mostral. Per això, el marc mostral ha d'estar actualitzat (per tal de que contingui als membres reals de la població que representa), ha d'evitar les duplicitats (cada component de la població ha d'estar igualment representat) i no ha d'incloure unitats que no corresponguin a la població que s'analitza.
3. Decisió sobre la mida de la mostra (determinar el número d'elements que s'inclouran a la mostra).
4. Selecció d'un procediment específic mitjançant el qual es determinarà la mostra (decidir quins elements de la població s'inclouran a la mostra).
5. Selecció física de la mostra segons el procediment escollit.

Població o univers: és el conjunt d'elements sobre els que es vol estudiar un cert fenomen i amb alguna característica comú observable.

Mostra : és un subconjunt d'elements de la població que es vol estudiar.

Element mostral o individu: és cada una de les unitats bàsiques sobre les que es vol obtenir informació.

Unitat mostral : és la unitat bàsica que està disponible per ser seleccionada en alguna fase del mostratge. Conté els elements de la població que poden formar part de la mostra.

Abast : és la regió geogràfica objecte d'estudi.

Temps: és el període temporal de l'estudi que, habitualment, coincideix amb el de recollida de la mostra.

Marc mostral: és la llista que conté tots els elements de la població.

Mida de la mostra

Per decidir la mida de la mostra cal tenir en compte el temps i els recursos (econòmics, materials i humans) disponibles, la modalitat de mostreig triada (en general els dissenys mostrals no probabilístics requereixen una mida de la mostra inferior als dissenys probabilístics) i les tècniques que es vulguin aplicar.

Un cop seleccionat el mètode de mostratge es procedeix al càlcul de la mida de la mostra que depèn del marge d'error que estem disposats a assumir, del nivell de confiança triat (probabilitat de que l'estimació s'ajusti a la realitat), de la mida de la població i de la seva variància .

La fórmula per calcular la mida d'una mostra (n) per una població infinita (de més de 100.000 unitats) i per una mostra aleatòria simple o sistemàtica és:

01

Z són les unitats de desviació típica corresponents als nivell de confiança escollit.
S2 és el valor de la variància poblacional.
E és l'error màxim permès.

Una població molt heterogènia (major variància) necessitarà una mida mostral més gran perquè la varietat dels seus components estiguin representats en la mostra i quan augmenta la mida mostral disminueix el marge d'error (relació negativa entre l'error i la mida mostral).

Quan es desconeix el valor de la variància poblacional s'aplica el supòsit més desfavorable: el producte de la probabilitat P (aparició d'un succés) i la probabilitat de Q (no ocurrència del succés) com a equivalent de la variància poblacional (màxim error de mostratge quan P=Q=0,50). Aquest supòsit comporta una mida mostral superior al corresponent si es coneixen els valors reals de les proporcions en la població:

02

Si es tracta d'una població finita (de 100.000 unitats o menor) s'introdueix un factor de correcció en la fórmula que incorpora el valor de la mida de la població (N):

03

si es desconeix la variància poblacional

En mostres aleatòries estratificades i per conglomerats s'introdueixen altres variacions.

Error mostral i nivell de confiança

L'error mostral és degut a la divergència entre els valors obtinguts de la mostra (estadístics) i els valors corresponents a la població (paràmetres), i es pot calcular si es tracta de mostres aleatòries (mostreig probabilístic).

L'error mostral depèn de la mida de la mostra (disminueix l'error a mesura que augmenta la mida de la mostra), de la variància poblacional (en poblacions amb una variància elevada augmenta l'error mostral, mentre que en poblacions homogènies disminueix l'error) i del nivell de confiança (quan augmenta el nivell de confiança disminueix l'error). L'error mostral també depèn del tipus de mostreig.

Per calcular l'error mostral s'utilitza l'error típic, que mesura la desviació dels estadístics de la mostra al voltant dels paràmetres de la població (es la desviació típica de la distribució mostral de l'estadístic que estima el paràmetre poblacional).

Les fórmules per calcular l'error típic per una mostra aleatòria simple o sistemàtica són:

Error típic de la mitjana

04 Univers infinit (>100.000 unitats)

05 Univers finit (≤ 100.000 unitats)

Error típic d'una proporció

06 Univers infinit (>100.000 unitats)

07 Univers finit (≤ 100.000 unitats)

Per calcular l'error mostral i els intervals de confiança, es multiplica l'error típic pel nivell de confiança triat.

Els nivells de confiança que s'utilitzen en investigació social corresponen a les àrees sota la corba normal acotades pels valors de la desviació típica:

Nivell de confiança (%)  Valor de z 
99.73 3,00
99 2,58
95.45 2,00
95 1,96
90 1,64
68.27 1,00

Això vol dir que entre ±1unitat de desviació típica la probabilitat d'encertar l'estimació a partir de les dades mostrals és del 68,3%, entre ±2 unitats de desviació típica hi ha un 95,5% de probabilitat, i entre ±3 unitats hi ha un 99,7% de probabilitat.

Procediments de mostratge (2)

Es poden diferenciar dues menes de mostratge:

  • Probabilístic. Es basa en l'aleatorització en la selecció de la mostra, de manera que tots els elements de la població tenen una probabilitat igual i coneguda de ser seleccionats per a la mostra. La selecció es fa amb regles de decisió matemàtiques i cal disposar d'un marc mostral que permeti sortejar l'aparició dels elements a la mostra. L'avantatge dels mètodes de mostratge probabilístic és que tenen una base teòrica en la teoria de mostres i l'estadística matemàtica, a partir de les quals es poden calcular el grau en el que el valor de la mostra por diferir del valor de la població d'interès ( error mostral ). L'inconvenient principal d'aquests mètodes és el seu cost, i que cal disposar d'un marc mostral acurat.
  • No probabilístic . El procés de selecció dels elements de la mostra és subjectiu, ja que depèn del criteri de l'investigador, de manera que no es pot establir a priori la probabilitat de selecció de cada element particular de la població, no es pot calcular l'error mostral i no se sap si els valors estimats calculats amb la mostra són exactes. Per aplicar aquests mètodes no es necessita disposar d'un marc mostral i el cost i les dificultats de disseny són més reduïts que amb els mètodes probabilístics, però es poden produir errors difícils d'acotar i que no sempre s'eliminen augmentant la mida de la mostra.

Mètodes probabilístics o aleatoris

  • Mostratge aleatori simple El mostratge aleatori simple s'utilitza quan els elements de la població són homogenis respecte a la característica a estudiar, és a dir, quan no es coneixen a priori quins elements de la població tindran valors alts o petits.
    La característica d'aquest mostratge és que totes les unitats tenen en un moment donat la mateixa probabilitat de passar a formar part de la mostra. Cal tenir un llistat de la població (marc mostral), i pot fer-se amb reemplaçament o sense.
    En el mostratge aleatori simple amb reemplaçament totes les unitats de la població tenen la mateixa probabilitat de ser seleccionades per formar part de la mostra. Aquesta probabilitat no varia a mida que s'efectua el mostratge, ja que un individu pot, teòricament, ser seleccionat més d'una vegada. En el mostratge aleatori simple sense reemplaçament, si la població és finita, la probabilitat que s'esculli una unitat és la mateixa per a totes les unitats que resten en cada extracció i depèn de les que s'han escollit anteriorment per formar part de la mostra.
    Per seleccionar una mostra per aquest mètode s'acostumen a utilitzar taules de números aleatoris.
  • Mostratge aleatori sistemàtic: En aquest cas, només es tria la primera unitat de la mostra a l'atzar, mitjançant una taula de números aleatoris, per sorteig o un altre procediment, triant un número inferior al coeficient d'elevació (N/n). Per obtenir els restants elements de la mostra se sumen successivament el coeficient d'elevació al primer número triat aleatòriament, fins completar la mida mostral.
  • Mostratge aleatori estratificat : Quan es disposa d'informació sobre la població que influeix en la característica que s'estudia, convé considerar-la per seleccionar la mostra. Com que interessa que la mostra tingui una composició anàloga a la població, es divideix la població en classes o estrats homogenis i en de cadascun d'ells es fa un mostratge aleatori simple.
    Per assolir més precisió en l'estimació mostral per una part cal que les diferències entre els estrats sigui màximes i dins de cada estrat mínimes, i per una altra part les variables d'estratificació han d'estar relacionades amb els objectius de la investigació. Les variables d'estratificació més utilitzades són les variables sexe i edat, i també altres com classe social, ocupació i nivell d'instrucció. També pot estratificar-se per àmbit territorial i tipus o mida d'hàbitat. 
    Per garantir una presencia adequada de cada estrat la mostra s'assigna un número o quota de membres a cada estrat (afixació). Aquesta distribució es pot fer assignant la mateixa mida a cada estrat (afixació simple), distribuint la mostra proporcionalment al pes relatiu de cada estrat en el conjunt de la població (afixació proporcional) o proporcionalment a la variabilitat o heterogeneïtat de l'estrat respecte la variable considerada (afixació òptima).
  • Mostratge per conglomerats: En aquest cas, la unitat de mostratge és un grup amb molts elements que s'anomenen conglomerats. Es divideix la població en conglomerats i s'extreu una mostra aleatòria de conglomerats, seleccionant com unitats mostrals totes les unitats d'una mostra de conglomerats. En aquest mostratge cal que cada conglomerat estigui constituït per unitats elementals heterogènies dins del grup perquè l'error mostral disminueixi (cada conglomerat constitueix una representació ajustada de la varietat de components de l'univers); en cas contrari l'error pot augmentar.
    Quan els conglomerats corresponen a àrees o zones geogràfiques ben definides s'anomena mostratge per àrees.
  • Mostratge per etapes o polietàpic: El sorteig es fa en vàries etapes: primer s'extreu un cert nombre de conglomerats, es fa una nova selecció de conglomerats dins de cadascun d'ells i així successivament. La unitat mostral final no són els conglomerats sinó subdivisions d'aquests.

Mètodes no probabilístics

  • Mostratge estratègic o de conveniència: Es tracta d'un mostratge en el que les unitats mostrals es trien segons la conveniència (les que facilitin la seva mesura o les que siguin més accessibles, com per exemple sol·licitar la opinió de persones que transiten per un lloc concret, utilitzar un grup proper a l'investigador per a fer una enquesta o fer entrevistes a gent del carrer).
    Aquest procés redueix els costos del mostratge, però la mostra escollida no sol ser massa representativa i per tant les estimacions dels paràmetres poden ser diferents dels seus valors poblacionals reals. En aquest cas no és possible mesurar la precisió de les estimacions o acotar l'error comès.
  • Mostratge per criteri: L'investigador determina els elements que s'inclouran en l'estudi en base al seu criteri, triant els individus que creu que són més representatius. Si el criteri és bo, les mostres seran més representatives que en el mostratge per conveniència, però tampoc es pot acotar l'error mostral o mesurar la precisió.
    Mostres compostes d'unitats-tipus: La població estudiada es descomposa en grups homogenis i s'agafa una única unitat tipus dins de cada grup, que s'analitza en profunditat.
  • Mostratge per quotes: En aquest cas, es tracta de reproduir, a escala, la població en la mostra, segmentant la població en grups a partir de variables sociodemogràfiques relacionades amb l'objectiu de la investigació. Així, es fixen unes determinades proporcions o quotes que corresponen a unitats d'unes determinades variables de control (generalment de les variables sexe i edat), escollint les unitats de forma que hi apareguin els percentatges fixats de cada característica o grup específic de població.
    Aquest mètode és similar al mostratge aleatori estratificat, on també es divideix la població en estrats i s'agafa un nombre d'individus d'acord amb el pes de cada estrat en la població, però, en el mostratge aleatori estratificat s'agafen els individus a l'atzar dins de cada estrat, mentre que aquí es deixa llibertat a l'entrevistador per triar les unitats finals, és a dir, es poden escollir per conveniència. Això provoca que la mostra final pot no ser representativa de la població, i per evitar aquests biaixos i errors se sol complementar amb el mostratge per rutes aleatòries.
  • Mostratge per rutes aleatòries: Cada entrevistador segueix un itinerari aleatori en la selecció de la mostra: segueix una ruta definida que el porta on ha de realitzar cada entrevista. Normalment s'utilitza en combinació amb el mostratge per quotes.
  • Mostratge de “bola de neu”: En aquesta varietat de mostratge, les unitats mostrals es van escollint successivament a partir de les referències aportades per les persones que ja han estat incloses en la mostra. Si la població no és nombrosa o està molt especialitzada, es facilita molt la selecció dels individus en la mostra. És un bon mètode per estudis exploratoris i quan s'entrevisten experts o poblacions marginals.

Notes

1.Carmona, F.; Sánchez, A.: Estadística Bàsica. Sèrie de Quaderns Docents del Departament d'Estadística, Núm. 11. Universitat De Barcelona, 31 d'octubre de 2000.

2.Carmona, F.; Sánchez, A. (2000).