Poboación estatística
En estatística, unha poboación é un conxunto de elementos ou eventos similares que son de interese para algunha pregunta ou experiemento.[1][2] Unha poboación estatística pode ser un grupo de obxectos existentes (por exemplo, o conxunto de todas as estrelas dentro da Vía Láctea) ou ficticios, formando neste caso un conxunto potencialmente infinito de obxectos concibidos como a xeneralización dunha experiencia (por exemplo, o conxunto de todas as posibles mans nun xogo de póker).[3] Un obxectivo común na análise estatística é o de producir información a partir algunha poboación elixida con anterioridade.
Na inferencia estatística, trabállase sobre un subconxunto da poboación (unha mostra estatística) para representar á poboación no seu conxunto nunha análise estatística. A relación entre o tamaño desta mostra e o tamaño da poboación denomínase fracción de mostraxe. Entón é posible estimar os parámetros da poboación empregando as estatísticas de mostraxe axeitadas.[4]
Por exemplo, consideramos un estudo sobre o peso de 1000 estudantes nun ximnasio. Digamos que se elixen 50 individuos e se anotan os seus respectivos pesos. A variable aleatoria a observar é o "peso". A poboación está formada polos 1000 estudantes e a mostra está formada polos 50 estudantes cuxos pesos foron medidos. O que se espera é que esta mostra, se se escolle adecuadamente, teña características estatísticas similares (chamadas parámetros) ás da poboación de estudo.
Historia e desenvolvemento do concepto
[editar | editar a fonte]O desenvolvemento do concepto de poboación estatística xorde a comezos do século XVIII. Neste momento histórico estábanse a establecer as bases da estatística moderna por matemáticos como John Graunt, que estudou datos demográficos, e Thomas Bayes,[5] cuxo traballo na teoría da probabilidade proporcionou un marco para entender o comportamento das poboacións.[6]
A formalización das poboacións estatísticas como un elemento chave da inferencia estatística xorde no século XIX co desenvolvemento da teoría da probabilidade por parte de figuras como Pierre-Simon Laplace[7] e Carl Friedrich Gauss.[8] A introdución da teoría da mostraxe, particularmente a través do traballo de Ronald A. Fisher e Jerzy Neyman, revolucionou a forma na que os investigadores abordaron os datos poboacionais na estimación.
No século XX, o crecente campo da mostraxe por enquisas e a análise de datos refinou aínda máis o concepto de poboacións estatísticas. A chegada de ferramentas computacionais permitiu a simulación de poboacións infinitas e estratexias de mostraxe máis complexas, ampliando a aplicabilidade dos estudos baseados en poboacións a diversos campos, incluíndo a economía, a medicina e as ciencias sociais.
Na actualidade, o concepto de poboación estatística segue sendo fundamental na investigación, moldeando metodoloxías para a mostraxe, a proba de hipóteses e a estimación en diversas disciplinas. A idea evolucionou da man dos avances tecnolóxicos e teóricos, ofrecendo tanto perspectivas prácticas como teóricas sobre como se comportan as poboacións e como podemos inferir as súas propiedades de maneira precisa.
Tipos de poboacións estatísticas
[editar | editar a fonte]
Unha poboación estatística refírese ao conxunto completo de individuos, elementos ou puntos de datos que comparten unha característica común e son o obxecto dunha análise estatística. É o grupo completo do cal se pode extraer unha mostra e ao cal se lle realizan inferencias estatísticas. O concepto de poboación estatística é central nos campos da estatística, a probabilidade e a ciencia de datos, xa que forma a base para entender e estimar as propiedades de grupos máis grandes a partir da análise de subconxuntos máis pequenos.[9]
As poboacións estatísticas poden clasificarse en varios tipos segundo as súas características:
- Unha poboación finita é un conxunto cun número limitade de elementos. É a forma máis directa dunha poboación, a miúdo vista en estudos onde o número de elementos ou individuos está fixo, como a poboación dunha cidade específica ou a produción total dun produto industrial durante un ano.[10]
- Unha poboación infinita refírese a unha poboación teórica ou conceptual cun número ilimitado de elementos. Na práctica, estas poboacións son difíciles de observar directamente, pero son útiles na teoría estatística e na modelaxe, como a poboación de todos os resultados posibles dun proceso aleatorio ou as posibles tiradas dun dado.[10]
Na investigación, distinguir entre poboacións finitas e infinitas axuda a determinar os métodos e fórmulas empregados para os cálculos do tamaño da mostra e as estimacións da varianza.[10] Para as poboacións finitas, a mostraxe sen substitución pode alterar as probabilidades, mentres que nas poboacións infinitas estes efectos son insignificantes.[11]
A poboación obxectivo refírese ao grupo de interese nun estudo, mentres que a poboación de mostraxe é o subconxunto da poboación obxectivo que pode ser observado ou medido de maneira realista. As discrepancias entre estas poboacións poden introducir nesgos nas análises estatísticas.[12]
Unha poboación homoxénea consiste en elementos similares, onde a varianza entre eles é pequena, mentres que unha poboación heteroxénea contén elementos diversos con diferenzas substanciais.[12] Esta última xeralmente require técnicas de mostraxe máis complexas para asegurar unha representación precisa.
Media
[editar | editar a fonte]
A media poboacional, o valor esperado da poboación, é unha medida de tendencia central ben dunha distribución de probabilidade ou dunha variable aleatoria caracterizada pola distribución.[13] Nunha distribución de probabilidade discreta dunha variable aleatoria , a medida é igual á suma sobre cada valor posible ponderada pola probabilidade dese valor, é dicir, calcúlase tomando o produto de cada posible valor
de e a súa probabilidade , e logo sumando todos estes produtos, obtendo[14][15]
Unha fórmula análoga aplica no caso de considerar unha distribución de probabilidade continua. Non toda distribución de probabilidade ten unha media definida (véxase a distribución de Cauchy como exemplo). Ademais, a media pode ser infinita para algunhas distribucións.
Para unha poboación finita, a media poboacional dunha propiedade é igual á media aritmética dunha propiedade dada, considerando cada membro da poboación.[16] Por exemplo, a media poboación dunha altura é igual á suma das alturas de cada individuo dividida polo número total de individuos. A media mostral pode diferir da media poboacional, especialmente no case de mostras pequenas. A lei dos grandes números establece que canto maior sexa o tamaño da mostra, máis probable será que a media da mostra se achegue á media da poboación.[17]
Subpoboación
[editar | editar a fonte]
Un subconxunto dunha poboación que comparte unha ou máis propiedades adicionais denomínase subpoboación.[18] Por exemplo, se a poboación é toda exipcia, unha subpoboación son todos os homes exipcios; se a poboación son todas as farmacias do mundo, unha subpoboación son todas as farmacias de Exipto. Pola contra, unha mostra é un subconxunto dunha poboación que non se elixe para compartir ningunha propiedade adicional.
As estatísticas descritivas poden producir resultados diferentes para diferentes subpoboacións.[19] Por exemplo, un medicamento en particular pode ter diferentes efectos en diferentes subpoboacións, e estes efectos poden ocultarse ou descartarse se ditas subpoboacións especiais non se identifican e examinan de forma illada.
De xeito similar, a miúdo pódense estimar parámetros con maior precisión se se separan subpoboacións: a distribución de alturas entre as persoas modélase mellor considerando a homes e mulleres como subpoboacións separadas, por exemplo.
As poboacións que constan de subpoboacións poden modelarse mediante modelos mixtos, que combinan as distribucións dentro das subpoboacións nunha distribución de poboación xeral.[20] Incluso se as subpoboacións están ben modeladas por modelos simples dados, a poboación xeral pode non axustarse correctamente a un modelo simple dado; un axuste deficiente pode ser evidencia da existencia de subpoboacións. Por exemplo, dadas dúas subpoboacións iguais, ambas distribuídas normalmente, se teñen a mesma desviación estándar, pero medias diferentes, a distribución xeral exhibirá unha baixa curtose en relación cunha única distribución normal: as medias das subpoboacións recaen sobre os "ombreiros" da distribución xeral.[21] Se están suficientemente separados, estes forman unha distribución bimodal; en caso contrario, simplemente teñen un "pico" ancho. Ademais, presentará sobredispresión en relación cunha única distribución normal coa varianza dada. Alternativamente, dadas dúas subpoboacións coa mesma media, pero diferentes desviacións estándar, a poboación xeral terá unha alta curtose, cun pico máis agudo e colas máis pesadas (en consecuencia, ombreiros menos profundos) que nunha soa distribución.[22]
Enquisa empregando estocástica
[editar | editar a fonte]Para describir, polo menos aproximadamente, poboacións que non se teñen rexistrado pro completo, empréganse métodos estocásticos,[23] en particular estatísticas matemáticas. A partir da recompilación de datos dunha mostra que se supón representativa da poboación, extráense conclusións sobre a poboación real que se busca. Na investigación empírica, isto denomínase, entre outras cousas, poboación obxectivo.
Por exemplo, na investigación electoral non se pregunta a toda a poboación elixible sobre as súas preferencias partidistas, senón que se recolecta unha mostra cuxas características (idade, xénero, lugar de residencia, etc.) reflictan as condicións que existen na poboación. Os datos recollidos a través de enquisas empregando unha mostra extrapólanse (ou elévanse) á poboación mediante métodos estatísticos e así producen un prognóstico electoral. Neste caso, a poboación defínese como a cantidade de persoas que votarán por un partido específico (identificador) nunha cita electoral concreta. Ademais, tamén se rexistra toda a poboación contando todos os votos emitidos despois da elección real. Neste exemplo queda claro que a descrición empírica das poboacións non sempre é independente da poboación real: a recompilación de prognósticos electorais por si soa pode influír no comportamento electoral e, polo tanto, considérase indesexable en eleccións democráticas. Evítase na medida do posible, por exemplo non publicando previsións electorais.[24]
A poboación obxectivo definida (por exemplo, todos os alemáns maiores de 18 anos) a miúdo non é idéntica á poboación real da que se extrae na mostra, por exemplo para unha enquisa electoral.[25] Isto débese a que algúns elementos da poboación teñen poucas (ou ningunha) posibilidades de sr incluídos na mostra que outros. Isto inclúe persoas en institucións (por exemplo, residencias de estudantes, prisións, cuarteis...), persoas móbiles como barqueiros de interior, pero tamén algunhas persoas sen fogar (cobertura insuficiente). Na práctica, a conclusión da mostra á poboación obxectivo vese influenciada adicionalmente pola falta de resposta (tamén coñecido como abandono). Refírese á falta de resposta a unha enquisa por parte de elementos da poboación que caen dentro da mostra.
Notas
[editar | editar a fonte]- ↑ Feller, William (1968). An introduction to probability theory and its applications. Wiley series in probability and mathematical statistics (en inglés) (Terceira ed.). New York Chichester Brisbane: J. Wiley. ISBN 978-0-471-25708-0.
- ↑ "Population". Statistics.com: Data Science, Analytics & Statistics Courses (en inglés). Consultado o 2025-08-27.
- ↑ Weisstein, Eric W. "Population". mathworld.wolfram.com (en inglés). Consultado o 2025-08-27.
- ↑ Ross, Sheldon M. (2019). Introduction to probability models (Twelfth edition of 1972 original ed.). London: Academic Press. ISBN 978-0-12-814346-9. MR 3931305. doi:10.1016/C2017-0-01324-1.
- ↑ Bayes, Thomas (1763). An Essay towards Solving a Problem in the Doctrine of Chances (en inglés). J. Millar.
- ↑ Graunt, John (1977). Natural and Political Observations Mentioned in a Following Index, and Made Upon the Bills of Mortality (en inglés). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 11–20. ISBN 978-3-642-81048-0.
- ↑ Laplace, P. S. (1812). Théorie Analytique des Probabilités. Courcier.
- ↑ Gauss, Carl Friedrich (2011-05-19). Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium. Cambridge University Press. ISBN 978-1-108-14311-0.
- ↑ Casella, George; Berger, Roger L. (2002). Statistical inference (en inglés) (2nd ed ed.). Australia ; Pacific Grove, CA: Thomson Learning. ISBN 978-0-534-24312-8.
- ↑ 10,0 10,1 10,2 Cochran, William G.; Cochran, William G. (1977). Sampling techniques. Wiley series in probability and mathematical statistics (en inglés) (3. ed ed.). New York, NY: Wiley. ISBN 978-0-471-16240-7.
- ↑ Kass, Gordon V.; Mood, Alexander M.; Graybill, Franklin A.; Boes, Duane C. (1974-12). "Introduction to the Theory of Statistics, 3rd ed.". Journal of the American Statistical Association 69 (348): 1050. ISSN 0162-1459. doi:10.2307/2286195.
- ↑ 12,0 12,1 F. Z. H. (1935-12). "The Design of Experiments". Agronomy Journal 27 (12): 1004–1005. ISSN 0002-1962. doi:10.2134/agronj1935.00021962002700120010x.
- ↑ Feller, William (1968). An introduction to probability theory and its applications. Wiley series in probability and mathematical statistics (Third ed. rev ed.). New York Chichester Brisbane [etc.]: J. Wiley. ISBN 978-0-471-25708-0.
- ↑ Weisstein, Eric W. "Population Mean". mathworld.wolfram.com (en inglés). Consultado o 2020-08-21.
- ↑ Johnson, Robert; Kuby, Patricia (2007-02-23). Elementary Statistics, Enhanced Review Edition (en inglés). Cengage Learning. ISBN 978-0-495-38386-4.
- ↑ "OpenIntro". www.openintro.org (en inglés). Consultado o 2025-08-29.
- ↑ Lipschutz, Seymour (2000-04-11). Schaum's Outline of Probability, 2nd Edition (en inglés). McGraw Hill Professional. ISBN 978-0-07-138651-7.
- ↑ Shao, Jun (1999). Mathematical Statistics. Springer Texts in Statistics. New York, NY: Springer-Verlag New York, Inc. ISBN 978-0-387-98674-6.
- ↑ Jaynes, Edwin T. (2021). Bretthorst, G. L., ed. Probability theory: the logic of science (24th printing ed.). Cambridge: Cambridge Univ. Press. ISBN 978-0-521-59271-0.
- ↑ "Statistical estimator - Encyclopedia of Mathematics". encyclopediaofmath.org (en inglés). Consultado o 2025-08-29.
- ↑ Illowsky, Barbara; Dean, Susan, eds. (2015). Introductory Statistics. Rice University. ISBN 978-1-938168-20-8.
- ↑ Kosorok, Michael R. (2008). Introduction to Empirical Processes and Semiparametric Inference. Springer Series in Statistics. New York, NY: Springer New York. ISBN 978-0-387-74977-8.
- ↑ Stirzaker, David, ed. (2005). Stochastic processes and models. Oxford New York: Oxford University Press. ISBN 978-0-19-856814-8.
- ↑ "Surveys and polling". SciLine (en inglés). 2024-04-23. Consultado o 2025-08-29.
- ↑ Faulbaum, Frank (2000-06). "Rainer Schnell: Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklung und Ursachen". KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie 52 (2): 385–387. ISSN 0023-2653. doi:10.1007/s11577-000-0056-0.
Véxase tamén
[editar | editar a fonte]| Wikimedia Commons ten máis contidos multimedia na categoría: Poboación estatística |