Statistik

Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.^[1] I arbetet används också element från kognition, psykologi, data- och systemvetenskap, numeriska beräkningar samt bidrag från andra ämnen som befattar sig med matematik, data och datorintensiva metoder.

Diagram över en normalfördelning med standardavvikelserna markerade. Strecket i mitten markerar medianen, som i det här fallet sammanfaller med medelvärdet.

Statistik över sidvisningar av en artikel på Wikipedia.

Resultatet, som också kallas statistik, presenteras ofta i numerisk form i absoluta tal, frekvenstal, proportionerade tal, medeltal, i tabeller med tidsserier eller med andra jämförelsetal och illustreras ofta även i diagram eller figurer ^[2]. Resultatet används dels för att visa hur något är befattat för tillfället, dels ibland som ett verktyg för att via induktion förutsäga framtida händelser. Statistik används inom många vetenskapliga discipliner, från naturvetenskap till humaniora, men även inom politik och affärsvärlden.

Etymologi

Ordet "statistik" kommer via engelskan ('statistics') och franskan ('statistique') från latinet ('statisticus'), alla med betydelsen 'statsman', 'politiker'. Den tyska varianten 'Statistik' introducerades av Gottfried Achenwall 1749, och beskrev analysen av data om staten. Ordet fick sin nuvarande betydelse under 1800-talet. Ordet är besläktat med status.^[3]

Historik

William Petty, målning av Jean-Victor Poulin.

Beroende på var man drar gränsen, med hänsyn till statistisk stringens, gjordes de tidigaste statistiska undersökningarna under 1600- eller 1700-talet. En av de första statistikerna var William Petty vars Down Survey från 1655-56 handlade om att uppskatta befolkningsstorleken på Irland, främst för att kunna administrera och beskatta den. Statistiken växte så småningom till att bli en egen vetenskaplig gren, jämte matematiken, under 1600- och 1700-talet, inte minst med draghjälp av sannolikhetsläran. 1741 kom Johann Peter Süssmilchs pionjärinsatser inom demografi och befolkningsstatistik där han bl.a. konstaterade att för varje tusen flickebarn föds det 1068 gossebarn. 1662 producerade John Graunt de första levnadstabellerna där han beräknade sannolikheten för att överleva till varje ålder.

Bredden på ämnet vidgades under slutet av 1700-talet och början på 1800-talet. Minstakvadratmetoden som beskrevs av Carl Friedrich Gauss 1794 var en viktig framgång för att bli ett användbart verktyg för affärsvärlden och politiken.

Sedan 1940-talet har datorer använts för att göra storskaliga beräkningar och använda metoder som tidigare varit opraktiska att göra för hand.

Statistik kontra sannolikhetsteori

För utvecklandet av den statistiska teorin spelar sannolikhetsteorin en central roll. Denna är den teoretiska grunden för statistiken och statistiska mått. Skillnaden mellan statistik och sannolikhetsteori är att sannolikhetsteorin behandlar sannolikheter för utfall av slumpförsök där försöken kan upprepas och de yttre omständigheterna kontrolleras, medan man inom statistiken behandlar datamaterial från experiment och observationsstudier, där försöken inte kan upprepas eller de yttre omständigheterna inte kontrolleras. Dock går det att med hjälp av statistiska modeller till viss mån korrigera för felkällor i mätningen. En annan metod är att använda sig av stickprov.

Metoder för att beräkna statistik

Ett vanligt mål i statistiska undersökningar är att avgöra kausalitet, det vill säga om det finns något samband mellan olika företeelser på så sätt att några företeelser orsakas av eller påverkas av andra. Framför allt är det värdefullt att kunna avgöra vilka faktorer som har hög påverkansgrad. Det finns två typer av kausalitetsstudier: undersökningar med hjälp av experiment och observationsundersökningar. I bägge studeras hur olika självständiga variabler påverkar utgången. Skillnaden ligger i hur undersökningen görs. Bägge metoderna kan vara mycket effektiva.

Idag finns det ytterst få statistiker som tror att det är möjligt att fastställa kausalitet på det vis som beskrivs inom de tillämpade vetenskaperna. Förklaringsmodellen har ersatts av den prediktiva modellen.

Undersökningar med hjälp av experiment

Undersökningar med hjälp av experiment går ut på att mäta ett system, förändra systemet och sedan göra om mätningen för att se om förändringen har påverkat utgången. Ett exempel är den berömda Hawthorne-studien, där man testade belysningens inverkan på effektiviteten i en arbetsmiljö. Forskarna mätte först effektiviteten i Western Electric Companys-fabriken vid Hawthorne. Därefter ändrade de belysningen och mätte ifall det påverkade effektiviteten. Det visade sig att effektiviteten ökade (i undersökningen). Senare har undersökningen kritiserats för att ha saknat en kontrollgrupp och dubbelblindhet. Numera syftar begreppet Hawthorne-effekt på att ett resultat påverkas av själva observationen. De som deltog i undersökningen blev inte mer effektiva på grund av ljuset, utan för att de observerades.

För att göra ett experiment:

planerar man först forskningen, inklusive bestämmer informationskällor, urvalsprocessen för populationen, och etiska hänsyn för den föreslagna forskningen och dess metod
därefter designar man experimentet, med fokus på modellen för systemet och interaktionen mellan självständiga och avhängiga variabler
sedan samlar man ihop observationerna för att se mönster genom att dölja detaljerna
varpå man samlar konsensus om vad observationerna säger om den del av verkligheten som man undersöker
och slutligen dokumenterar och presenterar man resultaten av undersökningen

Observationsundersökningar

Observationsundersökningar å andra sidan utgår inte från experiment. Här samlas data in och därefter undersöker man kopplingar mellan faktorer och resultat. Ett exempel är en undersökning av korrelationen mellan rökning och lungcancer. Sådana använder vanligen enkäter för att samla observationer och sedan utföra statistiska analyser. Man samlar då observationer både från rökare och icke-rökare och tittar sedan efter antalet lungcancerfall från båda grupperna.

Stickprov

Inom statistiken begagnar man sig i princip alltid av stickprov ur ändliga eller oändliga populationer eller matematiska fördelningar, och hur man från dessa stickprov kan beskriva eller dra slutsatser om populationens eller fördelningens beskaffenhet. Stickprovsteori är ett arbetsredskap som tillåter korrekta sannolikhetsbaserade uttalanden om en större population. När man tar fram statistiska modeller är det viktigt att kunna kvantifiera felet i skattningen, till exempel på grund av urval av populationen. Konfidensgrad är ett närliggande begrepp som uttrycker matematiskt vilken tilltro man kan ha till modellen.

Skalor för mått

Psykologen Stanley Smith Stevens utvecklade 1946 en teori om olika skalor för vetenskapliga studier. Alla data kan delas in i fyra grundläggande typer efter de egenskaper datat har och därmed efter hur man kan ange ett mått på det som mäts. Varje typ av data har sin egen typ av skala:

nominalskala
ordinalskala
intervallskala
kvotskala

I en nominalskala tilldelas det som mäts en kategori. Varje gång ett nytt resultat kommer in placeras det bland andra exakt likadana resultat eller i en ny kategori. Det resultat som förekommer flest gånger blir ett typvärde.

I en ordinalskala rangordnas saker i en i förväg bestämd ordning. I travlopp, till exempel, är det viktiga vilken häst som kommer först i mål, inte hästens löptid. Median och percentil är två viktiga begrepp här.

I en intervallskala kan det som mäts tilldelas ett mått som på ett relevant sätt kan jämföras med andra mått. Det är meningsfullt att prata om skillnaden mellan två mått. Ett exempel är Celsius-temperaturskalan, där varje måttenhet är 1/100 av skillnaden mellan smältpunkten och kokpunkten för vatten. Nollpunkten är arbiträr och därför blir proportioner mellan två siffror på skalan lika arbiträra. Här är medelvärde, standardavvikelse och korrelation viktiga begrepp.

Mått enligt en kvotskala har förutom intervallskalans egenskaper också ett givet startvärde (noll) och, ofta, en fast skala. Exempel är Kelvin-temperaturskalan och kroppslängden mätt i centimeter. Därmed blir det till exempel meningsfullt att säga att ett mått är dubbelt så stort som ett annat.

Viktiga områden inom statistik

Matematisk statistik

Detta avsnitt är en sammanfattning av Matematisk statistik.

Matematisk statistik är den rent matematiska delen av statistik, där sannolikhetsteori används för att beräkna variabler från statistiska data.

Statistik inom samhällsvetenskapen

Statistiska analysmetoder är en viktig del av de kvantitativa forskningsmetoder som tillämpas inom olika samhällsvetenskaper, såsom psykologi, sociologi, socialt arbete och ekonomi. Metodutveckling inom samhällsvetenskapliga ämnen har även bidragit till utvecklingen av statistiska analysmetoder. Några viktiga exempel på detta är de statistiska analysmetoder som inbegriper nätverksanalyser (som härrör från sociologin)^[4] och strukturella ekvationer (som härrör från psykologin)^[5]. Det finns idag företag som erbjuder statistiska tjänster som är riktade specifikt mot samhällsvetenskaplig forskning och samhällsvetenskapliga undersökningar^[6]^[7]. Det finns även forskningscentrum som är specifikt inriktade på utveckling av samhällsvetenskapliga statistiska analysmetoder^[8].

Felanvändning av statistik

Det finns en spridd uppfattning om att statistik ofta används på ett icke-neutralt sätt genom att hitta sätt att tolka datan för att passa avsändaren. Ett berömt citat tillskrivs Benjamin Disraeli: "Det finns tre typer av lögn: lögner, förbannade lögner och statistik".

Om undersökningar verkar motsäga varandra, kan allmänheten snart komma att misstro sådana undersökningar. En undersökning kanske tyder på att en given diet höjer blodtrycket, medan en annan tyder på att blodtrycket sjunker. Skillnaden kan dock bero på olikheter i hur experimentet utfördes, såsom skillnader i urvalsprocessen eller forskningsmetoden. Sådana är inte alltid lätta att förstå för lekmän, och media undviker i regel att rapportera om sådana subtiliteter.

Genom att välja eller välja bort (eller modifiera) en del i ett urval, kan resultaten manipuleras. Sådana manipulationer måste inte vara illvilliga eller för dolska syften: de kan också komma från omedveten bias hos forskaren.

Se även

Den här artikeln ingår i boken:
Matematik

Källor

^ Moses, Lincoln E. Think and Explain with statistics, s. 1 - 3. Addison-Wesley, 1986.
^ Vad är officiell statistik? En översyn av statistiksystemet och SCB, SOU 2012:83, kapitel 2
^ Svenska Akademiens ordbok: Statistik
^ Freeman, Linton C. (2004) (på engelska). The Development of Social Network Analysis: A Study in the Sociology of Science. Empirical Press. ISBN 978-1-59457-714-7. https://books.google.se/books/about/The_Development_of_Social_Network_Analys.html?id=VcxqQgAACAAJ&redir_esc=y. Läst 10 februari 2023
^ Jöreskog, Karl G.; Sörbom, Dag (1982). ”Recent Developments in Structural Equation Modeling”. Journal of Marketing Research 19 (4): sid. 404–416. doi:10.2307/3151714. ISSN 0022-2437. https://www.jstor.org/stable/3151714. Läst 10 februari 2023.
^ ”CenterStat by Curran-Bauer Analytics” (på amerikansk engelska). CenterStat. https://centerstat.org/. Läst 10 februari 2023.
^ ”Varför grundades KVANTILA? En kort bakgrund”. kvantitativmetod.info. Arkiverad från originalet den 10 februari 2023. https://web.archive.org/web/20230210220325/https://www.kvantitativmetod.info/om. Läst 10 februari 2023.
^ ”Institutet för analytisk sociologi (IAS)”. liu.se. https://liu.se/organisation/liu/iei/ias. Läst 10 februari 2023.

Externa länkar

[1] Moses, Lincoln E. Think and Explain with statistics, s. 1 - 3. Addison-Wesley, 1986.

[2] Vad är officiell statistik? En översyn av statistiksystemet och SCB, SOU 2012:83, kapitel 2

[3] Svenska Akademiens ordbok: Statistik

[4] Freeman, Linton C. (2004) (på engelska). The Development of Social Network Analysis: A Study in the Sociology of Science. Empirical Press. ISBN 978-1-59457-714-7. https://books.google.se/books/about/The_Development_of_Social_Network_Analys.html?id=VcxqQgAACAAJ&redir_esc=y. Läst 10 februari 2023

[5] Jöreskog, Karl G.; Sörbom, Dag (1982). ”Recent Developments in Structural Equation Modeling”. Journal of Marketing Research 19 (4): sid. 404–416. doi:10.2307/3151714. ISSN 0022-2437. https://www.jstor.org/stable/3151714. Läst 10 februari 2023.

[6] ”CenterStat by Curran-Bauer Analytics” (på amerikansk engelska). CenterStat. https://centerstat.org/. Läst 10 februari 2023.

[7] ”Varför grundades KVANTILA? En kort bakgrund”. kvantitativmetod.info. Arkiverad från originalet den 10 februari 2023. https://web.archive.org/web/20230210220325/https://www.kvantitativmetod.info/om. Läst 10 februari 2023.

[8] ”Institutet för analytisk sociologi (IAS)”. liu.se. https://liu.se/organisation/liu/iei/ias. Läst 10 februari 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]