Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

4.8.6 Hoe kan ik een p-waarde uitrekenen, als alleen de correlatie bekend is?

0 leuk 0 niet-leuks
Mijn redenatie (voor zo ver ik kom):

De p-waarde is de kans op dezelfde of extremere correlatie. De correlatie die ik gevonden heb is .076, extremer is dus groter dan .076 of kleiner dan -.076. De kans om een correlatie te vinden die net zo extreem is of extremer dan .076 puur door toeval, is het dubbele van .076, dus: .152

Ook weet ik:
R = 0 (populatiecorrelatie)
N = 110 (steekproefomvang)

Daarnaast moet de p-waarde > .05 zijn om het 'significant' te mogen noemen (neem ik aan dat daar in deze vraag vanuit gegaan wordt, ook al is hier kritiek op). Dan is het in ieder geval 95% betrouwbaar.

Mijn vraag:
De dingen die ik moet weten heb ik verzameld, maar nu kom ik niet tot de NHST. Het antwoord van 4.8.6 helpt mij ook niet verder. Daar staat bijv. dat de p-waarde .326 is en meteen uit de analyse van de vorige opdracht gehaald kan worden. Echter, ik zie daar nergens .326 staan of getallen waarmee ik op .326 kan uitkomen. Kunt u mij uitleggen hoe ik de NHST uit moet voeren?
gevraagd 2 januari in Inleiding Data Analyse (IDA) door Marill (430 punten)

1 Antwoord

0 leuk 0 niet-leuks

Het is andersom: je spreekt van 'significantie' als een $p$-waarde lager is dan .05, niet als hij hoger is dan .05!

Bovendien is de steekproefomvang 168, niet 110.

Je denkfout is dat je er vanuitgaat datde kans om een extremere correlatie te vinden, het dubbele is van die correlatie. Het is het dubbele van de kans op een hogere correlatie voor een positieve correlatie of de kans op een lagere correlatie voor een negatieve correlatie.

Het is handiger om er de steekproevenverdeling van de correlatie bij te pakken waar je bij nulhypothesetoetsing onder werkt. Dit is dus de steekproevenverdeling die is gebaseerd op de aanname dat er geen verband bestaat in de populatie, oftewel, wat de correlatie in de populatie gelijk is aan nul ($r = 0$). Die kun je in R op de volgende manier bekijken:

### Voor de verdeling van de correlatie
require('SuppDists');
### Voor het plotje
require('ggplot2');
### Dataset maken met correlaties en densities
dat <- data.frame(r=seq(-1, 1, .01));
dat$density <- dPearson(dat$r, rho=0, N=168);
### Plotje maken
ggplot(dat, aes(x=r, y=density)) +
  theme_bw() +
  geom_line(size=2) +
  geom_segment(aes(x=.076, xend=.076,
                   y=0, yend=dPearson(.076, N=168)),
               size=2, color='blue');

Die steekproevenverdeling ziet er als volgt uit:

De correlatie staat hier op de x-as. Bij .076 staat een blauw lijn: dit is de correlatie die we hebben gevonden.

Op de y-as staat de dichtheid van de verdeling. De oppervlakte van de verdeling is de kans op een gegeven uitkomst. We kunnen de oppervlakte rechts van onze gevonden correlatie van .076 lichtblauw maken:

ggplot(dat, aes(x=r, y=density)) +
    theme_bw() +
    geom_line(size=2) +
    geom_segment(aes(x=.076, xend=.076,
                     y=0, yend=dPearson(.076, N=168)),
                 size=2, color='blue') +
    geom_ribbon(data=dat[dat$r>.076,], aes(ymin=0, ymax=density),
                fill='blue', alpha=.25);

En dan krijgen we:

Die lichtblauwe oppervlakte is de helft van de $p$-waarde die bij onze $r$ (onze correlatie) hoort. Deze oppervlakte kunnen we rechtstreeks opvragen in R met de functie pPearson. Standaard geeft die functie de oppervlakte links van de waarde die we specificeren, dus we moeten even aangeven dat we de oppervlakte aan de bovenkant willen hebben met lower.tail=FALSE:

pPearson(.076, N=168, lower.tail = FALSE);

(Of we trekken de uitkomst van 1 af, dat komt op hetzelfde neer.)

We krijgen dan:

[1] 0.1637106

Als we dit verdubbelen krijgen we de $p$-waarde die bij onze correlatie hoort:

> 2 * pPearson(.076, N=168, lower.tail = FALSE);
[1] 0.3274211

Deze is praktisch identiek aan de $p$-waarde die wordt verkregen door SPSS en R als ze die berekenen via conversie naar de $t$-verdeling (die is gelijk aan 0.3262). Het kleine verschil is irrelevant (zie http://oupsy.nl/help/2676/hoe-nauwkeurig-moet-je-zijn).

De oppervlakte die overeenkomt met deze $p$-waarde is dit blauwe gebied:

ggplot(dat, aes(x=r, y=density)) +
    theme_bw() +
    geom_line(size=2) +
    geom_segment(aes(x=.076, xend=.076,
                     y=0, yend=dPearson(.076, N=168)),
                 size=2, color='blue') +
    geom_ribbon(data=dat[dat$r>= .076,], aes(ymin=0, ymax=density),
                fill='blue', alpha=.25) +
    geom_ribbon(data=dat[dat$r<= -.076,], aes(ymin=0, ymax=density),

                fill='blue', alpha=.25);

Nogmaals: in deze figuur staat de correlatie (r) op de x-as, en de dichtheid van de steekproevenverdeling (onder de nulhypothese, in dit geval) op de y-as!

beantwoord 2 januari door Gjalt-Jorn Peters (42,950 punten)
...