Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Mijn opdracht 2.6.4 wijkt enorm af van de getoonde plaatjes. Hoe kom ik er achter wat ik fout deed?

1 leuk 0 niet-leuks
Mijn boxplots kloppen wel, mijn Q-enQ plots totaal niet en mijn histogrammen geven geen densityplot aan en lijken een beetje.

Verder krijg ik ook steeds een P-P plot en een detrended plot. Hoort dit en wat is een P-P-plot en een detrended plot?

Doe ik iets verkeerd en zo ja wat?

GET
  FILE='C:\Users\Petra Deij\Dropbox\Prive\2016 AAAA OU\Inleiding Data-Analyse\Statistiek_Angst.sav'.
DATASET NAME DataSet1 WINDOW=FRONT.
PPLOT
  /VARIABLES=Age Statken1 Statken2 Angst1 Angst2
  /NOLOG
  /NOSTANDARDIZE
  /TYPE=Q-Q
  /FRACTION=BLOM
  /TIES=MEAN
  /DIST=NORMAL.

[DataSet1] C:\Users\Petra Deij\Dropbox\Prive\2016 AAAA OU\Inleiding Data-Analyse\Statistiek_Angst.sav

Model Description        
Model Name        MOD_1
Series or Sequence    1    Leeftijd in jaren
    2    Kennis van statistiek voor de cursus
    3    Kennis van statistiek na de cursus
    4    Angst voor statistiek voor de cursus
    5    Angst voor statistiek na de cursus
Transformation        None
Non-Seasonal Differencing        0
Seasonal Differencing        0
Length of Seasonal Period        No periodicity
Standardization        Not applied
Distribution    Type    Normal
    Location    estimated
    Scale    estimated
Fractional Rank Estimation Method        Blom's
Rank Assigned to Ties        Mean rank of tied values
Applying the model specifications from MOD_1        

Case Processing Summary                        
        Leeftijd in jaren    Kennis van statistiek voor de cursus    Kennis van statistiek na de cursus    Angst voor statistiek voor de cursus    Angst voor statistiek na de cursus
Series or Sequence Length        168    168    168    168    168
Number of Missing Values in the Plot    User-Missing    0    0    0    0    0
    System-Missing    0    0    0    0    0
The cases are unweighted.                        

Estimated Distribution Parameters                        
        Leeftijd in jaren    Kennis van statistiek voor de cursus    Kennis van statistiek na de cursus    Angst voor statistiek voor de cursus    Angst voor statistiek na de cursus
Normal Distribution    Location    34,39    30,40    65,05    42,57    29,05
    Scale    6,029    6,937    9,761    12,476    9,335
The cases are unweighted.
gevraagd 31 december 2016 in Inleiding Data Analyse (IDA) door 851928612 (1,790 punten)
bewerkt 2 januari door 851928612

Kun je screenshots van de afwijkende plots opnemen? Voor Q-Q plots kun je overigens beter de instructies volgen (in het algemene 'Zelf Analyseren in de Praktijk' document):

PPLOT 
  /VARIABLES=thisIsTheNewVariableName 
  /TYPE=Q-Q.
Ik heb het inderdaad via het menu gedaan, dus dat niet meer doen helaas. geeft dat niet voldoende informatie voor de disclosure?

Het knippen en plakken lukt me niet,ik heb het nu op verschillende maniere geprobeerd. De bestanden zijn te groot en onleesbaar. Zal ik het je per e-mail sturen?

Je kunt screenshots maken - gebruik bijvoorbeeld Greenshot, zie http://getgreenshot.org/downloads/ - dat is sowieso een handig tooltje om voorhanden te hebben. Die screenshots kun je dan invoegen in je post (met het icoontje van het plaatje:

en dan 'upload to server':

bestand selecteren, uploaden, et voila).

Ik geloof dat ik er per reactie maar één toe kan voegen.Je krijgt er dus nu een aantal achter elkaar dan maar.

1 Antwoord

0 leuk 0 niet-leuks

Deze zijn eigenlijk hetzelfde. Dat wil zeggen, er zijn wat kleine verschillen:

  • De zogenaamde 'binning' verschilt van programma to programma. 'Binning' is de naam voor het opdelen van een intervalvariabele in categorieen zodat een histogram kan worden opgesteld. Hoe je dit doet kan dus op verschillende manieren: er is geen consensus over, en er bestaat geen 'beste manier'. Het maakt ook niet veel uit: het patroon dat je ziet is altijd hetzelfde, en dat geldt hier ook. De spitse top in Angst1 valt bijvoorbeeld in beide histogrammen op. Voor of een verdeling scheef of tweetoppig is geldt hetzelfde.
  • R geeft de densityplot van zowel de geobserveerde data als de normaalverdeling, en SPSS geeft alleen de normaalverdeling. Dit is handig om ze te vergelijken, maar niet noodzakelijk.
  • De assen in de Q-Q plots uit SPSS zijn omgedraaid ten opzichte van die in R. Dit maakt ook niet uit; je gebruikt de Q-Q plot immers om te bepalen of de stipjes ongeveer op de diagonale lijn liggen.
  • De Q-Q plot in R geeft ook het betrouwbaarheidsinterval rondom die diagonale lijn, die kan helpen om te bepalen of een stipje 'dicht genoeg' bij de diagonale lijn ligt. SPSS geeft die niet standaard (en kan die ook niet berekenen voor zover ik weet), maar dit is geen groot gemis. Grove afwijkingen detecteer je sowieso wel.
  • De boxplots zijn hetzelfde: tenminste, SPSS trekt horizontale lijnen bij het mimimum en maximum (dat wil zeggen, zonder de outliers), en R geeft de regelnummers in rood, maar verder zijn deze identiek.

Maar, het gegeven dat Statken2 bijvoorbeeld iets linksscheef is, haal je zowel uit de SPSS-plotjes als uit de R-plotjes. Bovendien zou je op basis van geen van beiden concluderen dat deze linksscheefheid een groot probleem is.

Behalve wat kleine verschillen tussen de softwarepakketten zijn de plotjes uit beide programma's dus juist bijna identiek.

Denk er aan: plotjes zijn, net als kwantitatieve indicatoren, instrumenten om, in dit geval, je data-integriteit te beoordelen. Dat zijn inherent subjectieve beslissingen, en zelfs voor de berekening van de indicatoren en de opstelling van de plotjes bestaat geen algemene consensus over de beste manier. Verschillende formules en methoden hebben elk hun voor- en nadelen, en in verschillende softwarepakketten worden soms andere keuzes gemaakt.

Als er ooit iets verschillends uitkomt, weet je dus niet wat 'het goede antwoord is' - je moet dan een expert inschakelen en kijken naar hoe die methoden precies verschillen (want daarin zit dan de verklaring voor die kleine verschillen). Echter, in het curriculum beperken we ons natuurlijk tot situaties waarin beslissingen niet afhankelijk zijn van dat soort subtiliteiten.

beantwoord 2 januari door Gjalt-Jorn Peters (47,300 punten)
Dag Gjalt-Jorn,

Fijn dat het toch goed ging, maar ook verwarrend dat iets wat er zo anders uitziet toch hetzelfde is..Begrijp ik uit je antwoord dat de plots die in het lesmateriaal gegeven worden uit R komen (pag 60)? Ik werk namelijk met SPSS. Ik heb de voorbeeldplotjes zo goed mogelijk bestudeerd om linksscheef en rechtsscheef etc uit elkaar te kunnen gaan houden maar het gaat dus om subtiliteiten en de programma's geven verschillende plaatjes.

Ik begrijp niet wat je zegt over de omgekeerde assen, ik weet niet waar ik dat uit zou kunnen halen (heel andere maten en bij SPSS  staat er bij wat wat is maar bij de R-voorbeelden staat er niets bij (x-as  -3 -- 3; y-as 0-80). Prettig is weer wel dat ik dat kennelijk ook niet hoef te snappen, alleen maar moet kijken, naar hoe de stipjes zich verhouden tot de diagonale as.

Ik vind het helemaal niet duidelijk voor mijn onervaren oog en interpretatie dat de STATKEN  2 uit het voorbeeld in het lesmateriaal linksscheef is en die uit mijn voorbeeld ook. Ik haal het er niet uit omdat ik niet weet waar ik naar moet kijken.  Ik zou zeggen dat STATKEN2 uit het lesmateriaal veel linksschever is dan 'mijn' linksscheefheid.

Kan er wellicht meer uitleg komen in het lesmateriaal, bijvoorbeeld door te noemen uit welk programma de voorbeelden komen,hoe het er bij een ander programma uitziet (liefst ook met plaatjes) en waar je op moet l

letten, bijvoorbeeld wanneer een scheefheid wel een probleem is?

Alvast dank en ook dank natuurlijk voor al deze moeite mbt deze vraag.  Pfft, het is wat hoor.

Groet, Petra
De oplossing zit hem in je zinsnede dat het om subtiliteiten gaat. Het gaat juist niet om subtiliteiten. Als een verdeling van steekproefscores normaal lijkt, dan is de kans dat je data-integriteit is geschonden laag.

Zie ook http://oupsy.nl/help/2915 - die plotjes etc zijn alleen om je data-integriteit te beoordelen.

De verdeling van je steekproefscores hoeft niet normaal te zijn. De populatieverdeling hoeft ook niet normaal te zijn.

De enige verdeling die normaal verdeeld moet zijn is de steekproevenverdeling, en die is altijd normaal verdeeld.

Linksscheef en rechtsscheef, en spitsheid en platheid, zijn handige termen om verdelingsvormen te beschrijven. Dat die termen voor afwijking van normaliteit bestaan betekent niet dat elke verdeling ook normaal verdeeld moet zijn!

Je bestudeert verdelingsvormen om te verifieren dat je data-integriteit hebt: om situaties op te sporen waarin je data-verzameling fout ging, bijvoorbeeld omdat een reactietijd niet goed is opgenomen, of omdat iemand je vragenlijsten niet serieus invulde. Niet omdat je data normaal verdeeld moeten zijn.

Natuurlijk ontwikkel je je operationalisaties zodanig dat de betreffende variabele goed wordt gemeten. En de meeste variabelen zijn normaal verdeeld: de meeste mensen scoren rond het gemiddelde, en maar een paar veel hoger of veel lager. Dus je zou vaak normale verdelingen moeten zien, als je meetinstrument goed werkt. En als je geen normale verdeling vindt, dan kan het zijn dat je meetinstrument niet valide is - in dat geval is die verdelingsvorm relatief onbelangrijk natuurlijk.

Maar, bottom line: het gaat niet om subtiliteiten! Het gaat om aanzienlijke afwijkingen, die zodanig sterk zijn dat je ze in alle programma's kunt zien.
...