Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wat is een 'factor' in R?

0 leuk 0 niet-leuks
In R wordt onderscheid gemaakt tussen 'numeric' variabelen en 'factoren'. Wat houdt dit onderscheid in?
gevraagd 28 januari 2014 in Anders door Gjalt-Jorn Peters (36,980 punten)

1 Antwoord

0 leuk 0 niet-leuks
Variabelen hebben een meetniveau. De grofste indeling van deze meetniveau's is in categorische variabelen en continue variabelen. De categorische variabelen worden gekenmerkt doordat elke mogelijke meetwaarde een categorie representeert, terwijl bij de continue variabelen de meetwaarden getallen representeren. Categorische variabelen zijn bijvoorbeeld geslacht, haarkleur, lievelingskleur, automerk, en opleidingsniveau; en continue variabelen zijn temperatuur, leeftijd, extraversie, optimisme, en intentie om XTC te gebruiken.

Categorische variabelen kunnen verder worden ingedeeld in nominale en ordinale variabelen. Bij nominale variabelen zijn de meetwaarden niet gerangschikt, zoals bij geslacht, haarkleur, en lievelingskleur. Bij ordinale variabelen wel, zoals bij opleidingsniveau.

Continue variabelen kunnen verder worden ingedeeld in interval en ratio variabelen. Het verschil tussen deze twee betreft het bestaan van nul, en dus of breuken kunnen bestaan. Dit is erg abstract en niet relevant voor psychologisch onderzoek, dus daar zal ik hier verder niet op ingaan. 'For all practical purposes' kun je de termen 'continu', 'interval', en 'ratio' als uitwisselbaar beschouwen; er zijn geen statistische analyses die onderscheid maken.

In R worden categorische variabelen 'factoren' genoemd. Continue variabelen worden 'numeric' variabelen genoemd. Categorische variabelen kunnen eventueel 'ordered' zijn; dan zijn het dus ordinale variabelen. In SPSS is het ook mogelijk om deze meetniveau's aan te geven, hoewel categorische variabelen in SPSS altijd worden gerepresenteerd door getallen.

Het is belangrijk dat je in je dataframe (R) of dataset (SPSS) goed aangeeft wat het meetniveau van je variabelen is. In R kun je makkelijk converteren met functies als as.factor() en as.numeric(). In R gedragen variabelen zich ook anders; als je summary() gebruikt bij een factor, krijg je frequenties; als je summary() gebruikt bij een numeric variabele, krijg je het minimum en maximum, het eerste en derde kwartiel en de mediaan, en het gemiddelde.
beantwoord 28 januari 2014 door Gjalt-Jorn Peters (36,980 punten)
bewerkt 29 januari 2014 door Gjalt-Jorn Peters
...