Forum Statistiek

Vragen & antwoordem over statistiek en methodologie
Het is nu do okt 23, 2014 6:51 am

Alle tijden zijn GMT + 1 uur




Plaats een nieuw onderwerp Antwoord op onderwerp  [ 8 berichten ] 
Auteur Bericht
 Berichttitel: Geen homogene variantie
BerichtGeplaatst: wo jun 22, 2005 1:23 pm 
Offline

Geregistreerd: wo jun 22, 2005 1:15 pm
Berichten: 8
Hallo statistici,

Ik ben bezig met mijn afstudeeronderzoek. Nu heb ik een variabele, een percentage en een andere categorische variabele (4 categorieën of groepen). Ik wil graag weten of de gemiddelden van dit percentage significant verschillen per groep. Hiervoor heb ik een ANOVA uitgevoerd. De F-waarde en zijn significantieniveau geven aan dat er per groep een significant verschil is in de gemiddelden (sig. = 0,029).
Levene's statistic voor de homogeniteit van varianties geeft echter aan (sig. = 0,000) dat de varianties niet homogeen zijn. Dit is echter wel een assumptie van ANOVA. Wat dien ik hier nu verder mee te doen? Kan ik op een andere manier nog aantonen dat er wél een significant verschil tussen de groepen zit, zonder een assumptie te schenden?

Bij voorbaat dank!
Chico


Omhoog
 Profiel  
 
BerichtGeplaatst: wo jun 22, 2005 6:26 pm 
Offline
Site Admin

Geregistreerd: za okt 30, 2004 4:46 pm
Berichten: 2306
Woonplaats: Amsterdam
Chico:

De afwijking van de homogeniteitsvoorwaarde moet je hier serieus nemen, omdat de statistische significantie (p=0.029) marginaal is en in zulke gevallen de invloed op de eindconclusie beslissend kan zijn.

Wat bedoel je precies met: "Nu heb ik een variabele, een percentage en een andere categorische variabele (4 categorieën of groepen)"? Is de afhankelijk variabele een percentage (en moet er dus een komma achter percentage)? Bekijk de residuen en probeer een transformatie, bijvoorbeeld wortel(y) of log(y) of iets dergelijks. Herman.

_________________
Beheerder/moderator Forum Statistiek en Kennisbasis Statistiek. Voor zakelijke dienstverlening klik WynneConsult.


Omhoog
 Profiel  
 
 Berichttitel:
BerichtGeplaatst: do jun 23, 2005 9:01 am 
Offline

Geregistreerd: wo jun 22, 2005 1:15 pm
Berichten: 8
Beste Herman,

De afhankelijke variabele is inderdaad een percentage, de onafhankelijke variabele is categorisch (4 groepen, waarde = 513, 514, 518 of 519). Ik ben er inmiddels iets dieper ingedoken, en kwam tot deze conclusie;

Voor de F-toets is homogeniteit van de varianties een vereiste (/assumptie). Zoals Levene laat zien, zijn de varianties binnen de verschillende groepen zijn niet homogeen, waardoor deze assumptie van ANOVA geschonden wordt. In dit geval kan de t-toets gebruikt worden om per twee categorieën te onderzoeken of de gemiddelden significant verschillen.
Middels de independent-samples t-test heb ik per 2 groepen gekeken of de varianties homogeen zijn. Aan de hand hiervan kies ik de rij met "equal variances assumed" of "equal variances not assumed", en zoek ik de bij de t-test horende significantie op. Is deze kleiner dan 0,05, dan kan ik zeggen dat de gemiddelden tussen deze groepen significant verschillen.

Ik hoop dat je het nog kunt volgen, en anders mijn excuses hiervoor. Heb ik het zo goed opgelost, of heb ik wellicht een denkfout gemaakt en zou ik het anders moeten benaderen?

Met vriendelijke groet,
Chico

Toevoeging: overigens heeft een boxplot mij de oorzaak ook laten zien; enkel groep 519 verschilt aanzienlijk, de andere 3 groepen liggen wat betreft gemiddelden en verdeling erg dicht bij elkaar.


Laatst bijgewerkt door Chico op vr jun 24, 2005 8:28 am, in totaal 1 keer bewerkt.

Omhoog
 Profiel  
 
 Berichttitel: multipel toetsen
BerichtGeplaatst: do jun 23, 2005 10:09 pm 
Offline
Site Admin

Geregistreerd: za okt 30, 2004 4:46 pm
Berichten: 2306
Woonplaats: Amsterdam
Beste Chico

Ik volg je redenering nog prima en hij is in principe juist. Je moet er echter wel rekening mee houden, dat als je 6 verschillen toetst (4 groepen paarsgewijs) je de significantiegrens met een factor 6 moet verlagen, dus i.p.v. α = 0.05, α = 0.05/6 = 0.008. Erg efficient is die methode dus niet.

Behalve een homogeniserende transformatie van de afhankelijk variabele proberen, kun je natuurlijk ook de nonparametrische test voor meer onafhankelijke groepen van Kruskal-Wallis gebruiken. Het voordeel van een anova is, dat je met 1 test, zonder correcties voor meervoudig toetsen, kunt vaststellen of er minstens 1 verschil tussen de populatiegemiddelden is. Dat heb dan alvast binnen. Daarna kun je overgaan tot toetsen van detail-hypothesen.

Herman.

_________________
Beheerder/moderator Forum Statistiek en Kennisbasis Statistiek. Voor zakelijke dienstverlening klik WynneConsult.


Omhoog
 Profiel  
 
 Berichttitel:
BerichtGeplaatst: vr jun 24, 2005 8:58 am 
Offline

Geregistreerd: wo jun 22, 2005 1:15 pm
Berichten: 8
Herman,

Je weet er wel veel van zeg :wink:. Ik heb vol aandacht je opmerkingen doorgenomen. Wat ik helaas niet volg is waarom ik een sig. van 0,008 moet aanhouden bij de t-testen? Stel dat ik slechts 2 groepen (i.p.v. alle 4) met elkaar wil vergelijken, gebruik ik dan ook niet 0,05?

Die transformatie heb ik geprobeerd, beginnend met de ln van het percentage. Dit ging niet helemaal goed, omdat zowel 1% (ln=0) als 0% (ln=niet berekenbaar, dus als missing value aangemerkt) voorkomen. Vervolgens maar de wortel genomen.

Met deze als afh. var. nogmaals ANOVA uitgevoerd, maar Levene blijft aangeven dat varianties niet homogeen zijn (sig.=0,002). De F-toets (die ik hierdoor eigenlijk niet mag gebruiken) geeft met sig.=0,012 wel aan dat er een verschil tussen de groepen bestaat.

Vervolgens heb ik je non-parametrische test met "K independent samples" geprobeerd. Zowel voor de oorspronkelijke afh. var. (percentage) als voor de wortel hiervan geeft Kruskal-Wallis een sig. van 0,012. Is deze hetzelfde te interpreteren als de F-toets (dus significant verschil tussen groepen m.b.t. deze afh. var.)?

Nogmaals BVD!
Chico


Omhoog
 Profiel  
 
 Berichttitel: multipel toetsen
BerichtGeplaatst: vr jun 24, 2005 5:50 pm 
Offline
Site Admin

Geregistreerd: za okt 30, 2004 4:46 pm
Berichten: 2306
Woonplaats: Amsterdam
Citaat:
Stel dat ik slechts 2 groepen (i.p.v. alle 4) met elkaar wil vergelijken, gebruik ik dan ook niet 0,05?


Klopt. Om het totale risico om de nulhypothese ten onrechte te verwerpen bij herhaald toetsen tot alpha te beperken, moet je het risico per keer verkleinen tot alpha / aantal toetsen. (Er zijn efficientere methoden.)

Citaat:
Is deze hetzelfde te interpreteren als de F-toets (dus significant verschil tussen groepen m.b.t. deze afh. var.)?


Yes. Let wel, je verwerpt de nulhypothese, dat het verschil tussen alle paren groepen nul is. De alternatieve hypothese is, dat er minstens tussen 1 paar groepen wel een verschil is.

Geen dank en succes verder, Herman.

_________________
Beheerder/moderator Forum Statistiek en Kennisbasis Statistiek. Voor zakelijke dienstverlening klik WynneConsult.


Omhoog
 Profiel  
 
 Berichttitel:
BerichtGeplaatst: di jul 12, 2005 4:37 pm 
Offline

Geregistreerd: wo jun 22, 2005 1:15 pm
Berichten: 8
Beste Herman,

Na een gesprek met mijn begeleider bleek dat het verlagen van het significantieniveau met een factor 6 toch niet correct was. Hij legde me uit dat ik toch het oorspronkelijke niveau van 0,05 dien te hanteren, omdat iedere toets op zich staat. En dat wist ik niet tegen te spreken (het was hetgeen ik vooraf zelf ook dacht).

Ander punt is, dat ik bij mijn logistische regressie de cut-values zodanig heb aangepast dat een optimaal aantal voorspellingen correct was. Nu heb ik al 4 statistische boeken doorgepluisd om dit te verantwoorden, maar ik kan het nergens vinden. Googlen levert enkel fragmentjes op als "wanneer de cut-value op 0,300 gesteld wordt, verbetert het aantal goede voorspellingen tot 95%". Nergens staat een bronverwijzing over dat dit toegestaan is. Wellicht heb jij een idee?

Dank! Chico


Omhoog
 Profiel  
 
 Berichttitel:
BerichtGeplaatst: do jul 14, 2005 11:12 am 
Offline
Site Admin

Geregistreerd: za okt 30, 2004 4:46 pm
Berichten: 2306
Woonplaats: Amsterdam
Hallo Chico

Chico schreef:
Na een gesprek met mijn begeleider bleek dat het verlagen van het significantieniveau met een factor 6 toch niet correct was. Hij legde me uit dat ik toch het oorspronkelijke niveau van 0,05 dien te hanteren, omdat iedere toets op zich staat. En dat wist ik niet tegen te spreken (het was hetgeen ik vooraf zelf ook dacht).


Je begeleider heeft in principe gelijk. Mijn ervaring is echter, dat onderzoekers het gevaar van ongecorrigeerd multipel toetsen nogal eens onderschatten. Als je 5 keer toetst, is de kans dat je 1 keer een effect ten onrechte significant verklaart een kleine 25%. De vraag die je je moet stellen is of dat de eindconclusie van je onderzoek aantast. Maar ik wil niet stoken in een goed huwelijk: het is jullie verantwoordelijkheid, dat staat vast.

Citaat:
Ander punt is, dat ik bij mijn logistische regressie de cut-values zodanig heb aangepast dat een optimaal aantal voorspellingen correct was. Nu heb ik al 4 statistische boeken doorgepluisd om dit te verantwoorden, maar ik kan het nergens vinden. Googlen levert enkel fragmentjes op als "wanneer de cut-value op 0,300 gesteld wordt, verbetert het aantal goede voorspellingen tot 95%". Nergens staat een bronverwijzing over dat dit toegestaan is. Wellicht heb jij een idee?


Het vaststellen van een optimale cut-off value is normal practice bijvoorbeeld bij het ontwikkelen van tests tbv decision making. Kijk eens bij ROC-curves in de medische literatuur.

Groet, Herman.

_________________
Beheerder/moderator Forum Statistiek en Kennisbasis Statistiek. Voor zakelijke dienstverlening klik WynneConsult.


Omhoog
 Profiel  
 
Geef de vorige berichten weer:  Sorteer op  
Plaats een nieuw onderwerp Antwoord op onderwerp  [ 8 berichten ] 

Alle tijden zijn GMT + 1 uur


Wie is er online

Gebruikers op dit forum: Geen geregistreerde gebruikers. en 0 gasten


Je mag geen nieuwe onderwerpen in dit forum plaatsen
Je mag niet antwoorden op een onderwerp in dit forum
Je mag je berichten in dit forum niet wijzigen
Je mag je berichten niet uit dit forum verwijderen
Je mag geen bijlagen toevoegen in dit forum

Zoek naar:
Ga naar:  
cron
POWERED_BY
phpBB.nl Vertaling