Ermittlung der Signifikanz des Auftretens eines Wortes in zwei Corpora

aus den beobachteten Werten eines Wortes und der Zahl aller im jeweiligen Corpus enthaltenen Wörter (2x2-Felder-Tabelle) mittels Berechnung des Chi-Quadrat-Werts und des Log-Likelihood-Werts

Füllen Sie die gelb hinterlegten Felder aus! Zur Berechnung der Werte muss in Ihrem Browser die Ausführung von JavaScript erlaubt sein. Eine 2x2-Felder-Tabelle mit anderen Eingabemöglichkeiten finden Sie auf der Seite "Signifikanz des gemeinsamen Auftretens zweier Wörter in einem Corpus (Kollokation/Kookkurrenz)".

Beobachtete Werte

Corpus 1 Corpus 2 Σ
[automatisch]
Nicht 'Suchwort'
[automatisch]
[automatisch]
[automatisch]
Σ
[automatisch]

Signifikanz-Werte

Signifikanz-Werte für 'Suchwort':
Chi-Quadrat: χ2 =
[automatisch]
ohne Yates-Korrektur
Chi-Quadrat: χ2 =
[automatisch]
mit Yates-Korrektur
Log-Likelihood: LL =
[automatisch]
 

Interpretation

Nach den kritischen Werten für den Chi-Quadrat-Test mit df=1 lautet das Ergebnis (ohne Yates-Korrektur):

Die Nullhypothese, dass die Verteilung des Wortes in den Corpora durch Zufall bedingt ist, kann mit einer Irrtumswahrscheinlichkeit von [automatisch] abgelehnt werden.

Als kritische Werte für df=1 gelten folgende: 3.84146 (Signifikanzniveau 0.05), 6.63490 (Signifikanzniveau 0.01), 10.828 (Signifikanzniveau 0.001) [aus Bortz 2005, 818]. Mit diesen Werten können auch der Chi-Quadrat-Wert (mit Yates-Korrektur) und der Log-Likelihood-Wert auf Signifikanz geprüft werden.

Erwartete Werte

Erwartete Häufigkeit für 'Suchwort':
Corpus 1:
[automatisch]
Corpus 2:
[automatisch]

Normalisierte Werte

Auftreten pro 1 Mio. Wörter für 'Suchwort':
Corpus 1:
[automatisch]
Corpus 2:
[automatisch]

Zu den statistischen Tests

Chi-Quadrat-Test (ohne Yates-Korrektur)

Chi-Quadrat-Test (mit Yates-Korrektur)

Log-Likelihood

Quellen/Literatur

Albert, Ruth/Koster, Cor J.: Empirie in Linguistik und Sprachlehrforschung. Ein methodologisches Arbeitsbuch. Tübingen: Gunter Narr Verlag, 2002.

Bortz, Jürgen: Statistik für Human- und Sozialwissenschaftler. 6., vollst. überarb. und aktual. Aufl. mit 84 Abbildungen und 242 Tabellen. Heidelberg: Springer Medizin Verlag, 2005.

Butler, Christopher: Statistics in Linguistics. Oxford: Basil Blackwell, 1985.

Evert, Stefan: www.collocations.de — Association Measures. Internet: <http://www.collocations.de/AM/index.html>, aufgerufen am 09.07.2009.

Grzybek, Peter: Semiotik und Phraseologie. In: Burger, Harald/Dobrovol'skij, Dmitrij/Kühn, Peter/Norrick, Neal R.: Phraseologie. Ein internationales Handbuch der zeitgenössischen Forschung. 1. Halbbd. (HSK 28.1). Berlin/New York: Walter de Gruyter, 2007: 188–208.

Manning, Christopher D./Schütze, Hinrich: Foundations of Statistical Natural Language Processing. Cambridge/London: MIT Press, 1999.

McEnery, Tony/Wilson, Andrew: Corpus Linguistics. An Introduction. 2nd ed. (= Edinburgh Textbooks in Empirical Linguistics). Edinburgh: Edinburgh University Press, 2001.

Rayson, Paul: Log-likelihood calculator. Internet: <http://ucrel.lancs.ac.uk/llwizard.html>, aufgerufen am 18.07.2009.

Rayson, Paul/Berridge, Damon/Francis, Brian: Extending the Cochran rule for the comparison of word frequencies between corpora. Internet: <http://www.comp.lancs.ac.uk/computing/users/paul/publications/rbf04_jadt.pdf>, aufgerufen am 18.07.2009. [Auch in: Purnelle, Gérald/Fairon, Cédrick/Dister, Anne (eds.): Le poids des mots: Proceedings of the 7th International Conference on Statistical analysis of textual data, Louvain-la-Neuve, Belgium, March 10–12, 2004. Vol. 2. Louvain: Presses universitaires de Louvain, 2004: 926–936.]

Rayson, Paul/Garside, Roger: Comparing Corpora using Frequency Profiling. Internet: <http://www.comp.lancs.ac.uk/computing/users/paul/publications/rg_acl2000.pdf>, aufgerufen am 18.07.2009. [Auch in: Kilgarriff, Adam/Berber Sardinha, Tony (eds.): Proceedings of the Workshop on Comparing Corpora. Held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics (ACL 2000). Hong Kong: Hong Kong University of Science and Technology, 2000: 1–6.]