WDF*IDF

Was ist WDF*IDF? Einfach erklärt!

WDF*IDF steht für „Within document frequency-inverse document frequency„. Mit WDF*IDF wird das Vorkommen eines Keywords und relevanten Begriffen auf einer Seite im Verhältnis zu anderen Seiten, die das gleiche Keyword ranken, bewertet. Die Analyse konzentriert sich nicht auf die Keyword-Dichte, sondern den Gesamtinhalt der untersuchten Seite im Vergleich zu anderen Seiten.

Was bedeutet WDF?

WDF steht für „Within document frequency“ und gibt an, wie oft ein bestimmtes Wort in einem einzigen Dokument vorkommt. Diese Methode bewertet also die relative Häufigkeit eines Keywords innerhalb eines Dokuments im Vergleich zu allen anderen Keywords im selben Dokument. Der berechnete Wert wird durch einen Logarithmus gedämpft.

Was bedeutet IDF?

IDF steht für „Inverse document frequency„. Mit diesem Konzept wird die Häufigkeit eines Keywords in einem Dokument im Verhältnis zu seiner Häufigkeit in allen anderen (potenziellen) Dokumenten bewertet. Mit anderen Worten, sie bewertet, wie viel ein bestimmtes Wort im Vergleich zu den anderen verwendeten Wörtern zu einer Dokumentensammlung beiträgt.

Hintergrund

Der Online-Marketing-Experte Karl Kratz hat einen wesentlichen Beitrag zur Verbreitung und Popularität der WDF*IDF-Formel in Deutschland geleistet. In einem 2012 veröffentlichten Artikel machte er auf die WDF*IDF-Formel zur Gewichtung von Begriffen aufmerksam und weckte das Interesse von Content-Marketing-Experten, die sich zuvor hauptsächlich an der Keyword-Dichte orientierten.

Die WDF*IDF-Formel ist jedoch keine neue Regel, sondern eine erneute Entdeckung der Termgewichtung, die bereits 1957 von Hans Peter Luhn im Rahmen des Information Retrieval entwickelt und untersucht wurde. Die Termgewichtung fand vor ihrer Wiederentdeckung für die Suchmaschinenoptimierung Anwendung in der Linguistik und später in der Computerlinguistik bei der Analyse von Textmaterial.

Berechnung des WDF*IDF

Für die Formel WDF*IDF wird die Häufigkeit eines Wortes in einem Text mit der Häufigkeit des gleichen Wortes in einem relevanten Dokumentenkorpus multipliziert. Daraus ergibt sich die Gewichtung dieses Terms im Dokument.

WDF berechnet die relative Häufigkeit eines Terms (also ein Wort oder eine Kombination) innerhalb eines Dokumentes. Die Formel lautet wie folgt:

WDFi= log2(Freq(i,j)+ 1) / log2(L)

Hierbei steht i für das Wort, j für das Dokument und L für die Gesamtzahl der Wörter im Dokument j. Damit es bei der Berechnung nicht zu einer enormen Erhöhung des Hauptkeywords kommt, was zu einem besseren Wert führen würde, wird der Logarithmus verwendet.

IDF berechnet die „inverse document frequency“, die Dokumentenhäufigkeit. Dazu wird die Termfrequenz ins Verhältnis zum relativen Vorkommen aller übrigen Worte eines Textes bzw. Dokumentes oder einer Website gesetzt. Somit wird mit IDF ermittelt, wie relevant ein Text hinsichtlich eines bestimmten Keywords ist. Die Formel lautet folgendermaßen:

IDFt= log (1 + ND/ ft)

Hierbei steht ND für die Anzahl der Dokumente und ft für die Anzahl der Dokumente, die den Term t beinhalten. Auch hier dient der Logarithmus zur Stauchung der Ergebnisse.

Die relative Termgewichtung eines Dokuments im Verhältnis zu allen potenziell möglichen Dokumenten, die das gleiche Keyword enthalten, ergibt sich aus der Multiplikation beider Terme. Du erhältst ein nützliches Ergebnis, wenn du diese Formel für jedes Keyword in einem Textdokument anwendest. Je mehr Daten du für die Berechnung von WDF*IDF verwendest, desto präziser sind deine Ergebnisse.

Unterschied von WDF*IDF und TF*IDF

WDF*IDF und TF*IDF werden oft verwechselt, aber es gibt einen Unterschied zwischen den beiden Formeln. WDF (Within document frequency) berechnet das Gewicht eines Begriffs im Verhältnis zum gesamten Dokument und verwendet einen Logarithmus, um diesen Wert zu stauchen. Im Gegensatz dazu berechnet TF (Term frequency) lediglich die Keyword-Dichte, d.h. die Anzahl eines bestimmten Keywords.

WDF*IDF ist heute die gängigere Methode, da es einen stärker gestauchten Wert berechnet, der leicht zu verstehen und weniger anfällig für extreme Ausreißer ist. Die TF*IDF-Analyse hingegen tendiert dazu, extreme Werte zu erzeugen und ist anfälliger für solche Ausreißer.

Vorteile von WDF*IDF

Die Verwendung der WDF*IDF-Formel hat einige Vorteile:

  1. Relevanz: Die WDF*IDF-Formel berücksichtigt die Relevanz eines Terms innerhalb eines Dokuments im Verhältnis zu seiner Häufigkeit im relevanten Dokumentenkorpus. Dadurch werden wichtige Informationen hervorgehoben und unbedeutende verworfen.
  2. Texterstellung: Die WDF*IDF-Formel kann bei der Texterstellung unterstützend eingesetzt werden, um relevante Keywords in einem Text zu identifizieren und ihre Gewichtung zu optimieren.
  3. Informationssuche: Die WDF*IDF-Formel wird auch in Informationssuchen verwendet, um die Relevanz von Dokumenten in Bezug auf eine bestimmte Anfrage zu bewerten und die relevantesten Dokumente anzuzeigen.
  4. Natürliche Sprachverarbeitung: In der natürlichen und der Computer Sprachverarbeitung wird die WDF*IDF-Formel verwendet, um Texte zu analysieren und zu kategorisieren.
  5. Vergleichbarkeit: Die WDF*IDF-Formel ermöglicht einen Vergleich von Dokumenten, auch wenn sie unterschiedlich lang sind, indem sie die Relevanz von Begriffen anhand ihrer Häufigkeit berechnet.

Nachteile von WDF*IDF

Die WDF*IDF-Formel hat einige Nachteile:

  1. Keine Berücksichtigung von Kontext und Semantik: Die WDF*IDF-Formel berücksichtigt nur die Häufigkeit eines Terms in einem Dokument und seiner Verbreitung im gesamten Dokumentenkorpus. Sie berücksichtigt jedoch nicht die Bedeutung oder den Kontext, in dem ein Term verwendet wird.
  2. Überbewertung von seltenen Wörtern: Da die WDF*IDF-Formel davon ausgeht, dass seltene Wörter wichtiger sind als häufiger verwendete Wörter, kann es vorkommen, dass unbedeutende oder irrelevanten Wörter überbewertet werden.
  3. Verzerrte Ergebnisse bei kleinem Dokumentenkorpus: Wenn der Dokumentenkorpus, auf dem die WDF*IDF-Formel basiert, sehr klein ist, kann es zu verzerrten Ergebnissen kommen.
  4. Fehlende Flexibilität: Die WDF*IDF-Formel ist nicht sehr flexibel und kann nicht leicht an die Bedürfnisse oder Anforderungen einer spezifischen Anwendung angepasst werden.
  5. Keine Berücksichtigung von neuen und aktuellen Inhalten: Da die WDF*IDF-Formel auf dem Dokumentenkorpus basiert, das zu einem bestimmten Zeitpunkt erstellt wurde, berücksichtigt sie nicht neue oder aktuelle Inhalte.

Nutzen von WDF*IDF für SEO

SEO wird für Online-Unternehmen jeden Tag wichtiger, sodass Algorithmen wie WDF*IDF immer nützlicher werden. Im Zusammenhang mit SEO hilft es dabei, herauszufinden, welche Wörter am häufigsten gesucht werden, und gibt so Aufschluss darüber, wie Inhalte für maximale Sichtbarkeit optimiert werden sollten. Außerdem lässt sich feststellen, welche Wörter häufig zusammen oder in unmittelbarer Nähe zueinander verwendet werden, was Aufschluss über die Suche der Nutzer nach bestimmten Themen oder Kampagnen gibt. So können die Algorithmen der Suchmaschinen schnell und effizient angepasst und optimiert werden, was zu besseren Platzierungen und mehr organischem Traffic für diejenigen führt, die die Leistung von WDF*IDF nutzen. 

Die Verwendung von WDF*IDF ist im Rahmen der On-Page Optimierung weit verbreitet. Es ist wichtig zu beachten, dass die Textoptimierung lediglich ein Teilaspekt der On-Page-Optimierung ist. Es kann zwar zu einer Verbesserung der Suchmaschinen-Relevanz beitragen, aber andere Faktoren wie die Qualität des Inhalts, die Anzahl und Qualität der Backlinks sowie eine mobile Optimierung der Seite spielen eine ebenso wichtige Rolle. Ein Text, der nach der WDF*IDF-Formel optimiert wurde, kann Ranking-Nachteile, die durch andere Faktoren verursacht werden, nicht ausgleichen. Daher ist es wichtig, eine umfassende On-Page-Optimierung durchzuführen, um die besten Ergebnisse zu erzielen.

So funktioniert WDF*IDF in der Praxis

Um eine optimale Keyword-Gewichtung in einem Text zu erreichen, kann man eine WDF*IDF-Analyse mithilfe von SEO-Tools durchführen. Anbieter wie Ryte, Seolyze, Sistrix, Xovi und Seobility bieten entsprechende Tools an. Die Funktion dieser Tools ist relativ ähnlich.

Der Benutzer gibt das Keyword an, für dessen Optimierung er den Text anpassen möchte. Als Nächstes wählt er das Land aus, in dem der optimierte Text verwendet werden soll. Basierend auf dieser Einstellung bestimmt das Tool, ob es beispielsweise Websites aus Deutschland, der Schweiz oder Österreich als Referenz heranzieht. Diese Seiten sind die Datenbasis. Die Tools ermitteln dann die relevanten Begriffe und deren Gewichtung für den angegebenen Suchbegriff, indem sie die am besten rankenden Seiten untersuchen. Daraufhin zeigen sie die relevanten Begriffe und ihre Häufigkeitsverteilung in einer ausführlichen Übersicht an. Für jeden Begriff bestimmt das Tool den idealen WDF*IDF-Wert.

Der Benutzer kann nun den eigenen Text mit den ermittelten WDF*IDF-Werten und der entstandenen Kurve vergleichen und, falls nötig, anpassen, um der vorgeschlagenen idealen Begriffsgewichtung näherzukommen.