Index / Indexierung

Was ist ein Index? Einfach erklärt!

Ein Index ist eine übersichtliche Informationserfassung von Themen, Schlagwörtern und Stichworten, die auf bestimmte Fakten und Informationen in einem größeren Werk verweisen. Er soll der Auffindbarkeit von relevantem Material helfen. Die indexierten Dokumente, größtenteils Textinhalte, werden für eine Suche nach einem bestimmten Dokument oder Schlagwort aufbereitet und mit sogenannten Deskriptoren versehen. Oft werden die Begriffe Indexierung und Indizierung fälschlicherweise synonym verwendet.

Der „Google-Index“ bezeichnet die Sammlung aller Webseiten, die von Google gefunden und gespeichert wurden. Diese Webseiten werden von Algorithmen in einer bestimmten Reihenfolge organisiert und bilden das Verzeichnis, das von Google verwendet wird, um Ergebnisse für Suchanfragen bereitzustellen. Die Ergebnisse, die man auf der Suchmaschine sieht, kommen ausschließlich aus diesem Index.

Es ist wichtig zu beachten, dass der GoogleSuchmaschinenindex kein statisches Verzeichnis ist. Immer wenn eine neue Webseite online geht oder eine bereits bestehende Webseite verändert wird, wird der Google-Crawler aktiviert, um diese Änderungen zu erfassen. Es kann also sein, dass Webseiten hinzugefügt oder entfernt werden, je nachdem, wie sie den Google-Richtlinien entsprechen. Webseiten, die gegen diese Richtlinien verstoßen, werden aus dem Index und damit auch aus den Suchergebnissen entfernt.

Neben der alphabetischen Struktur ist der Google-Index auch in mehrere Ebenen unterteilt. Dies bedeutet, dass der Algorithmus nicht nur nach dem Namen einer Webseite, sondern auch nach verschiedenen Rankingkriterien sortiert, um für eine Suchanfrage die besten Ergebnisse zu liefern. Diese Kriterien werden ständig angepasst, um die Relevanz der Ergebnisse zu verbessern. Wie genau die Suchmaschine ihre Entscheidungen trifft, bleibt jedoch ein gut gehütetes Geheimnis.

Wie füllt Google den Index?

Google füllt seinen Index, indem es Millionen von Dokumenten auf Milliarden von Websites im Internet bewertet. Das geschieht mithilfe von Crawler-Bots. Diese Bots durchsuchen das Internet, indem sie von einem Link zum nächsten springen und auf dadurch verknüpfte Webseiten stoßen. Jede neu entdeckte Webseite wird gescannt, indem ihr Quellcode ausgelesen und in den Index gesendet wird. Dort wird die Seite nach verschiedenen Rankingkriterien und Regeln sortiert.

Um deine Webseite im Google-Index aufzulisten, muss sie von einer anderen Webseite verlinkt werden. Wenn ein Crawler dann auf dieser verlinkten Webseite landet, wird er auf den Link zu deiner Seite stoßen und diese scannen. Diese Methode der Indexierung ist allerdings zeitaufwändig und ungewiss.

Wie indexiert man eine Webseite?

Die Indexierung einer Website ist ein wichtiger Teil der Suchmaschinenoptimierung. Für die Indexierung wird in der Regel ein Webcrawler oder Bot eingesetzt, der sich durch die gesamte Website bewegt und URLs und Inhalte sammelt, um eine durchsuchbare Datenbank zu erstellen. Inhalte wie Bilder, Videos, PDFs und andere Seitenelemente können ebenfalls dokumentiert und in Indexbereichen abgelegt werden.

Durch die Verwendung von Metadaten können einzelne Seiten schnell gefunden werden, unabhängig von ihrer Position innerhalb der Website-Struktur. Es wird empfohlen, dass alle neuen Websites kurz nach ihrem Start einem Indexierungsprozess unterzogen werden, um sicherzustellen, dass sie bei den großen Suchmaschinen korrekt gelistet sind. Regelmäßige Aktualisierungen sind auch für Websites mit dynamischen Inhalten notwendig, damit sie in den Suchmaschinenergebnissen dauerhaft sichtbar bleiben.

Um seine Webseite aktiv im Google-Index zu haben, kann man sie direkt beim Suchmaschinenanbieter einreichen. Dafür gibt es drei Optionen:

  • Um deine Webseite bei Google zu indexieren, kannst du einen Antrag über die Adresse http://www.google.de/addurl/ stellen. Es ist jedoch wichtig zu beachten, dass eine erfolgreiche Übermittlung deiner Daten keine Garantie für eine Aufnahme in den Google-Index bedeutet. Außerdem benötigst du ein Google-Konto, um auf diesen Dienst zugreifen zu können.
  • Du kannst eine Sitemap an Google über das Webmaster-Tool (auch als „Search-Console“ bezeichnet) senden. Du kannst eine solche Sitemap einfach im .xml-Format erstellen lassen. Nachdem du die .xml-Datei in das Webmaster-Tool unter dem Reiter „Sitemaps“ hinzugefügt hast, werden in der Regel innerhalb von 24 Stunden die URLs aus der Sitemap gecrawlt. Du kannst den Fortschritt der Indexierung in dem Webmaster-Tool unter demselben Reiter verfolgen.
  • Möchtest du eine einzelne Seite indexieren lassen, beispielsweise, weil sie nach Erstellung der Sitemap hinzugefügt wurde, kann man in dem Webmaster-Tool unter „Crawling“ und „Abruf wie durch Google“ die Möglichkeit nutzen, eine einzelne URL an den Index zu senden. Diese Option dient eigentlich dazu, die Funktionsfähigkeit des Crawlers auf einer Seite zu überprüfen. Aber nachdem man die URL gesendet hat, bietet Google die Option an, die URL zum Index hinzuzufügen. Dies betrifft jedoch nur die eine URL und eventuell Verlinkungen von dieser URL innerhalb der Domain.

Wie verhindert man eine Indexierung?

Es gibt verschiedene Gründe, warum ein Seitenbetreiber nicht möchte, dass seine Seite in den Suchmaschinenergebnissen (SERPs) erscheint und somit im Google-Index vorhanden ist. Einige dieser Gründe können sein:

  • Die Seite und die Webinhalte befinden sich noch im Aufbau oder werden gerade relauncht und sollten bis zur Fertigstellung nicht von Suchmaschinen gefunden werden.
  • Es kann urheber- oder datenschutzrechtliche Bedenken geben, die eine öffentliche Verfügbarkeit der Seite verhindern.
  • In einigen Fällen möchte ein Webmaster bestimmte Unterseiten nicht für die Öffentlichkeit zugänglich machen, beispielsweise Admin-Zugänge oder Seiten mit geringem Nutzen.
  • Es kann auch sein, dass die Webseite nur für den privaten Gebrauch bestimmt ist und es keine öffentliche Abfrage geben soll.

Um eine Indexierung zu verhindern, gibt es mehrere Optionen:

  • Der Meta-Tag „noindex“: Mit diesem Meta-Tag gibt man dem Suchmaschinen-Crawler die Anweisung, die Seite nicht zu indexieren. Es sieht wie folgt aus: <meta name=”robots” content=”noindex”/>. 
  • Aussperren von Crawler mit der robots.txt: In der robots.txt-Datei kann man Suchmaschinen-Crawler davon abhalten, bestimmte Teile einer Website zu indexieren. Um alle Seiten einer Domain für alle Zugriffe zu sperren, fügt man folgenden Code ein: User-agent: * Disallow: /. Wenn man nur bestimmte Unterverzeichnisse ausschließen möchte, kann man so vorgehen:
  1. User-agent: *
  2. Disallow: /unterordner1
  3. Disallow: /unterordner2/unterordner/
  • Ausschluss von Crawler per .htaccess: Mit der .htaccess-Datei kann man ein Passwortschutz für die gesamte Website oder bestimmte Bereiche festlegen. Dies wird auch von Google empfohlen, um URLs durch passwortgeschützte Serververzeichnisse zu blockieren.

Wann fliegt man aus dem Index und wie kommt man wieder rein?

Wenn man aus dem Google-Index fliegt, kann das sehr ärgerlich sein. Es gibt bestimmte Faktoren, die dazu führen können. Um wirklich de-indexiert zu werden, muss man schwere SEO-Verstöße begangen haben, wie massives Linkbuilding oder Cloaking auf breiter Basis. Auch negatives SEO durch Konkurrenten oder Hacker kann ein Grund für eine De-Indexierung sein.

Wenn eine Webseite aus dem Google-Index entfernt wurde, ist es wichtig schnell zu handeln, um eine Wiederaufnahme in den Index zu erreichen. Hier sind die Schritte, die man unternehmen sollte:

  1. Antrag auf Wiederaufnahme stellen: Stelle einen Wiederaufnahmeantrag (auch als Reinclusion Request oder Reconsideration Request bekannt) an Google.
  2. Fehler beheben: Wenn die Entfernung aufgrund von eigenen Fehlern verursacht wurde, muss man beweisen, dass man diese Fehler behoben hat.
  3. Nachweis erbringen: Wenn man Opfer eines Angriffs wurde, ist es wichtig, diesen Angriff nachzuweisen, um Google davon zu überzeugen, dass die Entfernung aus dem Index ungerechtfertigt war.
  4. Überprüfung über Webmaster-Tool: Über das Webmaster-Tool kann man einen Antrag auf erneute Überprüfung stellen, der im Nachrichtenfeld der Abstrafung gefunden werden kann.
  5. Geduld aufbringen: Es kann einige Zeit dauern, bis die Seite wieder im Index ist, normalerweise zwischen 2 und 12 Wochen.