Setzen Sie Ihre Webinhalte mit
dem Algolia Crawler frei

Mit unserem individualisierbaren gehosteten Web-Crawler, der die Internetseiten Ihrer Website katalogisiert und speichert, können Nutzer ganz einfach nach Ihren Inhalten suchen.

Fordern Sie eine Demo anBeginnen Sie kostenlos mit dem Aufbau

Führende Marken nutzen Algolia, um die Search & Discovery von Websites zu aktivieren

Adobe
Dior
NPR

So funktioniert unser Website-Crawler

Ein Website-Crawler-Tool, mit dem alle Ihre Inhalte entdeckt werden, unabhängig davon, wo sie gespeichert sind

Bieten Sie Ihren Benutzern eine tolle Website-Suche

Sind Ihre Website-Inhalte in getrennten Systemen enthalten und werden von verschiedenen Teams verwaltet? Der erste Schritt zur Bereitstellung einer qualitativ hochwertigen Website-Suche ist die Implementierung eines erstklassigen Crawling-Prozesses.

Unsere Web-Spider kann Ihrem Unternehmen Zeit sparen und Ihre Ausgaben senken, indem sie den Aufbau von Datenpipelines zwischen jedem Ihrer Content-Repositories und Ihrer Website-Suchsoftware sowie das damit verbundene Projektmanagement überflüssig machen.

Verwandeln Sie Ihre Website in strukturierte Inhalte

Sie können unserem Website-Crawler genau sagen, wie er funktionieren soll, damit er Ihre Inhalte richtig interpretiert. Zusätzlich zu Standard-Webseiten können Sie beispielsweise sicherstellen, dass Benutzer nach Nachrichtenartikeln, Stellenanzeigen und Finanzberichten suchen und navigieren können, einschließlich Informationen, die in Dokumenten, PDF-Dateien, HTML und JavaScript enthalten sind.

Meta-Tags sind nicht erforderlich

Sie können Ihre Inhalte extrahieren lassen, ohne zuvor Meta-Tags zu Ihrer Website hinzuzufügen. Unser Web-Crawler ist nicht auf benutzerdefinierte Metadaten angewiesen. Stattdessen bietet es Ihrem technischen Team einen benutzerfreundlichen Editor, um zu definieren, welche Inhalte Sie extrahieren und wie Sie diese strukturieren möchten.

Bereichern Sie Ihre Inhalte und erhöhen Sie die Relevanz

Um die Relevanz von Suchergebnissen für Ihre Benutzer zu verbessern, können Sie Ihre extrahierten Inhalte mit Business-Webdaten, einschließlich von Google Analytics und Adobe Analytics, anreichern. Mit dem Algolia Crawler können Sie Daten über das Besucherverhalten und die Seitenleistung verwenden, um Ihre Suchmaschinen-Rankings anzupassen und Ihren Inhalten Kategorien hinzuzufügen, um eine erweiterte Navigation zu unterstützen, und vieles mehr.

Konfigurieren Sie Ihr Crawling nach Bedarf

Sie möchten Zeit sparen und unnötige Arbeit vermeiden? Mit unserem Website-Crawler können Sie ausgewählte Teile Ihrer Website indizieren, wenn Sie nur diese crawlen lassen möchten.

Konfigurieren Sie unser Website-Crawler-Tool, um Standortdaten nach einem festen Zeitplan zu scannen.Manuelles Auslösen eines Website-Crawl für bestimmte Bereiche Ihrer Website.Legen Sie fest, welche Teile Ihrer Inhalte durchsucht oder vermieden werden sollen.Konfigurieren Sie unseren Crawler zum Erkunden und Indizieren von Login-geschützten Seiten.
Konfigurieren Sie unser Website-Crawler-Tool, um Standortdaten nach einem festen Zeitplan zu scannen.

Automatische Crawling-Sitzungen planen

Sie können unser Website-Crawler-Tool so konfigurieren, dass es Ihre Webdaten in einem festgelegten Echtzeitzeitplan ansieht, wie etwa jeden Abend um 21 Uhr, mit einer Wiederholung am Mittag des nächsten Tages.

Manuelles Auslösen eines Website-Crawl für bestimmte Bereiche Ihrer Website.

Manuelles Einrichten eines Crawls

Bei Bedarf können Sie manuell das Crawling eines bestimmten Abschnitts Ihrer Website oder sogar der gesamten Seite auslösen.

Legen Sie fest, welche Teile Ihrer Inhalte durchsucht oder vermieden werden sollen.

Sagen Sie ihm, wohin er gehen soll

Sie können festlegen, welche Teile Ihrer Website oder welche Webseiten von unserem Webspider durchsucht (oder vermieden) werden sollen, oder Sie können sie automatisch überall durchsuchen lassen.

Konfigurieren Sie unseren Crawler zum Erkunden und Indizieren von Login-geschützten Seiten.

Halten Sie Ihre durchsuchbaren Inhalte auf dem neuesten Stand

Unser produktionsfertiger Crawler enthält eine Reihe von Tools, mit denen Sie kontinuierlich neue Suchinhalte bereitstellen können. Dazu gehören URL-Inspektor, Überwachung, Datenanalyse und Pfad-Explorer.

Erhalten Sie alle Details und Daten für jede durchgeführte Crawling Session der Website.Rufen Sie Crawl-Berichte für URLs ab, einschließlich Fehler.Analysieren Sie Crawl-Daten und beurteilen Sie die Qualität Ihres vom Webcrawler generierten Index.Analysieren Sie Crawling-Pfade, URLs, extrahierte Datensätze und aufgetretene Fehler.
Erhalten Sie alle Details und Daten für jede durchgeführte Crawling Session der Website.

URL Inspector

Auf der Registerkarte „Inspector“ können Sie alle Ihre durchforsteten URLs anzeigen und überprüfen, wobei Sie für jede Durchforstung feststellen können, ob sie erfolgreich war, wann sie abgeschlossen wurde und welche Datensätze generiert wurden.

Rufen Sie Crawl-Berichte für URLs ab, einschließlich Fehler.

Monitoring

Auf der Registerkarte „Monitoring“ können Sie die Details zum letzten Durchforsten anzeigen und Ihre durchforsteten URLs nach Status sortieren (Erfolg, ignoriert, fehlgeschlagen).

Analysieren Sie Crawl-Daten und beurteilen Sie die Qualität Ihres vom Webcrawler generierten Index.

Data Analysis

Auf der Registerkarte „Data Analysis“ können Sie die Qualität Ihres vom Webcrawler generierten Index beurteilen und sehen, ob es Datensätze mit fehlenden Attributen gibt.

Analysieren Sie Crawling-Pfade, URLs, extrahierte Datensätze und aufgetretene Fehler.

Path Explorer

Auf der Registerkarte „Path Explorer“ können Sie sehen, welche Pfade der Crawler erforscht hat, und für jeden anzeigen, wie viele URLs durchforstet wurden, wie viele Datensätze extrahiert wurden und wie viele Fehler während des Crawling Prozesses aufgetreten sind.

„Wir haben erkannt, dass die Suche eine Kernkompetenz des Unternehmens LegalZoom sein sollte, und wir sehen Algolia als ein umsatzförderndes Produkt.“

Mrinal Murari
Tools Team Lead & Senior Software Engineer
Legalzoom
Lesen Sie die ganze Geschichte

Empfohlene Inhalte

See more

Website-Crawler – Häufig gestellte Fragen

  • Ein Webcrawler (oder „Webspider“) ist ein Bot (Softwareprogramm), das Webdaten sammelt und indiziert (auch als Web-Scraping bekannt), so dass sie mithilfe einer Suchmaschine für Menschen zugänglich gemacht werden können, um Informationen zu finden.

    Ein Website-Crawler erreicht dies durch den Besuch einer Website (oder mehrerer Websites), das Herunterladen von Webseiten und das sorgfältige Folgen von Links auf Websites, um neu erstellte Inhalte zu entdecken. Das Website-Crawler-Tool katalogisiert die Informationen, die es entdeckt, in einem durchsuchbaren Index.

    Es gibt mehrere Arten von Website-Crawlern. Einige Crawler finden und indexieren Daten im gesamten Internet (das globale Informationssystem für Website-Informationen wird als World Wide Web bezeichnet). Zu den großen und bekannten Webcrawlern gehören Googlebot, Bingbot (für die Suchmaschine von Microsoft Bing), Baidu Spider (China) und Yandex (Russland). Darüber hinaus konzentrieren sich viele kleinere und weniger bekannte Webcrawler bei ihren Durchforstungsprozessen darauf, bestimmte Arten von Webdaten wie Bilder, Videos oder E-Mail-Adressen zu erkunden.

  • Ein Datenbank-Crawler ist ein bestimmter Typ von Webcrawler, der Informationen, die in Tabellen in einer Datenbank gespeichert sind, analysiert und katalogisiert. Wenn diese Informationen katalogisiert worden sind, können Menschen sie dann mithilfe von Suchmaschinen finden. 

    Verschiedene Arten von Datenbanken erfordern unterschiedliche Konfigurationen, damit der Crawler seine Informationen auf intelligente Weise extrahieren kann. Sie geben die Art der Daten und Felder an, die Sie durchforsten lassen möchten, und legen einen Durchforstungsplan fest.

    Ein Datenbank-Crawler behandelt jede Zeile in einer Tabelle als separates Dokument, wobei Spaltenwerte als durchsuchbare Felder analysiert und indiziert werden. 

    Ein Datenbank-Crawler kann auch mit einem Plug-in so eingerichtet werden, dass er verschiedene Tabellen durchforstet. In einer relationalen Datenbank ermöglicht dies das Zusammenfügen von Zeilen aus mehreren Tabellen, die die gleichen Schlüsselfelder haben, und deren Behandlung als nur ein Dokument. Wenn das Dokument dann in den Suchergebnissen angezeigt wird, erscheinen die Daten aus den verbundenen Tabellen als zusätzliche Felder.

  • Genau wie andere Webinhalte kann auch die XML-Sitemap einer Website von einem Webcrawler durchforstet werden. Wenn eine Website eine Sitemap-URL in ihrer Datei robots.txt hat, wird die Sitemap automatisch durchforstet. Sie können die URLs der XML-Sitemap jedoch auch separat mit einem Tool wie Screaming Frog herunterladen und durchforsten. 

    Um eine Sitemap-Datei in ein Format zu konvertieren, das ein Programm wie Screaming Frog durchforsten kann, importieren Sie die Datei in Microsoft Excel und kopieren die URLs in eine Textdatei.

    Wenn eine Sitemap „Schmutz“ enthält, das heißt, sie verweist auf veraltete Seiten, die zu einem Header-Antwortcode führen, der Fehler (wie etwa 404), Weiterleitungen oder Anwendungsfehler anzeigt, können die Daten, die von einem Crawler herausgefunden, indiziert und den Suchmaschinen zur Verfügung gestellt werden, fehlerhaft sein. Aus diesem Grund ist es sinnvoll, den Aufwand für das Durchforsten einer Sitemap nicht zu scheuen und eventuelle Probleme zu beheben.

    Woher wissen Sie, ob Ihre Sitemap „verschmutzt“ ist? In den Webmaster-Tools von Google zeigt Ihnen der Abschnitt „Sitemaps“ sowohl die Anzahl der in der Sitemap übermittelten Seiten als auch die Anzahl der indizierten Seiten an. Dies sollte ein Verhältnis von etwa 1 zu 1 sein. Wenn es ein Missverhältnis von wenig indiziertem Material zu einer hohen Anzahl von eingereichten Seiten gibt, könnten Fehler bei den URLs in der Sitemap vorliegen.


  • Das Ziel eines Webcrawler-Softwareprogramms (alias „Webspider“) ist es, Webseiten zu erkunden, Daten zu entdecken und abzurufen und sie zu indizieren, damit sie von Personen über eine Suchmaschine aufgerufen werden können. Ein Website-Crawler vervollständigt diese Aufgabe, indem er eine Website (oder mehrere Websites) systematisch untersucht, ihre einzelnen Webseiten herunterlädt und ihren Links folgt, um neue Inhalte zu identifizieren. Das Sitecrawler-Tool katalogisiert dann die gefundenen Informationen in einem durchsuchbaren Index, damit sie schnell abgerufen werden können.

  • Beim Web-Crawling erforscht ein Softwareprogramm (ein „Bot“) systematisch Websites, indiziert die gefundenen Daten und vereinfacht damit das Auffinden mit Hilfe einer Suchmaschine.

    Web-Scraping, eine etwas andere Form des Sammelns von Webdaten, beinhaltet das Sammeln (Herunterladen) bestimmter Arten von Informationen, zum Beispiel über die Preisgestaltung. 

    Im E-Commerce sind beide Arten der Datenerhebung besonders wertvoll, da die gesammelten und analysierten Daten zu datenbasierten Entscheidungen von Vermarktern führen können, die den Umsatz steigern können. 

    Vermarkter können beispielsweise Daten über Produkte, die auf anderen Websites verkauft werden, mit den gleichen Produkten vergleichen, die sie selbst verkaufen.

    Wenn sie herausfinden, dass Käufer routinemäßig bestimmte Schlüsselwörter in eine Suchmaschine eingeben, um ein bestimmtes Produkt zu finden, können sie beschließen, diese Wörter in die Produktbeschreibung aufzunehmen, um potenzielle Käufer zur Produktliste anzulocken.

    Die Verbraucher wollen in der Regel die besten Angebote, und sie haben es leicht, nach den niedrigsten Preisen im Web suchen. Wenn ein Unternehmen sieht, dass ein Wettbewerber einen niedrigeren Preis für ein von ihm angebotenes Produkt hat, kann es seinen eigenen Preis senken, um sicherzustellen, dass potenzielle Kunden nicht ausschließlich aufgrund niedrigerer Kosten das Produkt des Wettbewerbers wählen. 

    Durch die Erfassung von Produktbewertungen und Ranking-Daten können Vermarkter und Geschäftsleute Informationen über Schwachstellen bei ihren eigenen Produkten und denen der Konkurrenz aufdecken.

    Sie können die Crawler-Technologie auch verwenden, um Produktbewertungen und -Rankings zu überwachen, sodass sie schnell reagieren können, wenn Menschen negative Kommentare posten, und dadurch ihren Kundenservice verbessern.

    Sie können herausfinden, welche Produkte Bestseller sind und potenziell neue, heiße Märkte identifizieren.

    All diese umsatzwirksamen Aktivitäten machen das Webcrawling und Webscraping im E-Commerce zu einem wichtigen und lukrativen Teilbereich dieser Aktivitäten insgesamt.