Crawler

Setzen Sie Ihre Webinhalte mit dem Algolia Crawler frei

Mit unserem individualisierbaren gehosteten Web-Crawler, der die Internetseiten Ihrer Website katalogisiert und speichert, können Nutzer ganz einfach nach Ihren Inhalten suchen.

Kostenlos Starten
Demo Anfordern
Liberate web content with crawler

So funktioniert unser Website-Crawler

Ein Website-Crawler-Tool, mit dem alle Ihre Inhalte entdeckt werden, unabhängig davon, wo sie gespeichert sind

Features_provide your users

Bieten Sie Ihren Benutzern eine tolle Website-Suche

Sind Ihre Website-Inhalte in getrennten Systemen enthalten und werden von verschiedenen Teams verwaltet? Der erste Schritt zur Bereitstellung einer qualitativ hochwertigen Website-Suche ist die Implementierung eines erstklassigen Crawling-Prozesses.

Unsere Web-Spider kann Ihrem Unternehmen Zeit sparen und Ihre Ausgaben senken, indem sie den Aufbau von Datenpipelines zwischen jedem Ihrer Content-Repositories und Ihrer Website-Suchsoftware sowie das damit verbundene Projektmanagement überflüssig machen.

Features_Turn your site

Verwandeln Sie Ihre Website in strukturierte Inhalte

Sie können unserem Website-Crawler genau sagen, wie er funktionieren soll, damit er Ihre Inhalte richtig interpretiert. Zusätzlich zu Standard-Webseiten können Sie beispielsweise sicherstellen, dass Benutzer nach Nachrichtenartikeln, Stellenanzeigen und Finanzberichten suchen und navigieren können, einschließlich Informationen, die in Dokumenten, PDF-Dateien, HTML und JavaScript enthalten sind.

Features_You dont need to add

Meta-Tags sind nicht erforderlich

Sie können Ihre Inhalte extrahieren lassen, ohne zuvor Meta-Tags zu Ihrer Website hinzuzufügen. Unser Web-Crawler ist nicht auf benutzerdefinierte Metadaten angewiesen. Stattdessen bietet es Ihrem technischen Team einen benutzerfreundlichen Editor, um zu definieren, welche Inhalte Sie extrahieren und wie Sie diese strukturieren möchten.

Features_Enrich your content

Bereichern Sie Ihre Inhalte und erhöhen Sie die Relevanz

Um die Relevanz von Suchergebnissen für Ihre Benutzer zu verbessern, können Sie Ihre extrahierten Inhalte mit Business-Webdaten, einschließlich von Google Analytics und Adobe Analytics, anreichern. Mit dem Algolia Crawler können Sie Daten über das Besucherverhalten und die Seitenleistung verwenden, um Ihre Suchmaschinen-Rankings anzupassen und Ihren Inhalten Kategorien hinzuzufügen, um eine erweiterte Navigation zu unterstützen, und vieles mehr.

Konfigurieren Sie Ihr Crawling nach Bedarf

Features_Schedule automatic

Automatische Crawling-Sitzungen planen

Sie können unser Website-Crawler-Tool so konfigurieren, dass es Ihre Webdaten in einem festgelegten Echtzeitzeitplan ansieht, wie etwa jeden Abend um 21 Uhr, mit einer Wiederholung am Mittag des nächsten Tages.

Features_Manually set up

Manuelles Einrichten eines Crawls

Bei Bedarf können Sie manuell das Crawling eines bestimmten Abschnitts Ihrer Website oder sogar der gesamten Seite auslösen.

Features_Tell it where to go

Sagen Sie ihm, wohin er gehen soll

Sie können festlegen, welche Teile Ihrer Website oder welche Webseiten von unserem Webspider durchsucht (oder vermieden) werden sollen, oder Sie können sie automatisch überall durchsuchen lassen.

Features_Give permisson

Erlaubnis erteilen

Konfigurieren Sie unseren Crawler, um durch Anmeldung geschützte Seiten zu erkunden und zu indizieren.

Halten Sie Ihre durchsuchbaren Inhalte auf dem neuesten Stand

Features_URL inspector

URL Inspector

Auf der Registerkarte „Inspector“ können Sie alle Ihre durchforsteten URLs anzeigen und überprüfen, wobei Sie für jede Durchforstung feststellen können, ob sie erfolgreich war, wann sie abgeschlossen wurde und welche Datensätze generiert wurden.

Features_Monitoring

Monitoring

Auf der Registerkarte „Monitoring“ können Sie die Details zum letzten Durchforsten anzeigen und Ihre durchforsteten URLs nach Status sortieren (Erfolg, ignoriert, fehlgeschlagen).

Features_Data Analysis

Data Analysis

Auf der Registerkarte „Data Analysis“ können Sie die Qualität Ihres vom Webcrawler generierten Index beurteilen und sehen, ob es Datensätze mit fehlenden Attributen gibt.

Features_Path Explorer

Path Explorer

Auf der Registerkarte „Path Explorer“ können Sie sehen, welche Pfade der Crawler erforscht hat, und für jeden anzeigen, wie viele URLs durchforstet wurden, wie viele Datensätze extrahiert wurden und wie viele Fehler während des Crawling Prozesses aufgetreten sind.

Die fortschrittlichsten Unternehmen nutzen Algolia

Legalzoom
Wir haben erkannt, dass die Suche eine Kernkompetenz des Unternehmens LegalZoom sein sollte, und wir sehen Algolia als ein umsatzförderndes Produkt.

Mrinal Murari

Tools team lead & senior software engineer @ LegalZoom
Lesen Sie die Fallstudie

Empfohlener Inhalt

What is a web crawler?

What is a web crawler?

A web crawler is a bot—a software program—that systematically visits a website, or sites, and catalogs the data it finds.

30 days to improve our Crawler performance by 50%

30 days to improve our Crawler performance by 50%

This article is about how we reworked the internals of our app crawler, looked for bottlenecks, and streamlined tasks to optimize the processing of this complex parallel & distributed software.

Algolia Crawler

Algolia Crawler

An overview of what the Algolia Crawler can do for your website.

See more

Website-Crawler – Häufig gestellte Fragen

  • Ein Webcrawler (oder „Webspider“) ist ein Bot (Softwareprogramm), das Webdaten sammelt und indiziert (auch als Web-Scraping bekannt), so dass sie mithilfe einer Suchmaschine für Menschen zugänglich gemacht werden können, um Informationen zu finden.

    Ein Website-Crawler erreicht dies durch den Besuch einer Website (oder mehrerer Websites), das Herunterladen von Webseiten und das sorgfältige Folgen von Links auf Websites, um neu erstellte Inhalte zu entdecken. Das Website-Crawler-Tool katalogisiert die Informationen, die es entdeckt, in einem durchsuchbaren Index.

    Es gibt mehrere Arten von Website-Crawlern. Einige Crawler finden und indexieren Daten im gesamten Internet (das globale Informationssystem für Website-Informationen wird als World Wide Web bezeichnet). Zu den großen und bekannten Webcrawlern gehören Googlebot, Bingbot (für die Suchmaschine von Microsoft Bing), Baidu Spider (China) und Yandex (Russland). Darüber hinaus konzentrieren sich viele kleinere und weniger bekannte Webcrawler bei ihren Durchforstungsprozessen darauf, bestimmte Arten von Webdaten wie Bilder, Videos oder E-Mail-Adressen zu erkunden.

  • Ein Datenbank-Crawler ist ein bestimmter Typ von Webcrawler, der Informationen, die in Tabellen in einer Datenbank gespeichert sind, analysiert und katalogisiert. Wenn diese Informationen katalogisiert worden sind, können Menschen sie dann mithilfe von Suchmaschinen finden. 

    Verschiedene Arten von Datenbanken erfordern unterschiedliche Konfigurationen, damit der Crawler seine Informationen auf intelligente Weise extrahieren kann. Sie geben die Art der Daten und Felder an, die Sie durchforsten lassen möchten, und legen einen Durchforstungsplan fest.

    Ein Datenbank-Crawler behandelt jede Zeile in einer Tabelle als separates Dokument, wobei Spaltenwerte als durchsuchbare Felder analysiert und indiziert werden. 

    Ein Datenbank-Crawler kann auch mit einem Plug-in so eingerichtet werden, dass er verschiedene Tabellen durchforstet. In einer relationalen Datenbank ermöglicht dies das Zusammenfügen von Zeilen aus mehreren Tabellen, die die gleichen Schlüsselfelder haben, und deren Behandlung als nur ein Dokument. Wenn das Dokument dann in den Suchergebnissen angezeigt wird, erscheinen die Daten aus den verbundenen Tabellen als zusätzliche Felder.

  • Genau wie andere Webinhalte kann auch die XML-Sitemap einer Website von einem Webcrawler durchforstet werden. Wenn eine Website eine Sitemap-URL in ihrer Datei robots.txt hat, wird die Sitemap automatisch durchforstet. Sie können die URLs der XML-Sitemap jedoch auch separat mit einem Tool wie Screaming Frog herunterladen und durchforsten. 

    Um eine Sitemap-Datei in ein Format zu konvertieren, das ein Programm wie Screaming Frog durchforsten kann, importieren Sie die Datei in Microsoft Excel und kopieren die URLs in eine Textdatei.

    Wenn eine Sitemap „Schmutz“ enthält, das heißt, sie verweist auf veraltete Seiten, die zu einem Header-Antwortcode führen, der Fehler (wie etwa 404), Weiterleitungen oder Anwendungsfehler anzeigt, können die Daten, die von einem Crawler herausgefunden, indiziert und den Suchmaschinen zur Verfügung gestellt werden, fehlerhaft sein. Aus diesem Grund ist es sinnvoll, den Aufwand für das Durchforsten einer Sitemap nicht zu scheuen und eventuelle Probleme zu beheben.

    Woher wissen Sie, ob Ihre Sitemap „verschmutzt“ ist? In den Webmaster-Tools von Google zeigt Ihnen der Abschnitt „Sitemaps“ sowohl die Anzahl der in der Sitemap übermittelten Seiten als auch die Anzahl der indizierten Seiten an. Dies sollte ein Verhältnis von etwa 1 zu 1 sein. Wenn es ein Missverhältnis von wenig indiziertem Material zu einer hohen Anzahl von eingereichten Seiten gibt, könnten Fehler bei den URLs in der Sitemap vorliegen.


  • Das Ziel eines Webcrawler-Softwareprogramms (alias „Webspider“) ist es, Webseiten zu erkunden, Daten zu entdecken und abzurufen und sie zu indizieren, damit sie von Personen über eine Suchmaschine aufgerufen werden können. Ein Website-Crawler vervollständigt diese Aufgabe, indem er eine Website (oder mehrere Websites) systematisch untersucht, ihre einzelnen Webseiten herunterlädt und ihren Links folgt, um neue Inhalte zu identifizieren. Das Sitecrawler-Tool katalogisiert dann die gefundenen Informationen in einem durchsuchbaren Index, damit sie schnell abgerufen werden können.

  • Beim Web-Crawling erforscht ein Softwareprogramm (ein „Bot“) systematisch Websites, indiziert die gefundenen Daten und vereinfacht damit das Auffinden mit Hilfe einer Suchmaschine.

    Web-Scraping, eine etwas andere Form des Sammelns von Webdaten, beinhaltet das Sammeln (Herunterladen) bestimmter Arten von Informationen, zum Beispiel über die Preisgestaltung. 

    Im E-Commerce sind beide Arten der Datenerhebung besonders wertvoll, da die gesammelten und analysierten Daten zu datenbasierten Entscheidungen von Vermarktern führen können, die den Umsatz steigern können. 

    Vermarkter können beispielsweise Daten über Produkte, die auf anderen Websites verkauft werden, mit den gleichen Produkten vergleichen, die sie selbst verkaufen.

    Wenn sie herausfinden, dass Käufer routinemäßig bestimmte Schlüsselwörter in eine Suchmaschine eingeben, um ein bestimmtes Produkt zu finden, können sie beschließen, diese Wörter in die Produktbeschreibung aufzunehmen, um potenzielle Käufer zur Produktliste anzulocken.

    Die Verbraucher wollen in der Regel die besten Angebote, und sie haben es leicht, nach den niedrigsten Preisen im Web suchen. Wenn ein Unternehmen sieht, dass ein Wettbewerber einen niedrigeren Preis für ein von ihm angebotenes Produkt hat, kann es seinen eigenen Preis senken, um sicherzustellen, dass potenzielle Kunden nicht ausschließlich aufgrund niedrigerer Kosten das Produkt des Wettbewerbers wählen. 

    Durch die Erfassung von Produktbewertungen und Ranking-Daten können Vermarkter und Geschäftsleute Informationen über Schwachstellen bei ihren eigenen Produkten und denen der Konkurrenz aufdecken.

    Sie können die Crawler-Technologie auch verwenden, um Produktbewertungen und -Rankings zu überwachen, sodass sie schnell reagieren können, wenn Menschen negative Kommentare posten, und dadurch ihren Kundenservice verbessern.

    Sie können herausfinden, welche Produkte Bestseller sind und potenziell neue, heiße Märkte identifizieren.

    All diese umsatzwirksamen Aktivitäten machen das Webcrawling und Webscraping im E-Commerce zu einem wichtigen und lukrativen Teilbereich dieser Aktivitäten insgesamt.