Planen des Crawlens von Inhalten (Office SharePoint Server)

Inhalt dieses Artikels:

  • Informationen zum Crawlen und Indizieren von Inhalten

  • Identifizieren der Quellen von Inhalten, die Sie crawlen möchten

  • Planen von Inhaltsquellen

  • Planen von Authentifizierung

  • Planen von Protokollhandlern

  • Planen der Verwaltung von Auswirkungen des Crawlens

  • Planen von Crawlregeln

  • Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

  • Indizieren von Inhalten in verschiedenen Sprachen

  • Arbeitsblatt

Der Zweck dieses Artikels besteht darin, Suchdienstadministratoren darüber zu informieren, wie mit Microsoft Office SharePoint Server 2007 Inhalte gecrawlt und indiziert werden, und sie beim besseren Planen des Crawlens von Inhalten zu unterstützen.

Bevor Endbenutzer zum Suchen von Inhalt die Enterprise-Suchfunktion in Microsoft Office SharePoint Server 2007 verwenden können, müssen Sie zuerst den Inhalt crawlen, den Sie für Benutzerabfragen verfügbar machen möchten.

Für den Zweck dieses Artikels ist Inhalt ein beliebiges Element, das gecrawlt werden kann, zum Beispiel eine Webseite, ein Microsoft Office Word-Dokument, Geschäftsdaten oder eine E-Mail-Datei.

Bei der Planung des Crawlens von Inhalten sollten Sie die folgenden Fragen berücksichtigen:

  • Wo befinden sich die zu crawlenden Inhalte physisch?

  • Sind Teile des Inhalts, den Sie crawlen möchten, in unterschiedlichen Arten von Quellen gespeichert, wie Dateifreigaben, SharePoint-Websites, Websites oder andere Orte?

  • Möchten Sie sämtliche Inhalte in bestimmen Quellen crawlen oder nur einen Teil?

  • Aus welchen Dateitypen bestehen die Inhalte, die Sie crawlen möchten?

  • Wann und wie oft sollten Sie Inhalte crawlen?

  • Wie werden diese Inhalte geschützt?

Anhand der Informationen in diesem Artikel können Sie diese Fragen beantworten und die erforderlichen Planungsentscheidungen zu dem Inhalt treffen, den Sie crawlen möchten, sowie festlegen, wie und wann der Inhalt gecrawlt werden soll.

An Schlüsselstellen in diesem Artikel werden Sie aufgefordert, einen Abschnitt in einem Arbeitsblatt auszufüllen, das sich auf die Informationen bezieht, die Sie gelesen haben. Sie können Ihre Entscheidungen auf dem Arbeitsblatt vermerken, während Sie diesen Artikel lesen, oder alle Entscheidungen zusammen am Ende dieses Artikels treffen. Ein ausgefülltes Arbeitsblatt ist in beiden Fällen eine wertvolle Ressource, wenn Sie Ihre Suchlösung bereitstellen.

Hinweis

Dieser Artikel beschreibt den Prozess der Planung für das Crawlen und Indizieren von Inhalt in einem Index. Wenn Sie beim Planen des Crawlens des Inhalts feststellen, dass Sie einen zusätzlichen Inhaltsindex verwenden möchten, zeichnen Sie Ihre Planungsentscheidungen zu jedem Anbieter für gemeinsame Dienste auf einem separaten Arbeitsblatt auf.

Microsoft Office SharePoint Server 2007 umfasst den Office SharePoint Server-Suchdienst, der zum Crawlen und Indizieren von Inhalt verwendet wird. Dieser Dienst ist Teil eines Anbieters für gemeinsame Dienste, und sämtlicher mit einem bestimmten Anbieter für gemeinsame Dienste gecrawlter Inhalt wird in einem einzigen Index indiziert. Weitere Informationen zum Auswählen der Anzahl der Anbieter für gemeinsame Dienste für die Indizierung von Inhalt finden Sie unter Planen von Anbietern für gemeinsame Dienste.

Informationen zum Crawlen und Indizieren von Inhalten

Das Crawlen und Indizieren von Inhalt ist der Prozess, durch den das System zum Erstellen eines Inhaltsindex, mit dem Suchabfragen (als Metadaten bezeichnet) bedient werden können, auf Inhalt und dessen Eigenschaften zugreift und diesen analysiert.

Das Ergebnis des erfolgreichen Crawlens von Inhalt besteht darin, dass auf einzelne Dateien oder Teile von Inhalt, den Sie für Suchabfragen verfügbar machen möchten, vom Crawler aus zugegriffen und von diesem gelesen wird. Die Schlüsselwörter und Metadaten für diese Dateien werden in den Inhaltsindex, auch als Index bezeichnet, gespeichert. Der Index besteht aus den Schlüsselwörtern, die im Dateisystem des Indexservers und den in der Suchdatenbank gespeicherten Metadaten gespeichert sind. Das System verwaltet eine Zuordnung zwischen den Schlüsselwörtern, den Metadaten, die den einzelnen Inhaltsbestandteilen zugeordnet sind, von denen aus die Schlüsselwörter gecrawlt wurden, und die URL der Quelle, von der aus der Inhalt gecrawlt wurde.

Hinweis

Der Crawler ändert die Dateien auf den Hostservern in keiner Weise. Stattdessen wird auf die Dateien auf dem Hostserver einfach zugegriffen, die Dateien werden gelesen, und Text und Metadaten für diese Dateien werden zum Indizieren an den Indexserver gesendet. Da der Crawler den Inhalt jedoch auf dem Hostserver liest, aktualisieren einige Server, die bestimmte Inhaltsquellen hosten, möglicherweise das Datum des letzten Zugriffs auf Dateien, die gecrawlt wurden.

Identifizieren der Quellen der zu crawlenden Inhalte

In vielen Fällen erfordert der Bedarf der Organisation möglicherweise nur, dass Sie sämtliche Inhalte crawlen, die in den SharePoint-Websites der Serverfarm der Organisation enthalten sind. In diesem Fall müssen Sie die Quellen der zu crawlenden Inhalte nicht identifizieren, da alle Websitesammlungen einer Serverfarm mithilfe der standardmäßigen Inhaltsquelle gecrawlt werden können. Weitere Informationen zur standardmäßigen Inhaltsquelle finden Sie unter Planen von Inhaltsquellen weiter unten in diesem Artikel.

Viele Organisationen müssen auch Inhalt crawlen, der sich extern der Serverfarm befindet, beispielsweise Dateifreigaben oder Websites im Internet. Mit Microsoft Office SharePoint Server 2007 können Inhalte gecrawlt und indiziert werden, die von anderen Windows SharePoint Services- oder Office SharePoint Server-Farmen, Websites, Dateifreigaben, öffentlichen Microsoft Exchange-Ordnern und IBM Lotus Notes-Servern gehostet werden, sowie Geschäftsdaten, die in Datenbanken gespeichert sind. Dadurch erhöht sich die Menge des Inhalts erheblich, der für Suchabfragen verfügbar gemacht werden kann.

In vielen Fällen empfiehlt es sich jedoch, nicht alle Websitesammlungen auf der Serverfarm zu crawlen, da der in einigen Websitesammlungen gespeicherte Inhalt für die Suchergebnisse möglicherweise nicht relevant ist. In diesem Fall müssen Sie eine oder beide der folgenden Aktionen ausführen:

  • Vermerken Sie die Websitesammlungen, die nicht gecrawlt werden sollen. Wenn Sie die standardmäßige Inhaltsquelle verwenden möchten, müssen Sie sicherstellen, dass die Startadressen für die Websitesammlungen, die nicht gecrawlt werden sollen, in der standardmäßigen Inhaltsquelle nicht aufgeführt sind.

  • Vermerken Sie die einzelnen Startadressen der Websitesammlungen, die Sie crawlen möchten. Wenn Sie zusätzliche Inhaltsquellen zum Crawlen dieser Inhalte erstellen möchten, müssen Sie diese Startadressen kennen. Informationen dazu, wann eine oder mehrere Inhaltsquellen verwendet werden, finden Sie unter Planen von Inhaltsquellen weiter unten in diesem Artikel.

Wenn das Infrastrukturaktualisierung für Microsoft Office Server installiert ist, gibt es zwei Möglichkeiten, Suchabfragen zu verarbeiten, um den Benutzern Suchergebnisse zu liefern. Sie können den Inhaltsindex von Search Server abfragen, oder Sie können die Verbundsuche verwenden.

Tipp

Beachten Sie, dass das Infrastrukturaktualisierung für Microsoft Office Server in Microsoft Office SharePoint Server 2007 die Verbundsuchfunktionalität bereitstellt, die erstmals in Search Server 2008 zur Verfügung stand.

Jeder Ansatz bietet Vorteile. Eine Gegenüberstellung der beiden Konzepte der Verarbeitung von Suchabfragen finden Sie unter Übersicht über die Verbundsuche (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x407). Eine ausführliche Liste mit Artikeln zu Grundlagen und Verwendung der Verbundsuche finden Sie unter Arbeiten mit Verbunden (Office SharePoint Server). Weitere Informationen zum Infrastrukturupdate für Microsoft Office Server finden Sie unter Installieren des Infrastrukturupdates für Microsoft Office Server (Office SharePoint Server 2007).

Planen von Inhaltsquellen

Bevor Sie Inhalt crawlen können, müssen Sie zunächst ermitteln, wo und auf welchen Typen von Servern sich der Inhalt befindet. Nachdem diese Informationen gesammelt wurden, kann ein Administrator für gemeinsame Dienste eine oder mehrere Inhaltsquellen erstellen, die zum Crawlen dieses Inhalts verwendet werden. Diese Inhaltsquellen geben während eines Crawls dem Crawler die folgenden Informationen:

  • Typ der zu crawlenden Inhalte, beispielsweise eine SharePoint-Website oder eine Dateifreigabe

  • Startadresse, von der aus mit dem Crawlen begonnen werden soll

  • Das beim Crawlen zu verwendende Verhalten, beispielsweise wie tief von der Startadresse aus gecrawlt werden soll oder wie viele Serverwechsel erlaubt sein sollen

  • Crawlzeitplan

Hinweis

Das Crawlen von Inhalten mithilfe einer bestimmten Inhaltsquelle wird manchmal als "Crawlen der Inhaltsquelle" bezeichnet.

In diesem Abschnitt finden Sie Unterstützung für die Planung der Inhaltsquellen, die die Organisation benötigt.

Die standardmäßige Inhaltsquelle heißt Lokale Office SharePoint Server-Websites. Administratoren gemeinsamer Dienste können diese Inhaltsquelle verwenden, um sämtlichen Inhalt aller dem Anbieter für gemeinsame Dienste zugeordneten Webanwendungen zu crawlen und zu indizieren. Standardmäßig wird die Startadresse der Stammwebsite (in diesem Fall eine URL) jeder Websitesammlung, die in einer Webanwendung mit demselben Anbieter für gemeinsame Dienste erstellt wurde, von Microsoft Office SharePoint Server 2007 der standardmäßigen Inhaltsquelle hinzugefügt.

Einige Organisationen erfüllt die Verwendung der standardmäßigen Inhaltsquelle zum Crawlen aller Websites der Websitesammlungen die Suchanforderungen. Viele Organisationen benötigen jedoch zusätzliche Inhaltsquellen.

Es folgt eine Aufzählung der Gründe für die Notwendigkeit, zusätzliche Inhaltsquellen zu erstellen:

  • Crawlen unterschiedlicher Inhaltstypen

  • Crawlen bestimmter Inhalte mit Zeitplänen, die sich von denen anderer Inhalte unterscheiden

  • Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Administratoren gemeinsamer Dienste können bis zu 500 Inhaltsquellen für jeden Anbieter für gemeinsame Dienste erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Zur Vereinfachung der Verwaltung sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie benötigen.

Crawlen unterschiedlicher Inhaltstypen

Sie können nur eine Art von Inhalt pro Inhaltsquelle crawlen. Das heißt, dass Sie eine Inhaltsquelle erstellen können, die URLs für SharePoint-Websites enthält, und eine weitere Quelle, die URLs für Dateifreigaben enthält. Sie können jedoch keine einzelne Inhaltsquelle erstellen, die URLs sowohl für SharePoint-Websites und Dateifreigaben enthält. In der folgenden Tabelle werden die Typen von Inhaltsquellen angeführt, die konfiguriert werden können.

Dieser Inhaltsquellentyp Enthält diesen Inhaltstyp

SharePoint-Websites

SharePoint-Websites von der gleichen Farm oder von verschiedenen Microsoft Office SharePoint Server 2007-, Windows SharePoint Services 3.0- oder -Farmen

SharePoint-Websites von Microsoft Office SharePoint Portal Server 2003- oder Microsoft Windows SharePoint Services 2.0-Farmen

Hinweis

Im Gegensatz zum Crawlen von SharePoint-Websites in Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3.0 oder können mit dem Crawler nicht automatisch alle Unterwebsites in einer Websitesammlung aus früheren Versionen von SharePoint-Produkten und -Technologien gecrawlt werden. Daher müssen Sie beim Crawlen von SharePoint-Websites aus vorherigen Versionen jeweils die URL der zu crawlenden Website der obersten Ebene und der zu crawlenden Unterwebsite angeben. Websites, die im Websiteverzeichnis von Microsoft Office SharePoint Portal Server 2003-Farmen aufgeführt sind, werden gecrawlt, wenn die Portalwebsite gecrawlt wird. Weitere Informationen zum Websiteverzeichnis finden Sie unter Informationen zum Websiteverzeichnis (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x407).

Websites

Andere Webinhalte der Organisation, die auf SharePoint-Websites nicht gefunden werden

Inhalte von Websites im Internet

Dateifreigaben

Inhalte in Dateifreigaben innerhalb der Organisation

Öffentliche Exchange-Ordner

Microsoft Exchange Server-Inhalte

Lotus Notes

In Lotus Notes-Datenbanken gespeicherte E-Mails

Hinweis

Im Gegensatz zu allen anderen Arten von Inhaltsquellen wird die Option für Lotus Notes-Inhaltsquellen nicht auf der Benutzeroberfläche angezeigt, bis Sie die entsprechende erforderliche Software installiert und konfiguriert haben. Weitere Informationen finden Sie unter Konfigurieren der Office SharePoint Server-Suche für das Crawlen von Lotus Notes (Office SharePoint Server 2007).

Geschäftsdaten

Geschäftsdaten in Branchenanwendungen

Planen der Inhaltsquellen für Geschäftsdaten

Inhaltsquellen von Geschäftsdaten erfordern, dass die Hostanwendungen der Daten zuerst im Geschäftsdatenkatalog registriert werden. Sie müssen eine oder mehrere separate Inhaltsquellen für die Typen von Inhaltsquellen der Geschäftsdaten erstellen, um Geschäftsdaten zu crawlen. Sie können eine Inhaltsquelle zum Crawlen aller im Geschäftsdatenkatalog registrierten Anwendungen erstellen, oder Sie können separate Inhaltsquellen zum Crawlen einzelner im Geschäftsdatenkatalog registrierter Anwendungen erstellen.

Häufig sind die Personen, die die Integration von Geschäftsdaten in Ihre Websitesammlungen planen, nicht dieselben Personen, die am gesamten Inhaltsplanungsprozess beteiligt sind. Schließen Sie daher Geschäftsanwendungsadministratoren in Ihre Inhaltsplanungsteams ein, sodass diese Sie bei der Integration der Daten in Ihren weiteren Inhalt beraten und in diesen Ihren Websitesammlungen effektiv darstellen kann.

Weitere Informationen zum Planen der Geschäftsdatensuche finden Sie unter Planen der Geschäftsdatensuche.

Crawlen von Inhalten mit unterschiedlichen Zeitplänen

Administratoren gemeinsamer Dienste müssen häufig entscheiden, ob bestimmter Inhalt häufiger als anderer Inhalt gecrawlt wird. Je größer das Volumen an Inhalt, den Sie crawlen, desto wahrscheinlicher ist es, dass Sie Inhalt aus unterschiedlichen Quellen crawlen. Diese unterschiedlichen Quellen können vom selben Typ sein und auf Servern unterschiedlicher Geschwindigkeiten gehostet werden.

Diese Faktoren machen es wahrscheinlicher, dass Sie zusätzliche Inhaltsquellen benötigen, um diese unterschiedlichen Inhaltsquellen zu unterschiedlichen Zeiten zu crawlen.

Folgende sind die Hauptgründe für das Crawlen von Inhalten mit unterschiedlichen Zeitplänen:

  • Ausgleich von Downtimes und Zeiten mit Spitzenauslastung

  • Häufigeres Crawlen von Inhalten, die häufiger aktualisiert werden

  • Getrenntes Crawlen von Inhalten, die auf langsameren beziehungsweise schnelleren Hostservern gehostet werden

In vielen Fällen können nicht alle diese Informationen bekannt sein, bevor Microsoft Office SharePoint Server 2007 bereitgestellt ist und bereits für einige Zeit verwendet wird. Stattdessen werden einige dieser Entscheidungen während der Vorgänge vorgenommen. Allerdings empfiehlt es sich, diese Faktoren bei der Planung zu berücksichtigen, sodass Sie Ihre Crawlzeitpläne anhand der verfügbaren Informationen planen können.

Die folgenden zwei Abschnitte enthalten weitere Informationen zum Crawlen von Inhalten mit unterschiedlichen Zeitplänen.

Downtimes und Spitzenauslastungszeiten

Berücksichtigen Sie Downtimes und Spitzenauslastungszeiten der Server, auf denen der zu crawlende Inhalt gehostet wird. Wenn Sie beispielsweise Inhalt crawlen, der auf vielen verschiedenen Servern außerhalb der Serverfarm gehostet wird, ist es wahrscheinlich, dass diese Server mit unterschiedlichen Zeitplänen gesichert werden und unterschiedliche Spitzenauslastungszeiten haben. Die Verwaltung von Servern außerhalb der Serverfarm unterliegt normalerweise nicht Ihrer Kontrolle. Daher empfiehlt es sich, dass Sie die Crawlvorgänge mit den Administratoren der Server koordinieren, auf denen der Inhalt, den Sie crawlen möchten, gehostet wird. Damit stellen Sie sicher, dass Sie nicht versuchen, Inhalt auf den Servern zu Downtimes oder Spitzenauslastungszeiten zu crawlen.

Ein häufiges Szenario umfasst Inhalt außerhalb der Kontrolle Ihrer Organisation, der sich auf Inhalt Ihrer SharePoint-Websites bezieht. Sie können die Startadressen für diesen Inhalt einer vorhandenen Inhaltsquelle hinzufügen oder eine neue Inhaltsquelle für externen Inhalt erstellen. Da die Verfügbarkeit von externen Websites stark variiert, ist es hilfreich, separate Inhaltsquellen für unterschiedlichen externen Inhalt hinzuzufügen. Auf diese Weise können die Inhaltsquellen für externen Inhalt zu anderen Zeitpunkten als die übrigen Inhaltsquellen gecrawlt werden. Sie können externen Inhalt dann mit einem Crawlzeitplan aktualisieren, der die Verfügbarkeit jeder Website berücksichtigt.

Häufig aktualisierte Inhalte

Berücksichtigen Sie bei der Planung von Crawlzeitplänen, dass einige Inhaltsquellen normalerweise häufiger als andere aktualisiert werden. Angenommen, Sie wissen, dass der Inhalt einiger Websitesammlungen oder externer Quellen nur freitags aktualisiert wird, wäre es Ressourcenverschwendung, diesen Inhalt häufiger als einmal wöchentlich zu crawlen. Allerdings kann Ihre Serverfarm möglicherweise andere Websitesammlungen enthalten, die montags bis freitags ständig aktualisiert werden, normalerweise aber nicht an Samstagen und Sonntagen. In diesem Fall möchten Sie an Wochentagen möglicherweise täglich mehrmals crawlen, aber nur ein- oder zweimal an Wochenenden.

Die Art, auf den Inhalt über die Websitesammlungen Ihrer Umgebung gespeichert wird, kann Sie zur Erstellung zusätzlicher Inhaltsquellen für jede Ihrer Websitesammlungen in allen Ihren Webanwendungen führen. Angenommen, wenn eine Websitesammlung nur archivierte Informationen speichert, müssen Sie diesen Inhalt möglicherweise nicht so häufig crawlen wie eine Websitesammlung, in der häufig aktualisierter Inhalt gespeichert ist. In diesem Fall empfiehlt es sich möglicherweise, diese zwei Websitesammlungen mit verschiedene Inhaltsquellen zu crawlen, sodass diese mit unterschiedlichen Zeitplänen gecrawlt werden, ohne die Archivwebsites so häufig wie den anderen Inhalt zu crawlen.

Vollständige und inkrementelle Crawlzeitpläne

Die Administratoren gemeinsamer Dienste können die Crawlzeitpläne für jede Inhaltsquelle unabhängig konfigurieren. Für jede Inhaltsquelle können Zeiten für vollständige Crawls und separate Zeiten für inkrementelle Crawls angegeben werden. Beachten Sie, dass Sie einen vollständigen Crawlvorgang für eine bestimmte Inhaltsquelle ausführen müssen, bevor Sie einen inkrementellen Crawl ausführen können. Wenn Sie einen inkrementellen Crawl für Inhalt auswählen, der noch nicht gecrawlt wurde, führt das System einen vollständigen Crawlvorgang durch.

Hinweis

Bei einem vollständigen Crawl werden unabhängig davon, ob die Inhalte bereits gecrawlt wurden, alle vom Crawler gefundenen Inhalte gecrawlt, für die der Crawler mindestens über Lesezugriff verfügt. Daher können vollständige Crawls erheblich mehr Zeit beanspruchen als inkrementelle Crawls.

Es wird empfohlen, Crawlzeitpläne auf Grundlage von Verfügbarkeit, Leistung und Bandbreite der Server, auf denen der Suchdienst ausgeführt wird, sowie der Server zu planen, auf denen der zu crawlende Inhalt gehostet wird.

Berücksichtigen Sie bei der Planung von Crawlzeitplänen die folgenden bewährten Methoden:

  • Gruppieren Sie Startadressen in Inhaltsquellen basierend auf ähnlicher Verfügbarkeit und mit akzeptabler Gesamtverwendung der Ressourcen für die Server, auf denen die Inhalte gehostet werden.

  • Planen Sie inkrementelle Crawls für die einzelnen Inhaltsquellen zu Zeiten, in denen die Server, die die Inhalte hosten, verfügbar sind und die Serverressourcen nur wenig beansprucht werden.

  • Staffeln Sie Crawlzeitpläne, sodass die Belastung der Server in der Serverfarm über einen Zeitraum verteilt wird.

  • Planen Sie vollständige Crawls nur, wenn Gründe vorliegen, die im nächsten Abschnitt aufgeführt sind. Es wird empfohlen, dass Sie vollständige Crawlvorgänge seltener als inkrementelle Crawls vornehmen.

  • Planen Sie die Ausführung von Verwaltungsänderungen, die einen vollständigen Crawlvorgang erfordern, kurz vor dem geplanten Zeitpunkt für vollständige Crawls. Es empfiehlt sich beispielsweise, die Erstellung der Crawlregel vor dem nächsten geplanten vollständigen Crawlvorgang vorzunehmen, sodass kein zusätzlicher vollständiger Crawl erforderlich ist.

  • Machen Sie für gleichzeitige Crawls die Kapazität des Indexservers, diese zu crawlen, zur Grundlage. Es wird empfohlen, dass Sie Ihre Crawlzeitpläne unter Normalbedingungen staffeln, sodass der Indexserver nicht auf einmal mit mehreren Inhaltsquellen crawlt. Für eine optimale Leistung wird empfohlen, dass Sie die Crawlzeitpläne der Inhaltsquellen staffeln. Die Leistung des Indexservers sowie der Server, die den Inhalt hosten, bestimmt das Ausmaß, in dem überlappende Crawlvorgänge möglich sind. Eine Strategie für die Zeitplanung von Crawls kann mit der Zeit entwickelt werden, während Sie sich mit der typischen Crawldauer für jede Inhaltsquelle vertraut machen.

Gründe für einen vollständigen Crawl

Suchdienstadministratoren können aus den folgenden Gründen einen vollständigen Crawl ausführen:

  • Auf Servern in der Farm wurde mindestens ein Hotfix oder Service Pack installiert. Weitere Informationen finden Sie in den Anweisungen für den Hotfix oder das Service Pack.

  • Ein SSP-Administrator hat eine neue verwaltete Eigenschaft hinzugefügt.

  • Erneute Indizierung von ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites

    Hinweis

    Der Crawler kann nicht ermitteln, wann ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites geändert wurden. Daher wird bei inkrementellen Crawls keine erneute Indizierung von Ansichten oder Homepages vorgenommen wenn einzelne Listenelemente gelöscht werden. Es wird empfohlen, dass Sie regelmäßig vollständige Crawlvorgänge von Websites vornehmen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten erneut indiziert werden.

  • Zur Behebung von Fehlern bei aufeinander folgenden inkrementellen Crawls. Tritt bei einem inkrementellen Crawl einhundert Mal in Folge auf einer beliebigen Ebene eines Repositorys ein Fehler auf, entfernt der Indexserver in seltenen Fällen den betroffenen Inhalt aus dem Index.

  • Es wurden Crawlregeln hinzugefügt, gelöscht oder geändert.

  • Zum Reparieren eines beschädigten Index.

  • Der Suchdienstadministrator hat mindestens eine Servernamenszuordnung erstellt.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

Vom System wird unter folgenden Umständen selbst dann ein vollständiger Crawl ausgeführt, wenn ein inkrementeller Crawl angefordert wird:

  • Ein SSP-Administrator hat den vorherigen Crawl angehalten.

  • Eine Inhaltsdatenbank wurde aus einer Sicherung wiederhergestellt.

    Hinweis

    Wenn Sie das Infrastrukturaktualisierung für Microsoft Office Server ausführen, können Sie den restore-Vorgang des Befehlszeilentools stsadm verwenden, um zu ändern, ob durch die Wiederherstellung einer Inhaltsdatenbank ein vollständiger Crawl verursacht wird.

  • Ein Farmadministrator hat eine Inhaltsdatenbank getrennt und erneut angefügt.

  • Es wurde noch nie ein vollständiger Crawl der Website ausgeführt.

  • Das Änderungsprotokoll enthält keine Einträge für die Adressen, die gecrawlt werden. Ohne Einträge im Änderungsprotokoll für die gecrawlten Elemente können keine inkrementellen Crawls erfolgen.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

  • Zum Reparieren eines beschädigten Index

    Je nach Schweregrad der Beschädigung wird vom System möglicherweise versucht, einen vollständigen Crawl auszuführen, wenn eine Beschädigung im Index erkannt wird.

Sie können Zeitpläne nach der anfänglichen Bereitstellung auf Grundlage von Leistung und Kapazität der Server in der Farm und den Servern, die den Inhalt hosten, anpassen.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu den Inhaltsquellen der anfänglichen Bereitstellung in die Tabellen im Abschnitt Content sources des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Für jede Inhaltsquelle können Sie auswählen, wie umfassend die Startadressen in dieser Inhaltsquelle gecrawlt werden sollen. Sie geben auch das Crawlverhalten an, das auch als Crawleinstellungen bezeichnet wird. Die Optionen, die Sie für eine bestimmte Inhaltsquelle auswählen können, variieren basierend auf dem ausgewählten Inhaltsquellentyp. Die meisten Optionen bestimmen jedoch, wie viele Ebenen der Hierarchie von jeder in der Inhaltsquelle aufgeführten Startadresse aus gecrawlt werden. Beachten Sie, dass dieses Verhalten auf alle Startadressen in einer bestimmten Inhaltsquelle angewendet wird. Wenn Sie einige Websites auf tieferen Ebenen crawlen möchten, können Sie zusätzliche Inhaltsquellen erstellen, die diese Websites umfassen.

Die in den Eigenschaften für jede Inhaltsquelle verfügbaren Optionen variieren abhängig vom ausgewählten Inhaltsquellentyp. In der folgenden Tabelle werden die Optionen der Crawleinstellungen für jeden Inhaltsquellentyp beschrieben.

Inhaltsquellentyp Optionen für Crawleinstellungen

SharePoint-Websites

Alles unter dem Hostnamen für jede Startadresse

Nur die SharePoint-Website für jede Startadresse

Websites

Nur innerhalb des Servers jeder Startadresse

Nur die erste Seite jeder Startadresse

Benutzerdefiniert – Seitentiefe und Anzahl der Serverwechsel angeben

Hinweis

Die Standardeinstellung für diese Option sind unbegrenzte Seitentiefen und Serverwechsel.

Dateifreigaben

Der Ordner und sämtliche Unterordner der einzelnen Startadressen

Nur der Ordner der einzelnen Startadressen

Öffentliche Exchange-Ordner

Der Ordner und sämtliche Unterordner der einzelnen Startadressen

Nur der Ordner der einzelnen Startadressen

Geschäftsdaten

Gesamten Geschäftsdatenkatalog crawlen

Ausgewählte Anwendungen crawlen

Wie in der obigen Tabelle gezeigt wird, können Administratoren gemeinsamer Dienste die Optionen für die Crawleinstellungen verwenden, um die Menge des gecrawlten Inhalts einzuschränken oder zu erhöhen.

In der folgenden Tabelle werden bewährte Methoden zum Konfigurieren der Optionen für Crawleinstellungen beschrieben.

Für diesen Inhaltsquellentyp Wenn dies gilt Diese Option der Crawleinstellung verwenden

SharePoint-Websites

Sie möchten die Inhalte auf der Website selbst einschließen.

- oder -

Sie möchten die auf Unterwebsites verfügbaren Inhalte nicht einschließen, oder Sie möchten diese mit einem anderen Zeitplan crawlen.

Nur die SharePoint-Website für jede Startadresse crawlen

SharePoint-Websites

Sie möchten die Inhalte auf der Website selbst einschließen.

- oder -

Sie möchten sämtliche Inhalte unter der Startadresse mit dem gleichen Zeitplan crawlen.

Alles unter dem Hostnamen für jede Startadresse crawlen

Websites

Die Inhalte auf der Website selbst sind relevant.

- oder -

Die auf verknüpften Websites verfügbaren Inhalte sind wahrscheinlich nicht relevant.

Nur innerhalb des Servers jeder Startadresse crawlen

Websites

Relevante Inhalte befinden sich nur auf der ersten Seite.

Nur die erste Seite jeder Startadresse crawlen

Websites

Sie möchten die Tiefe beschränken, mit der die Links der Startadressen gecrawlt werden.

Benutzerdefiniert – Geben Sie die Seitentiefe und die Anzahl der Serverwechsel des Crawls an.

Hinweis

Es wird empfohlen, mit einer kleinen Anzahl auf einer stark vernetzten Website zu beginnen, da möglicherweise das gesamte Internet gecrawlt wird, wenn eine Tiefe von mehr als drei Seiten angegeben wird oder mehr als drei Serverwechsel angegeben werden.

Dateifreigaben

Öffentliche Exchange-Ordner

Die in den Unterordnern verfügbaren Inhalte sind wahrscheinlich nicht relevant.

Nur den Ordner der einzelnen Startadressen crawlen

Dateifreigaben

Öffentliche Exchange-Ordner

Die Inhalte in den Unterordnern sind wahrscheinlich relevant.

Ordner und Unterordner der einzelnen Startadressen crawlen

Geschäftsdaten

Alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevante Inhalte.

Gesamten Geschäftsdatenkatalog crawlen

Geschäftsdaten

Nicht alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevante Inhalte.

- oder -

Sie möchten einige Anwendungen mit einem anderen Zeitplan crawlen.

Ausgewählte Anwendungen crawlen

Planen von Dateitypinklusionen und IFilters

Inhalt wird nur gecrawlt, wenn die entsprechende Dateinamenerweiterung in der Liste der Dateitypeinschlüsse enthalten und ein IFilter auf dem Indexserver installiert ist, der diese Dateitypen unterstützt. Verschiedene Dateitypen sind automatisch bei der Erstinstallation enthalten. Bei der Planung von Inhaltsquellen für die anfängliche Bereitstellung ermitteln Sie, ob zu crawlender Inhalt nicht enthaltene Dateitypen verwendet. Wenn Dateitypen nicht enthalten sind, müssen Sie diese Dateitypen während der Bereitstellung auf der Seite Dateitypen verwalten hinzufügen und sicherstellen, dass ein entsprechender IFilter für diesen Dateityp installiert und registriert ist.

Microsoft Office SharePoint Server 2007 bietet mehrere IFilters, und weitere Filter sind über Microsoft und Drittanbieter verfügbar. Informationen zum Installieren und Registrieren von zusätzlichen IFilters von Microsoft finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server 2008 (möglicherweise maschinelle Übersetzung) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x407). Gegebenenfalls können Softwareentwickler IFilters für neue Dateitypen erstellen.

Wenn andererseits bestimmte Dateitypen nicht gecrawlt werden sollen, können Sie die Dateinamenerweiterung für diesen Dateityp aus der Liste der Dateitypeinschlüsse löschen. Damit werden Dateinamen mit dieser Erweiterung vom Crawlen ausgeschlossen.

Die folgende Tabelle enthält eine Liste von Dateitypen, die von den standardmäßig installierten IFilters unterstützt werden, sowie derjenigen Dateitypen, die standardmäßig auf der Seite Dateitypen verwalten aktiviert sind.

Dateinamenerweiterung Standardmäßige IFilter-Unterstützung Standardmäßige Dateitypinklusionen

ASCX

Ja

Ja

ASM

Ja

Nein

ASP

Ja

Ja

ASPX

Ja

Ja

BAT

Ja

Nein

C

Ja

Nein

CMD

Ja

Nein

CPP

Ja

Nein

CSS

Ja

Nein

CXX

Ja

Nein

DEF

Ja

Nein

DIC

Ja

Nein

DOC

Ja

Ja

DOCM

Ja

Ja

DOCX

Ja

Ja

DOT

Ja

Ja

EML

Ja

Ja

EXCH

Nein

Ja

H

Ja

Nein

HHC

Ja

Nein

HHT

Ja

Nein

HPP

Ja

Nein

HTA

Ja

Nein

HTM

Ja

Ja

HTML

Ja

Ja

HTW

Ja

Nein

HTX

Ja

Nein

JHTML

Nein

Ja

JSP

Nein

Ja

LNK

Ja

Nein

MHT

Ja

Ja

MHTML

Ja

Ja

MPX

Ja

Nein

MSG

Ja

Ja

MSPX

Nein

Ja

NSF

Nein

Ja

ODC

Ja

Ja

ONE

Nein

Nein

PHP

Nein

Ja

POT

Ja

Nein

PPS

Ja

Nein

PPT

Ja

Ja

PPTM

Ja

Ja

PPTX

Ja

Ja

PUB

Ja

Ja

STM

Ja

Nein

TIF

Ja

Ja

TIFF

Nein

Ja

TRF

Ja

Nein

TXT

Ja

Ja

URL

Nein

Ja

VDX

Nein

Ja

VSD

Nein

Ja

VSS

Nein

Ja

VST

Nein

Ja

VSX

Nein

Ja

VTX

Nein

Ja

XLB

Ja

Nein

XLC

Ja

Nein

XLS

Ja

Ja

XLSM

Ja

Ja

XLSX

Ja

Ja

XLT

Ja

Nein

XML

Ja

Ja

IFilters und Microsoft Office OneNote

Für die von Microsoft Office OneNote 2007 verwendete Dateinamenerweiterung ONE wird kein IFilter bereitgestellt. Wenn Sie möchten, dass Benutzer in der Lage sind, Inhalt in Office OneNote-Dateien zu durchsuchen, müssen Sie einen IFilter für OneNote installieren. Dazu müssen Sie eine der folgenden Methoden verwenden.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Dateitypeinschlüssen und IFilters für die anfängliche Bereitstellung im Abschnitt File-type inclusions and IFilters des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalt" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Begrenzen oder Ausschließen von Inhalten mithilfe von Crawlregeln

Beim Hinzufügen einer Startadresse zu einer Inhaltsquelle und dem Akzeptieren des Standardverhaltens werden alle Unterwebsites oder Ordner unterhalb dieser Startadresse gecrawlt, sofern Sie diese nicht mithilfe einer oder mehrerer Crawlregeln ausschließen.

Weitere Informationen zu Crawlregeln finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Weitere Überlegungen beim Planen von Inhaltsquellen

Sie können nicht dieselben Adressen unter Verwendung mehrerer Inhaltsquellen crawlen. Wenn Sie beispielsweise eine bestimmte Inhaltsquelle verwenden, um eine Websitesammlung und alle dazugehörigen Unterwebsites zu crawlen, können Sie keine andere Inhaltsquelle verwenden, um eine dieser Unterwebsites separat mit einem anderen Zeitplan zu crawlen. Zur Berücksichtigung dieser Einschränkung müssen Sie möglicherweise einige dieser Websites separat crawlen. Beachten Sie folgendes Szenario:

Der SSP-Administrator bei Contoso möchte die Website http://contoso crawlen, die die Unterwebsites http://contoso/websites/website1 und http://contoso/websites/website2 enthält. Er möchte http://contoso/websites/website2 mit einem anderen Zeitplan als die anderen Websites crawlen. Zu diesem Zweck fügt er einer Inhaltsquelle die Adressen http://contoso und http://contoso/websites/website1 hinzu und wählt die Einstellung Nur die SharePoint-Website für jede Startadresse crawlen. Dann fügt er http://contoso/websites/website2 einer anderen Inhaltsquelle hinzu und gibt einen anderen Zeitplan für diese Inhaltsquelle an.

Zusätzlich zu Crawlzeitplänen müssen bei der Planung von Inhaltsquellen noch andere Punkte berücksichtigt werden. Ob Sie beispielsweise Startadressen in einer einzigen Inhaltsquelle gruppieren oder zusätzliche Inhaltsquellen erstellen, um diese Startadressen zu crawlen, hängt weitgehend von Verwaltungsüberlegungen ab. Administratoren nehmen häufig Änderungen vor, die ein vollständiges Update einer bestimmten Inhaltsquelle erfordern. Änderungen einer Inhaltsquelle erfordern einen vollständigen Crawlvorgang für diese Inhaltsquelle. Organisieren Sie zum Vereinfachen der Verwaltung die Inhaltsquellen so, dass Updates von Inhaltsquellen, Crawlregeln und Inhaltscrawlen für die Administratoren bequem sind.

Zusammenfassung der Inhaltsquellen

Berücksichtigen Sie bei der Planung der Inhaltsquellen die folgenden Punkte:

  • Eine bestimmte Inhaltsquelle kann nur zum Crawlen eines der folgenden Inhaltstypen verwendet werden: SharePoint-Websites, Websites, die keine SharePoint-Websites sind, Dateifreigaben, öffentliche Exchange-Ordner, Lotus Notes-Datenbanken und Geschäftsdaten.

  • Administratoren gemeinsamer Dienste können bis zu 500 Inhaltsquellen in jeder SSP erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Sie sollten nur so viele Inhaltsquellen erstellen, wie Sie unbedingt benötigen, um die Verwaltung möglichst einfach zu halten.

  • Jede URL in einer bestimmten Inhaltsquelle muss vom gleichen Inhaltsquellentyp sein.

  • Für eine bestimmte Inhaltsquelle können Sie auswählen, wie tief von den Startadressen aus gecrawlt werden soll. Diese Konfigurationseinstellungen gelten für alle Startadressen in der Inhaltsquelle. Die verfügbaren Auswahlmöglichkeiten für die Crawltiefe der Startadressen weichen in Abhängigkeit vom ausgewählten Inhaltsquellentyp ab.

  • Sie können die Ausführung eines vollständigen oder inkrementellen Crawls für die gesamte Inhaltsquelle planen. Weitere Informationen zur Planung von Crawlvorgängen finden Sie unter "Vollständige und inkrementelle Crawlzeitpläne" weiter oben in diesem Artikel.

  • Administratoren gemeinsamer Dienste können die standardmäßige Inhaltsquelle ändern, zusätzliche Inhaltsquellen zum Crawlen anderen Inhalts oder beides erstellen. Die standardmäßige Inhaltsquelle kann beispielsweise so konfiguriert werden, dass Inhalt auch auf einer anderen Serverfarm gecrawlt werden kann, oder es können neue Inhaltsquellen zum Crawlen anderen Inhalts erstellt werden.

  • Verwenden Sie so viele Inhaltsquellen, wie für die Arten von zu crawlenden Quellen und die Häufigkeit, mit der Sie Crawlen möchten, sinnvoll ist, damit sämtlicher von Ihrer Organisation benötigter Inhalt effektiv gecrawlt wird.

Planen von Authentifizierung

Wenn der Crawler auf die in den Inhaltsquellen aufgelisteten Startadressen zugreift, muss der Crawler von den Servern authentifiziert werden und von den Servern Zugriff erhalten, auf dem der Inhalt gehostet wird. Dies bedeutet, dass das vom Crawler verwendete Domänenkonto mindestens über Leseberechtigung für den Inhalt verfügen muss.

Das Standardkonto für den Inhaltszugriff ist das Konto, das standardmäßig beim Crawlen von Inhaltsquellen verwendet wird. Dieses Konto wird durch den Administrator der gemeinsamen Dienste angegeben. Sie können alternativ Crawlregeln verwenden, um ein anderes Konto für den Inhaltszugriff anzugeben, das beim Crawlen bestimmten Inhalts verwendet wird. Unabhängig davon, ob Sie das Standardkonto für den Inhaltszugriff oder dafür ein anderes durch eine Crawlregel angegebenes Konto verwenden, muss das für den Inhaltszugriff verwendete Konto über Lesezugriff für sämtlichen Inhalt verfügen, der gecrawlt wird. Andernfalls wird der Inhalt nicht gecrawlt und ist für Abfragen nicht verfügbar.

Es wird empfohlen, dass Sie ein Standardkonto für den Inhaltszugriff wählen, das mit dem umfangreichsten Zugriff auf den Großteil des gecrawlten Inhalts verfügt, und andere Inhaltszugriffskonten nur verwenden, wenn Sicherheitsüberlegungen separate Inhaltszugriffskonten erforderlich machen. Weitere Informationen zum Erstellen eines separaten Inhaltszugriffskontos zum Crawlen von Inhalt, der nicht mit dem Standardkonto für den Inhaltszugriff gelesen werden kann, finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Identifizieren Sie für jede geplante Inhaltsquelle die Startadressen, auf die nicht mit dem Standardkonto für den Inhaltszugriff zugegriffen werden kann, und planen Sie das Hinzufügen von Crawlregeln für URL-Muster, die diese Startadressen umfassen.

Hinweis

Stellen Sie sicher, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein beliebiges anderes Konto Inhaltszugriff verwendet wird, nicht dasselbe Domänenkonto ist, das von einem Anwendungspool verwendet wird, der einer von Ihnen gecrawlten Anwendung zugeordnet ist. Dadurch wird möglicherweise unveröffentlichter Inhalt auf SharePoint-Websites und kleinere Versionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert.

Weitere Informationen zu den Planungsüberlegungen für Inhaltszugriffskonten finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Arbeitsblattaktion

Tragen Sie das Standardkonto für den Inhaltszugriff, das vom Crawler beim Crawlen von Inhalten verwendet wird, in den Abschnitt Default content access account des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Ein weiterer wichtiger Aspekt ist, dass der Crawler dieselbe Authentifizierungsmethode wie der Hostserver verwenden muss. Standardmäßig versucht der Crawler, mit NTLM-Authentifizierung zu authentifizieren. Sie können den Crawler bei Bedarf für die Verwendung einer anderen Authentifizierungsmethode konfigurieren. Weitere Informationen finden Sie in den Artikeln zu den Authentifizierungsanforderungen für das Crawlen von Inhalt unter Planen von Authentifizierungsmethoden (Office SharePoint Server).

Planen von Protokollhandlern

Sämtlicher Inhalt, der gecrawlt wird, erfordert für den Zugriff auf diesen Inhalt die Verwendung eines Protokollhandlers. Microsoft Office SharePoint Server 2007 bietet Protokollhandler für alle häufig verwendeten Internetprotokolle. Wenn Sie jedoch Inhalt crawlen möchten, der einen nicht mit Microsoft Office SharePoint Server 2007 Protokollhandler erfordern, müssen Sie den benutzerdefinierten oder Drittanbieter-Protokollhandler installieren, bevor Sie Inhalt crawlen können.

In der folgenden Tabelle werden die standardmäßig installierten Protokollhandler gezeigt.

Protokollhandler Wird zum Crawlen folgender Elemente verwendet:

Bdc

Geschäftsdatenkatalog

Bdc2

URLs von Geschäftsdatenkatalogen (internes Protokoll)

File

Dateifreigaben

http

Websites

https

Websites über SSL (Secure Sockets Layer)

Notes

Lotus Notes-Datenbanken

Rb

Öffentliche Exchange-Ordner

Rbs

Öffentliche Exchange-Ordner über SSL

Sps

Personenprofile von Windows SharePoint Services 2.0-Serverfarmen

Sps3

Nur Crawls von Personenprofilen von Windows SharePoint Services 3.0-Serverfarmen

Sps3s

Nur Crawls von Personenprofilen von Windows SharePoint Services 3.0-Serverfarmen über SSL

Spsimport

Importieren von Personenprofilen

Spss

Importieren von Personenprofilen von Windows SharePoint Services 2.0-Serverfarmen über SSL

Sts

Windows SharePoint Services 3.0-Stamm-URLs (internes Protokoll)

Sts2

Windows SharePoint Services 2.0-Websites

Sts2s

Windows SharePoint Services 2.0-Websites über SSL

Sts3

Windows SharePoint Services 3.0-Websites

Sts3s

Windows SharePoint Services 3.0-Websites über SSL

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Protokollhandlern für die anfängliche Bereitstellung im Abschnitt Protocol handlers des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalt" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen der Verwaltung von Auswirkungen des Crawlens

Das Crawlen von Inhalt kann die Leistung der Server, die den Inhalt hosten, erheblich reduzieren. Die Auswirkungen auf einen bestimmten Server hängen von der Last ab, die auf dem Hostserver vorliegt, sowie davon, ob der Server über ausreichende Ressourcen (insbesondere CPU und RAM) verfügt, um die Vereinbarungen zum Servicelevel unter normalen Bedingungen oder bei Spitzenauslastung aufrechtzuerhalten.

Regeln für Crawlerauswirkungen erlauben es Farmadministratoren, die Auswirkungen zu verwalten, wie sich Ihr Crawler auf die gecrawlten Server auswirkt. Für jede Regel für Crawlerauswirkungen können Sie eine einzelne URL angeben oder im URL-Pfad Platzhalterzeichen verwenden, um einen Block von URLs einzuschließen, auf den die Regel angewendet wird. Sie können dann festlegen, wie viele gleichzeitige Anforderungen für Seiten an die angegebene URL ausgeführt werden, oder entscheiden, dass nur ein Dokument zu einem Zeitpunkt angefordert wird und eine Reihe von Sekunden festzulegen, die Sie zwischen Anforderungen gewartet wird.

Regeln für Crawlerauswirkungen verringern oder erhöhen die Rate, mit der der Crawler Inhalt von einer bestimmten Startadresse oder einem Bereich von Startadressen (auch als Websitename bezeichnet) anfordert, unabhängig von der Inhaltsquelle, die zum Crawlen dieser Adressen verwendet wird. Die folgende Tabelle enthält die Platzhalterzeichen, die Sie im Websitenamen verwenden können, wenn Sie eine Regel hinzufügen.

Zu verwendender Platzhalter Ergebnis

* als Websitename

Wendet die Regel auf alle Websites an.

*.* als Websitename

Wendet die Regel auf Websites mit Punkten im Namen an.

**.websitename*.com als Websitename

Wendet die Regel auf alle Websites in der Domäne *websitename*.com an (z. B. *.adventure-works.com).

**.Domänenname_der_obersten_Ebene* als Websitename

Wendet die Regel auf alle Websites an, die mit einem bestimmten Domänennamen der obersten Ebene enden, beispielsweise *.com oder *.net.

?

Beispielsweise gilt *.adventure-works?.com für alle Websites in den Domänen adventure-works1.com, adventure-works2.com usw.

Sie können eine Regel für Crawlerauswirkungen für alle Websites innerhalb einer bestimmten übergeordneten Domäne erstellen. Beispielsweise gilt *.com für alle Internetwebsites mit Adressen, die auf .com enden. Beispielsweise könnte der Administrator einer Portalwebsite eine Inhaltsquelle für beispiele.microsoft.com hinzufügen. Die Regel für *.com gilt für diese Website, sofern Sie eine Regel für Crawlerauswirkungen speziell für beispiele.microsoft.com hinzufügen.

Für Inhalt innerhalb der Organisation, der von anderen Administratoren gecrawlt wird, können Sie mit diesen Administratoren die Festlegung von Regeln für Crawlerauswirkungen basierend auf Leistung und Kapazität der Server koordinieren. Für die meisten externen Websites ist diese Koordination nicht möglich. Die Anforderung von zu viel Inhalt auf externen Servern oder die Ausführung zu häufiger Anforderungen kann dazu führen, dass Administratoren dieser Websites Ihren zukünftigen Zugriff beschränken, wenn Ihre Crawlvorgänge zu viele Ressourcen oder zu viel Bandbreite verwenden. Auf diese Weise können Sie das Risiko verringern, den Zugriff zum Crawlen des entsprechenden Inhalts zu verlieren.

Legen Sie bei der ersten Bereitstellung die Regeln für Crawlerauswirkungen so fest, dass die Auswirkungen auf andere Server möglichst gering sind, während weiterhin genug Inhalt häufig genug gecrawlt wird, um die Aktualität des gecrawlten Inhalts sicherzustellen.

Während der Vorgänge können Sie die Regeln für Crawlerauswirkungen basierend auf Erfahrungen und Daten aus Crawlprotokollen anpassen.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Regeln für Crawlerauswirkungen für die anfängliche Bereitstellung in den Abschnitt Crawler impact rules des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen von Crawlregeln

Crawlregeln gelten für eine bestimmte URL oder eine Gruppe von URLs, die durch Platzhalter dargestellt werden (auch als der von der Regel betroffene Pfad bezeichnet). Sie verwenden Crawlregeln für die folgenden Aktionen:

  • Vermeiden Sie das Crawlen irrelevanten Inhalts, indem eine oder mehrere URLs ausgeschlossen werden. Dadurch werden auch die Verwendung von Serverressourcen und der Netzwerkverkehr reduziert und die Relevanz von Suchergebnissen erhöht.

  • Crawlen Sie Hyperlinks auf die URL ohne die URL selbst zu Crawlen. Diese Option ist nützlich für Websites mit Verknüpfungen relevanten Inhalts, wenn die Seite mit den Links keine relevanten Informationen enthält.

  • Aktivieren Sie das Crawlen komplexer URLs. Mit dieser Option werden URLs gecrawlt, die einen Abfrageparameter mit einem Fragezeichen enthalten. Je nach Website schließen diese URLs möglicherweise relevanten Inhalt ein. Da komplexe URLs häufig auf irrelevante Websites umleiten können, empfiehlt es sich, diese Option nur für Websites zu aktivieren, für die der Inhalt von komplexen URLs als relevant bekannt ist.

  • Aktivieren Sie Inhalt auf SharePoint-Websites so, dass diese als HTTP-Seiten gecrawlt werden. Diese Option ermöglicht es, dass der Indexserver SharePoint-Websites hinter einer Firewall oder in Szenarien crawlt, bei denen die gecrawlte Website den Zugriff auf den von dem Crawler verwendeten Webdienst beschränkt.

  • Geben Sie an, ob das Standardkonto für den Inhaltszugriff, ein anderes Konto für den Inhaltszugriff oder ein Clientzertifikat zum Crawlen der angegebenen URL verwendet werden soll.

Hinweis

Crawlregeln gelten gleichzeitig für alle Inhaltsquellen des SSP.

Häufig ist der größte Teil der Informationen für eine bestimmte Websiteadresse relevant, nicht aber eine bestimmte Unterwebsite oder eine Reihe von Websites unterhalb dieser Websiteadresse. Durch Auswählen einer fokussierten Kombination von URLs, für die Crawlregeln erstellt werden sollen, die nicht benötigte Elemente ausschließen, können Administratoren gemeinsamer Dienste die Relevanz des Inhalts im Index maximieren, während die Auswirkungen auf die Crawlleistung und die Größe der Suchdatenbanken minimiert werden. Das Erstellen von Crawlregeln zum Ausschließen von URLs ist besonders bei der Planung von Startadressen für externen Inhalt nützlich, für den die Auswirkungen auf die Ressourcenverwendung nicht von Personen in Ihrer Organisation gesteuert werden.

Beim Erstellen einer Crawlregel können Sie im Pfad standardmäßige Platzhalterzeichen verwenden, beispielsweise:

  • http://server1/ordner* schließt alle Webressourcen mit einer URL ein, die mit http://server1/ordner beginnt.

  • *://*.txt umfasst alle Dokumente mit der Dateinamenerweiterung TXT.

Da das Crawlen von Inhalt Ressourcen und Bandbreite verbraucht, empfiehlt es sich, eine kleinere Menge an Inhalt einzuschließen, dessen Relevanz Ihnen bekannt ist, als eine größere Menge an Inhalt, der möglicherweise irrelevant ist. Nach der anfänglichen Bereitstellung können Sie die Abfrage und die Crawlprotokolle überprüfen sowie Inhaltsquellen und Crawlregeln so anpassen, dass deren Relevanz erhöht wird und weiterer Inhalt eingeschlossen wird.

Angeben eines anderen Kontos für den Inhaltszugriff

Für Crawlregeln, die Inhalt einschließen, haben Administratoren die Möglichkeit, das Konto für den Inhaltszugriff der Regel zu ändern. Das Standardkonto für den Inhaltszugriff wird verwendet, sofern kein anderes Konto in einer Crawlregel angegeben ist. Der Hauptgrund für die Verwendung eines anderen Kontos für den Inhaltszugriff einer Crawlregel besteht darin, dass das Standardkonto für den Inhaltszugriff nicht auf alle Startadressen zugreifen kann. Für diese Startadressen können Sie eine Crawlregel erstellen und ein Konto mit Zugriff angeben.

Hinweis

Stellen Sie sicher, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein beliebiges anderes Konto Inhaltszugriff verwendet wird, nicht dasselbe Domänenkonto ist, das von einem Anwendungspool verwendet wird, der einer von Ihnen gecrawlten Anwendung zugeordnet ist. Dadurch wird möglicherweise unveröffentlichter Inhalt auf SharePoint-Websites und kleinere Versionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Crawlregeln für die anfängliche Bereitstellung in den Abschnitt Crawl rules des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

Neben den Einstellungen, die auf der SSP-Ebene konfiguriert sind, beeinflussen verschiedene Einstellungen, die auf der Ebene der Farm verwaltet werden, wie Inhalt gecrawlt wird. Berücksichtigen Sie beim Planen des Crawlens die folgenden Sucheinstellungen auf Farmebene:

  • Kontakt-E-Mail-Adresse: Crawlinhalt betrifft die Ressourcen der Server, die gecrawlt werden. Bevor Sie Inhalt crawlen können, müssen Sie in den Konfigurationseinstellungen die E-Mail-Adresse der Person Ihrer Organisation bereitstellen, an die sich Administratoren richten können, wenn der Crawl deren Server nachteilig beeinflusst. Diese E-Mail-Adresse wird in den Protokollen für die Administratoren der gecrawlten Server angezeigt, sodass diese Administratoren jemanden erreichen, wenn die Auswirkungen auf Leistung und Bandbreite zu groß sind oder andere Probleme auftreten.

    Die Kontakt-E-Mail-Adresse sollte einer Person gehören, die die erforderlichen Kenntnisse und die Verfügbarkeit besitzt, um auf Anforderungen schnell zu antworten. Alternativ können Sie einen streng überwachten Verteilerlistenalias als Kontakt-E-Mail-Adresse verwenden. Unabhängig davon, ob der Inhalt intern für die Organisation gecrawlt wird oder nicht, ist eine schnelle Antwortzeit wichtig.

  • Proxyservereinstellungen: Sie können auswählen, ob beim Crawlen von Inhalt ein Proxyserver verwendet werden soll. Der zu verwendende Proxyserver hängt von der Topologie der Microsoft Office SharePoint Server 2007-Bereitstellung und der Architektur von anderen Servern in Ihrer Organisation ab.

  • Timeouteinstellungen: Die Timeouteinstellungen werden zur Begrenzung der Zeit verwendet, in der der Suchserver beim Herstellen einer Verbindung mit anderen Diensten wartet.

  • SSL-Einstellung: Die SSL-Einstellung (Secure Sockets Layer, SSL) bestimmt, ob das SSL-Zertifikat genau übereinstimmen muss, damit Inhalte gecrawlt werden können.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Sucheinstellungen auf Farmebene für die anfängliche Bereitstellung in den Abschnitt Farm-level search settings des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Indizieren von Inhalten in verschiedenen Sprachen

Beim Crawlen von Inhalt bestimmt der Crawler jedes einzelne Wort im Inhalt, das er findet. Sprachen, in denen Wörter durch Leerzeichen getrennt sind, machen es dem Crawler relativ leicht, die einzelnen Wörter zu unterscheiden. Für andere Sprachen ist die Bestimmung der Wortgrenzen komplexer.

Microsoft Office SharePoint Server 2007 bietet standardmäßig Module zur Wörtertrennung und zur Wortstammerkennung, die beim Crawlen und Indizieren von Inhalten in vielen Sprachen hilfreich sind. Worttrennmodule finden Wortgrenzen in indizierten Volltextdaten, Module zur Wortstammerkennung dienen zur Konjugation von Verben.

Wenn Sie eine der Sprachen in der unten stehenden Tabelle crawlen, werden in Microsoft Office SharePoint Server 2007 automatisch die entsprechenden Module zur Wörtertrennung und Wortstammerkennung für diese Sprache verwendet. Ein Sternchen (*) gibt an, dass das Feature zur Wortstammerkennung standardmäßig aktiviert ist.

Standardmäßig unterstützte Sprache Standardmäßig unterstützte Sprache

Arabisch

Litauisch*

Bengali 

Malaiisch

Bulgarisch*

Malayalam*

Katalanisch

Marathi

Kroatisch

Norwegisch (Bokmaal)

Tschechisch*

Polnisch*

Dänisch

Portugiesisch

Niederländisch

Portugiesisch (Brasilien)

Englisch

Pandschabisch

Finnisch*

Rumänisch*

Französisch*

Russisch*

Deutsch*

Serbisch (Kyrillisch)*

Griechisch*

Serbisch (Lateinisch)*

Gudscharati

Slowakisch*

Hebräisch

Slowenisch*

Hindi

Spanisch*

Ungarisch*

Schwedisch

Isländisch*

Tamilisch*

Indonesisch

Telugu*

Italienisch

Thailändisch

Japanisch

Türkisch*

Kannada*

Ukrainisch*

Koreanisch

Urdu*

Lettisch*

Vietnamesisch

Wenn der Crawler Inhalte für eine Sprache indiziert, die nicht unterstützt wird, wird die neutrale Wörtertrennung verwendet. Wenn die neutrale Wörtertrennung nicht die erwarteten Ergebnisse liefert, können Sie Lösungen von Drittanbietern versuchen, die mit Microsoft Office SharePoint Server 2007 funktionsfähig sind.

Es wird empfohlen, die entsprechende Wörtertrennung und Wortstammerkennung für jede der Sprachen zu installieren, die unterstützt werden müssen. Wörtertrennung und Wortstammerkennung müssen auf allen Servern installiert sein, auf denen der Office SharePoint Server-Suchdienst ausgeführt wird.

Weitere Informationen zur Wörtertrennung und Wortstammerkennung finden Sie unter Planung mehrsprachiger Websites.

Arbeitsblattaktion

Tragen Sie die Entscheidungen zu Worttrennung und Wortstammerkennung für die anfängliche Bereitstellung in den Abschnitt Word breakers and stemmers des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Arbeitsblatt

Wenn Sie dies nicht bereits getan haben, notieren Sie Ihre Planungsentscheidungen über Inhaltsquellen und andere Entscheidungen zum Crawlen von Inhalt im folgenden Arbeitsblatt:

Wenn Sie während der anfänglichen Bereitstellung und Konfiguration nur einige der geplanten Inhaltsquellen und Crawlregeln erstellen möchten, können Sie dieses Arbeitsblatt als Teil der laufenden Vorgänge verwenden.

Herunterladen dieses Buchs

Dieses Thema wurde zum leichteren Lesen und Ausdrucken in das folgende Buch zum Herunterladen aufgenommen:

Die vollständige Liste der verfügbaren Bücher finden Sie unter Bücher zum Herunterladen für Office SharePoint Server 2007.