Planen des Crawlens von Inhalten (Office SharePoint Server)

Artikel
06/12/2012

Inhalt dieses Artikels:

Informationen zum Crawlen und Indizieren von Inhalten
Identifizieren der Quellen von Inhalten, die Sie crawlen möchten
Planen von Inhaltsquellen
Planen von Authentifizierung
Planen von Protokollhandlern
Planen der Verwaltung von Auswirkungen des Crawlens
Planen von Crawlregeln
Planen von Sucheinstellungen, die auf Farmebene verwaltet werden
Indizieren von Inhalten in verschiedenen Sprachen
Arbeitsblatt

Der Zweck dieses Artikels besteht darin, Suchdienstadministratoren darüber zu informieren, wie mit Microsoft Office SharePoint Server 2007 Inhalte gecrawlt und indiziert werden, und sie beim besseren Planen des Crawlens von Inhalten zu unterstützen.

Bevor Endbenutzer zum Suchen von Inhalt die Enterprise-Suchfunktion in Microsoft Office SharePoint Server 2007 verwenden können, müssen Sie zuerst den Inhalt crawlen, den Sie für Benutzerabfragen verfügbar machen möchten.

Für den Zweck dieses Artikels ist Inhalt ein beliebiges Element, das gecrawlt werden kann, zum Beispiel eine Webseite, ein Microsoft Office Word-Dokument, Geschäftsdaten oder eine E-Mail-Datei.

Bei der Planung des Crawlens von Inhalten sollten Sie die folgenden Fragen berücksichtigen:

Wo befinden sich die zu crawlenden Inhalte physisch?
Sind Teile des Inhalts, den Sie crawlen möchten, in unterschiedlichen Arten von Quellen gespeichert, wie Dateifreigaben, SharePoint-Websites, Websites oder andere Orte?
Möchten Sie sämtliche Inhalte in bestimmen Quellen crawlen oder nur einen Teil?
Aus welchen Dateitypen bestehen die Inhalte, die Sie crawlen möchten?
Wann und wie oft sollten Sie Inhalte crawlen?
Wie werden diese Inhalte geschützt?

Anhand der Informationen in diesem Artikel können Sie diese Fragen beantworten und die erforderlichen Planungsentscheidungen zu dem Inhalt treffen, den Sie crawlen möchten, sowie festlegen, wie und wann der Inhalt gecrawlt werden soll.

An Schlüsselstellen in diesem Artikel werden Sie aufgefordert, einen Abschnitt in einem Arbeitsblatt auszufüllen, das sich auf die Informationen bezieht, die Sie gelesen haben. Sie können Ihre Entscheidungen auf dem Arbeitsblatt vermerken, während Sie diesen Artikel lesen, oder alle Entscheidungen zusammen am Ende dieses Artikels treffen. Ein ausgefülltes Arbeitsblatt ist in beiden Fällen eine wertvolle Ressource, wenn Sie Ihre Suchlösung bereitstellen.

Hinweis

Dieser Artikel beschreibt den Prozess der Planung für das Crawlen und Indizieren von Inhalt in einem Index. Wenn Sie beim Planen des Crawlens des Inhalts feststellen, dass Sie einen zusätzlichen Inhaltsindex verwenden möchten, zeichnen Sie Ihre Planungsentscheidungen zu jedem Anbieter für gemeinsame Dienste auf einem separaten Arbeitsblatt auf.

Microsoft Office SharePoint Server 2007 umfasst den Office SharePoint Server-Suchdienst, der zum Crawlen und Indizieren von Inhalt verwendet wird. Dieser Dienst ist Teil eines Anbieters für gemeinsame Dienste, und sämtlicher mit einem bestimmten Anbieter für gemeinsame Dienste gecrawlter Inhalt wird in einem einzigen Index indiziert. Weitere Informationen zum Auswählen der Anzahl der Anbieter für gemeinsame Dienste für die Indizierung von Inhalt finden Sie unter Planen von Anbietern für gemeinsame Dienste.

Informationen zum Crawlen und Indizieren von Inhalten

Das Crawlen und Indizieren von Inhalt ist der Prozess, durch den das System zum Erstellen eines Inhaltsindex, mit dem Suchabfragen (als Metadaten bezeichnet) bedient werden können, auf Inhalt und dessen Eigenschaften zugreift und diesen analysiert.

Das Ergebnis des erfolgreichen Crawlens von Inhalt besteht darin, dass auf einzelne Dateien oder Teile von Inhalt, den Sie für Suchabfragen verfügbar machen möchten, vom Crawler aus zugegriffen und von diesem gelesen wird. Die Schlüsselwörter und Metadaten für diese Dateien werden in den Inhaltsindex, auch als Index bezeichnet, gespeichert. Der Index besteht aus den Schlüsselwörtern, die im Dateisystem des Indexservers und den in der Suchdatenbank gespeicherten Metadaten gespeichert sind. Das System verwaltet eine Zuordnung zwischen den Schlüsselwörtern, den Metadaten, die den einzelnen Inhaltsbestandteilen zugeordnet sind, von denen aus die Schlüsselwörter gecrawlt wurden, und die URL der Quelle, von der aus der Inhalt gecrawlt wurde.

Hinweis

Der Crawler ändert die Dateien auf den Hostservern in keiner Weise. Stattdessen wird auf die Dateien auf dem Hostserver einfach zugegriffen, die Dateien werden gelesen, und Text und Metadaten für diese Dateien werden zum Indizieren an den Indexserver gesendet. Da der Crawler den Inhalt jedoch auf dem Hostserver liest, aktualisieren einige Server, die bestimmte Inhaltsquellen hosten, möglicherweise das Datum des letzten Zugriffs auf Dateien, die gecrawlt wurden.

Identifizieren der Quellen der zu crawlenden Inhalte

In vielen Fällen erfordert der Bedarf der Organisation möglicherweise nur, dass Sie sämtliche Inhalte crawlen, die in den SharePoint-Websites der Serverfarm der Organisation enthalten sind. In diesem Fall müssen Sie die Quellen der zu crawlenden Inhalte nicht identifizieren, da alle Websitesammlungen einer Serverfarm mithilfe der standardmäßigen Inhaltsquelle gecrawlt werden können. Weitere Informationen zur standardmäßigen Inhaltsquelle finden Sie unter Planen von Inhaltsquellen weiter unten in diesem Artikel.

Viele Organisationen müssen auch Inhalt crawlen, der sich extern der Serverfarm befindet, beispielsweise Dateifreigaben oder Websites im Internet. Mit Microsoft Office SharePoint Server 2007 können Inhalte gecrawlt und indiziert werden, die von anderen Windows SharePoint Services- oder Office SharePoint Server-Farmen, Websites, Dateifreigaben, öffentlichen Microsoft Exchange-Ordnern und IBM Lotus Notes-Servern gehostet werden, sowie Geschäftsdaten, die in Datenbanken gespeichert sind. Dadurch erhöht sich die Menge des Inhalts erheblich, der für Suchabfragen verfügbar gemacht werden kann.

In vielen Fällen empfiehlt es sich jedoch, nicht alle Websitesammlungen auf der Serverfarm zu crawlen, da der in einigen Websitesammlungen gespeicherte Inhalt für die Suchergebnisse möglicherweise nicht relevant ist. In diesem Fall müssen Sie eine oder beide der folgenden Aktionen ausführen:

Vermerken Sie die Websitesammlungen, die nicht gecrawlt werden sollen. Wenn Sie die standardmäßige Inhaltsquelle verwenden möchten, müssen Sie sicherstellen, dass die Startadressen für die Websitesammlungen, die nicht gecrawlt werden sollen, in der standardmäßigen Inhaltsquelle nicht aufgeführt sind.
Vermerken Sie die einzelnen Startadressen der Websitesammlungen, die Sie crawlen möchten. Wenn Sie zusätzliche Inhaltsquellen zum Crawlen dieser Inhalte erstellen möchten, müssen Sie diese Startadressen kennen. Informationen dazu, wann eine oder mehrere Inhaltsquellen verwendet werden, finden Sie unter Planen von Inhaltsquellen weiter unten in diesem Artikel.

Wenn das Infrastrukturaktualisierung für Microsoft Office Server installiert ist, gibt es zwei Möglichkeiten, Suchabfragen zu verarbeiten, um den Benutzern Suchergebnisse zu liefern. Sie können den Inhaltsindex von Search Server abfragen, oder Sie können die Verbundsuche verwenden.

Tipp

Beachten Sie, dass das Infrastrukturaktualisierung für Microsoft Office Server in Microsoft Office SharePoint Server 2007 die Verbundsuchfunktionalität bereitstellt, die erstmals in Search Server 2008 zur Verfügung stand.

Jeder Ansatz bietet Vorteile. Eine Gegenüberstellung der beiden Konzepte der Verarbeitung von Suchabfragen finden Sie unter Übersicht über die Verbundsuche (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x407). Eine ausführliche Liste mit Artikeln zu Grundlagen und Verwendung der Verbundsuche finden Sie unter Arbeiten mit Verbunden (Office SharePoint Server). Weitere Informationen zum Infrastrukturupdate für Microsoft Office Server finden Sie unter Installieren des Infrastrukturupdates für Microsoft Office Server (Office SharePoint Server 2007).

Planen von Inhaltsquellen

Bevor Sie Inhalt crawlen können, müssen Sie zunächst ermitteln, wo und auf welchen Typen von Servern sich der Inhalt befindet. Nachdem diese Informationen gesammelt wurden, kann ein Administrator für gemeinsame Dienste eine oder mehrere Inhaltsquellen erstellen, die zum Crawlen dieses Inhalts verwendet werden. Diese Inhaltsquellen geben während eines Crawls dem Crawler die folgenden Informationen:

Typ der zu crawlenden Inhalte, beispielsweise eine SharePoint-Website oder eine Dateifreigabe
Startadresse, von der aus mit dem Crawlen begonnen werden soll
Das beim Crawlen zu verwendende Verhalten, beispielsweise wie tief von der Startadresse aus gecrawlt werden soll oder wie viele Serverwechsel erlaubt sein sollen
Crawlzeitplan

Hinweis

Das Crawlen von Inhalten mithilfe einer bestimmten Inhaltsquelle wird manchmal als "Crawlen der Inhaltsquelle" bezeichnet.

In diesem Abschnitt finden Sie Unterstützung für die Planung der Inhaltsquellen, die die Organisation benötigt.

Die standardmäßige Inhaltsquelle heißt Lokale Office SharePoint Server-Websites. Administratoren gemeinsamer Dienste können diese Inhaltsquelle verwenden, um sämtlichen Inhalt aller dem Anbieter für gemeinsame Dienste zugeordneten Webanwendungen zu crawlen und zu indizieren. Standardmäßig wird die Startadresse der Stammwebsite (in diesem Fall eine URL) jeder Websitesammlung, die in einer Webanwendung mit demselben Anbieter für gemeinsame Dienste erstellt wurde, von Microsoft Office SharePoint Server 2007 der standardmäßigen Inhaltsquelle hinzugefügt.

Einige Organisationen erfüllt die Verwendung der standardmäßigen Inhaltsquelle zum Crawlen aller Websites der Websitesammlungen die Suchanforderungen. Viele Organisationen benötigen jedoch zusätzliche Inhaltsquellen.

Es folgt eine Aufzählung der Gründe für die Notwendigkeit, zusätzliche Inhaltsquellen zu erstellen:

Crawlen unterschiedlicher Inhaltstypen
Crawlen bestimmter Inhalte mit Zeitplänen, die sich von denen anderer Inhalte unterscheiden
Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Administratoren gemeinsamer Dienste können bis zu 500 Inhaltsquellen für jeden Anbieter für gemeinsame Dienste erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Zur Vereinfachung der Verwaltung sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie benötigen.

Crawlen unterschiedlicher Inhaltstypen

Sie können nur eine Art von Inhalt pro Inhaltsquelle crawlen. Das heißt, dass Sie eine Inhaltsquelle erstellen können, die URLs für SharePoint-Websites enthält, und eine weitere Quelle, die URLs für Dateifreigaben enthält. Sie können jedoch keine einzelne Inhaltsquelle erstellen, die URLs sowohl für SharePoint-Websites und Dateifreigaben enthält. In der folgenden Tabelle werden die Typen von Inhaltsquellen angeführt, die konfiguriert werden können.

Dieser Inhaltsquellentyp	Enthält diesen Inhaltstyp
SharePoint-Websites	SharePoint-Websites von der gleichen Farm oder von verschiedenen Microsoft Office SharePoint Server 2007-, Windows SharePoint Services 3.0- oder -Farmen SharePoint-Websites von Microsoft Office SharePoint Portal Server 2003- oder Microsoft Windows SharePoint Services 2.0-Farmen Hinweis Im Gegensatz zum Crawlen von SharePoint-Websites in Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3.0 oder können mit dem Crawler nicht automatisch alle Unterwebsites in einer Websitesammlung aus früheren Versionen von SharePoint-Produkten und -Technologien gecrawlt werden. Daher müssen Sie beim Crawlen von SharePoint-Websites aus vorherigen Versionen jeweils die URL der zu crawlenden Website der obersten Ebene und der zu crawlenden Unterwebsite angeben. Websites, die im Websiteverzeichnis von Microsoft Office SharePoint Portal Server 2003-Farmen aufgeführt sind, werden gecrawlt, wenn die Portalwebsite gecrawlt wird. Weitere Informationen zum Websiteverzeichnis finden Sie unter Informationen zum Websiteverzeichnis (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x407).
Websites	Andere Webinhalte der Organisation, die auf SharePoint-Websites nicht gefunden werden Inhalte von Websites im Internet
Dateifreigaben	Inhalte in Dateifreigaben innerhalb der Organisation
Öffentliche Exchange-Ordner	Microsoft Exchange Server-Inhalte
Lotus Notes	In Lotus Notes-Datenbanken gespeicherte E-Mails Hinweis Im Gegensatz zu allen anderen Arten von Inhaltsquellen wird die Option für Lotus Notes-Inhaltsquellen nicht auf der Benutzeroberfläche angezeigt, bis Sie die entsprechende erforderliche Software installiert und konfiguriert haben. Weitere Informationen finden Sie unter Konfigurieren der Office SharePoint Server-Suche für das Crawlen von Lotus Notes (Office SharePoint Server 2007).
Geschäftsdaten	Geschäftsdaten in Branchenanwendungen

Planen der Inhaltsquellen für Geschäftsdaten

Inhaltsquellen von Geschäftsdaten erfordern, dass die Hostanwendungen der Daten zuerst im Geschäftsdatenkatalog registriert werden. Sie müssen eine oder mehrere separate Inhaltsquellen für die Typen von Inhaltsquellen der Geschäftsdaten erstellen, um Geschäftsdaten zu crawlen. Sie können eine Inhaltsquelle zum Crawlen aller im Geschäftsdatenkatalog registrierten Anwendungen erstellen, oder Sie können separate Inhaltsquellen zum Crawlen einzelner im Geschäftsdatenkatalog registrierter Anwendungen erstellen.

Häufig sind die Personen, die die Integration von Geschäftsdaten in Ihre Websitesammlungen planen, nicht dieselben Personen, die am gesamten Inhaltsplanungsprozess beteiligt sind. Schließen Sie daher Geschäftsanwendungsadministratoren in Ihre Inhaltsplanungsteams ein, sodass diese Sie bei der Integration der Daten in Ihren weiteren Inhalt beraten und in diesen Ihren Websitesammlungen effektiv darstellen kann.

Weitere Informationen zum Planen der Geschäftsdatensuche finden Sie unter Planen der Geschäftsdatensuche.

Crawlen von Inhalten mit unterschiedlichen Zeitplänen

Administratoren gemeinsamer Dienste müssen häufig entscheiden, ob bestimmter Inhalt häufiger als anderer Inhalt gecrawlt wird. Je größer das Volumen an Inhalt, den Sie crawlen, desto wahrscheinlicher ist es, dass Sie Inhalt aus unterschiedlichen Quellen crawlen. Diese unterschiedlichen Quellen können vom selben Typ sein und auf Servern unterschiedlicher Geschwindigkeiten gehostet werden.

Diese Faktoren machen es wahrscheinlicher, dass Sie zusätzliche Inhaltsquellen benötigen, um diese unterschiedlichen Inhaltsquellen zu unterschiedlichen Zeiten zu crawlen.

Folgende sind die Hauptgründe für das Crawlen von Inhalten mit unterschiedlichen Zeitplänen:

Ausgleich von Downtimes und Zeiten mit Spitzenauslastung
Häufigeres Crawlen von Inhalten, die häufiger aktualisiert werden
Getrenntes Crawlen von Inhalten, die auf langsameren beziehungsweise schnelleren Hostservern gehostet werden

In vielen Fällen können nicht alle diese Informationen bekannt sein, bevor Microsoft Office SharePoint Server 2007 bereitgestellt ist und bereits für einige Zeit verwendet wird. Stattdessen werden einige dieser Entscheidungen während der Vorgänge vorgenommen. Allerdings empfiehlt es sich, diese Faktoren bei der Planung zu berücksichtigen, sodass Sie Ihre Crawlzeitpläne anhand der verfügbaren Informationen planen können.

Die folgenden zwei Abschnitte enthalten weitere Informationen zum Crawlen von Inhalten mit unterschiedlichen Zeitplänen.

Downtimes und Spitzenauslastungszeiten

Berücksichtigen Sie Downtimes und Spitzenauslastungszeiten der Server, auf denen der zu crawlende Inhalt gehostet wird. Wenn Sie beispielsweise Inhalt crawlen, der auf vielen verschiedenen Servern außerhalb der Serverfarm gehostet wird, ist es wahrscheinlich, dass diese Server mit unterschiedlichen Zeitplänen gesichert werden und unterschiedliche Spitzenauslastungszeiten haben. Die Verwaltung von Servern außerhalb der Serverfarm unterliegt normalerweise nicht Ihrer Kontrolle. Daher empfiehlt es sich, dass Sie die Crawlvorgänge mit den Administratoren der Server koordinieren, auf denen der Inhalt, den Sie crawlen möchten, gehostet wird. Damit stellen Sie sicher, dass Sie nicht versuchen, Inhalt auf den Servern zu Downtimes oder Spitzenauslastungszeiten zu crawlen.

Ein häufiges Szenario umfasst Inhalt außerhalb der Kontrolle Ihrer Organisation, der sich auf Inhalt Ihrer SharePoint-Websites bezieht. Sie können die Startadressen für diesen Inhalt einer vorhandenen Inhaltsquelle hinzufügen oder eine neue Inhaltsquelle für externen Inhalt erstellen. Da die Verfügbarkeit von externen Websites stark variiert, ist es hilfreich, separate Inhaltsquellen für unterschiedlichen externen Inhalt hinzuzufügen. Auf diese Weise können die Inhaltsquellen für externen Inhalt zu anderen Zeitpunkten als die übrigen Inhaltsquellen gecrawlt werden. Sie können externen Inhalt dann mit einem Crawlzeitplan aktualisieren, der die Verfügbarkeit jeder Website berücksichtigt.

Häufig aktualisierte Inhalte

Berücksichtigen Sie bei der Planung von Crawlzeitplänen, dass einige Inhaltsquellen normalerweise häufiger als andere aktualisiert werden. Angenommen, Sie wissen, dass der Inhalt einiger Websitesammlungen oder externer Quellen nur freitags aktualisiert wird, wäre es Ressourcenverschwendung, diesen Inhalt häufiger als einmal wöchentlich zu crawlen. Allerdings kann Ihre Serverfarm möglicherweise andere Websitesammlungen enthalten, die montags bis freitags ständig aktualisiert werden, normalerweise aber nicht an Samstagen und Sonntagen. In diesem Fall möchten Sie an Wochentagen möglicherweise täglich mehrmals crawlen, aber nur ein- oder zweimal an Wochenenden.

Die Art, auf den Inhalt über die Websitesammlungen Ihrer Umgebung gespeichert wird, kann Sie zur Erstellung zusätzlicher Inhaltsquellen für jede Ihrer Websitesammlungen in allen Ihren Webanwendungen führen. Angenommen, wenn eine Websitesammlung nur archivierte Informationen speichert, müssen Sie diesen Inhalt möglicherweise nicht so häufig crawlen wie eine Websitesammlung, in der häufig aktualisierter Inhalt gespeichert ist. In diesem Fall empfiehlt es sich möglicherweise, diese zwei Websitesammlungen mit verschiedene Inhaltsquellen zu crawlen, sodass diese mit unterschiedlichen Zeitplänen gecrawlt werden, ohne die Archivwebsites so häufig wie den anderen Inhalt zu crawlen.

Vollständige und inkrementelle Crawlzeitpläne

Die Administratoren gemeinsamer Dienste können die Crawlzeitpläne für jede Inhaltsquelle unabhängig konfigurieren. Für jede Inhaltsquelle können Zeiten für vollständige Crawls und separate Zeiten für inkrementelle Crawls angegeben werden. Beachten Sie, dass Sie einen vollständigen Crawlvorgang für eine bestimmte Inhaltsquelle ausführen müssen, bevor Sie einen inkrementellen Crawl ausführen können. Wenn Sie einen inkrementellen Crawl für Inhalt auswählen, der noch nicht gecrawlt wurde, führt das System einen vollständigen Crawlvorgang durch.

Hinweis

Bei einem vollständigen Crawl werden unabhängig davon, ob die Inhalte bereits gecrawlt wurden, alle vom Crawler gefundenen Inhalte gecrawlt, für die der Crawler mindestens über Lesezugriff verfügt. Daher können vollständige Crawls erheblich mehr Zeit beanspruchen als inkrementelle Crawls.

Es wird empfohlen, Crawlzeitpläne auf Grundlage von Verfügbarkeit, Leistung und Bandbreite der Server, auf denen der Suchdienst ausgeführt wird, sowie der Server zu planen, auf denen der zu crawlende Inhalt gehostet wird.

Berücksichtigen Sie bei der Planung von Crawlzeitplänen die folgenden bewährten Methoden:

Gruppieren Sie Startadressen in Inhaltsquellen basierend auf ähnlicher Verfügbarkeit und mit akzeptabler Gesamtverwendung der Ressourcen für die Server, auf denen die Inhalte gehostet werden.
Planen Sie inkrementelle Crawls für die einzelnen Inhaltsquellen zu Zeiten, in denen die Server, die die Inhalte hosten, verfügbar sind und die Serverressourcen nur wenig beansprucht werden.
Staffeln Sie Crawlzeitpläne, sodass die Belastung der Server in der Serverfarm über einen Zeitraum verteilt wird.
Planen Sie vollständige Crawls nur, wenn Gründe vorliegen, die im nächsten Abschnitt aufgeführt sind. Es wird empfohlen, dass Sie vollständige Crawlvorgänge seltener als inkrementelle Crawls vornehmen.
Planen Sie die Ausführung von Verwaltungsänderungen, die einen vollständigen Crawlvorgang erfordern, kurz vor dem geplanten Zeitpunkt für vollständige Crawls. Es empfiehlt sich beispielsweise, die Erstellung der Crawlregel vor dem nächsten geplanten vollständigen Crawlvorgang vorzunehmen, sodass kein zusätzlicher vollständiger Crawl erforderlich ist.
Machen Sie für gleichzeitige Crawls die Kapazität des Indexservers, diese zu crawlen, zur Grundlage. Es wird empfohlen, dass Sie Ihre Crawlzeitpläne unter Normalbedingungen staffeln, sodass der Indexserver nicht auf einmal mit mehreren Inhaltsquellen crawlt. Für eine optimale Leistung wird empfohlen, dass Sie die Crawlzeitpläne der Inhaltsquellen staffeln. Die Leistung des Indexservers sowie der Server, die den Inhalt hosten, bestimmt das Ausmaß, in dem überlappende Crawlvorgänge möglich sind. Eine Strategie für die Zeitplanung von Crawls kann mit der Zeit entwickelt werden, während Sie sich mit der typischen Crawldauer für jede Inhaltsquelle vertraut machen.

Gründe für einen vollständigen Crawl

Suchdienstadministratoren können aus den folgenden Gründen einen vollständigen Crawl ausführen:

Auf Servern in der Farm wurde mindestens ein Hotfix oder Service Pack installiert. Weitere Informationen finden Sie in den Anweisungen für den Hotfix oder das Service Pack.
Ein SSP-Administrator hat eine neue verwaltete Eigenschaft hinzugefügt.
Erneute Indizierung von ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites

Hinweis

Der Crawler kann nicht ermitteln, wann ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites geändert wurden. Daher wird bei inkrementellen Crawls keine erneute Indizierung von Ansichten oder Homepages vorgenommen wenn einzelne Listenelemente gelöscht werden. Es wird empfohlen, dass Sie regelmäßig vollständige Crawlvorgänge von Websites vornehmen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten erneut indiziert werden.
Zur Behebung von Fehlern bei aufeinander folgenden inkrementellen Crawls. Tritt bei einem inkrementellen Crawl einhundert Mal in Folge auf einer beliebigen Ebene eines Repositorys ein Fehler auf, entfernt der Indexserver in seltenen Fällen den betroffenen Inhalt aus dem Index.
Es wurden Crawlregeln hinzugefügt, gelöscht oder geändert.
Zum Reparieren eines beschädigten Index.
Der Suchdienstadministrator hat mindestens eine Servernamenszuordnung erstellt.
Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

Vom System wird unter folgenden Umständen selbst dann ein vollständiger Crawl ausgeführt, wenn ein inkrementeller Crawl angefordert wird:

Ein SSP-Administrator hat den vorherigen Crawl angehalten.
Eine Inhaltsdatenbank wurde aus einer Sicherung wiederhergestellt.

Hinweis

Wenn Sie das Infrastrukturaktualisierung für Microsoft Office Server ausführen, können Sie den restore-Vorgang des Befehlszeilentools stsadm verwenden, um zu ändern, ob durch die Wiederherstellung einer Inhaltsdatenbank ein vollständiger Crawl verursacht wird.
Ein Farmadministrator hat eine Inhaltsdatenbank getrennt und erneut angefügt.
Es wurde noch nie ein vollständiger Crawl der Website ausgeführt.
Das Änderungsprotokoll enthält keine Einträge für die Adressen, die gecrawlt werden. Ohne Einträge im Änderungsprotokoll für die gecrawlten Elemente können keine inkrementellen Crawls erfolgen.
Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.
Zum Reparieren eines beschädigten Index

Je nach Schweregrad der Beschädigung wird vom System möglicherweise versucht, einen vollständigen Crawl auszuführen, wenn eine Beschädigung im Index erkannt wird.

Sie können Zeitpläne nach der anfänglichen Bereitstellung auf Grundlage von Leistung und Kapazität der Server in der Farm und den Servern, die den Inhalt hosten, anpassen.

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu den Inhaltsquellen der anfänglichen Bereitstellung in die Tabellen im Abschnitt Content sources des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Für jede Inhaltsquelle können Sie auswählen, wie umfassend die Startadressen in dieser Inhaltsquelle gecrawlt werden sollen. Sie geben auch das Crawlverhalten an, das auch als Crawleinstellungen bezeichnet wird. Die Optionen, die Sie für eine bestimmte Inhaltsquelle auswählen können, variieren basierend auf dem ausgewählten Inhaltsquellentyp. Die meisten Optionen bestimmen jedoch, wie viele Ebenen der Hierarchie von jeder in der Inhaltsquelle aufgeführten Startadresse aus gecrawlt werden. Beachten Sie, dass dieses Verhalten auf alle Startadressen in einer bestimmten Inhaltsquelle angewendet wird. Wenn Sie einige Websites auf tieferen Ebenen crawlen möchten, können Sie zusätzliche Inhaltsquellen erstellen, die diese Websites umfassen.

Die in den Eigenschaften für jede Inhaltsquelle verfügbaren Optionen variieren abhängig vom ausgewählten Inhaltsquellentyp. In der folgenden Tabelle werden die Optionen der Crawleinstellungen für jeden Inhaltsquellentyp beschrieben.

Inhaltsquellentyp	Optionen für Crawleinstellungen
SharePoint-Websites	Alles unter dem Hostnamen für jede Startadresse Nur die SharePoint-Website für jede Startadresse
Websites	Nur innerhalb des Servers jeder Startadresse Nur die erste Seite jeder Startadresse Benutzerdefiniert – Seitentiefe und Anzahl der Serverwechsel angeben Hinweis Die Standardeinstellung für diese Option sind unbegrenzte Seitentiefen und Serverwechsel.
Dateifreigaben	Der Ordner und sämtliche Unterordner der einzelnen Startadressen Nur der Ordner der einzelnen Startadressen
Öffentliche Exchange-Ordner	Der Ordner und sämtliche Unterordner der einzelnen Startadressen Nur der Ordner der einzelnen Startadressen
Geschäftsdaten	Gesamten Geschäftsdatenkatalog crawlen Ausgewählte Anwendungen crawlen

Wie in der obigen Tabelle gezeigt wird, können Administratoren gemeinsamer Dienste die Optionen für die Crawleinstellungen verwenden, um die Menge des gecrawlten Inhalts einzuschränken oder zu erhöhen.

In der folgenden Tabelle werden bewährte Methoden zum Konfigurieren der Optionen für Crawleinstellungen beschrieben.

Für diesen Inhaltsquellentyp	Wenn dies gilt	Diese Option der Crawleinstellung verwenden
SharePoint-Websites	Sie möchten die Inhalte auf der Website selbst einschließen. - oder - Sie möchten die auf Unterwebsites verfügbaren Inhalte nicht einschließen, oder Sie möchten diese mit einem anderen Zeitplan crawlen.	Nur die SharePoint-Website für jede Startadresse crawlen
SharePoint-Websites	Sie möchten die Inhalte auf der Website selbst einschließen. - oder - Sie möchten sämtliche Inhalte unter der Startadresse mit dem gleichen Zeitplan crawlen.	Alles unter dem Hostnamen für jede Startadresse crawlen
Websites	Die Inhalte auf der Website selbst sind relevant. - oder - Die auf verknüpften Websites verfügbaren Inhalte sind wahrscheinlich nicht relevant.	Nur innerhalb des Servers jeder Startadresse crawlen
Websites	Relevante Inhalte befinden sich nur auf der ersten Seite.	Nur die erste Seite jeder Startadresse crawlen
Websites	Sie möchten die Tiefe beschränken, mit der die Links der Startadressen gecrawlt werden.	Benutzerdefiniert – Geben Sie die Seitentiefe und die Anzahl der Serverwechsel des Crawls an. Hinweis Es wird empfohlen, mit einer kleinen Anzahl auf einer stark vernetzten Website zu beginnen, da möglicherweise das gesamte Internet gecrawlt wird, wenn eine Tiefe von mehr als drei Seiten angegeben wird oder mehr als drei Serverwechsel angegeben werden.
Dateifreigaben Öffentliche Exchange-Ordner	Die in den Unterordnern verfügbaren Inhalte sind wahrscheinlich nicht relevant.	Nur den Ordner der einzelnen Startadressen crawlen
Dateifreigaben Öffentliche Exchange-Ordner	Die Inhalte in den Unterordnern sind wahrscheinlich relevant.	Ordner und Unterordner der einzelnen Startadressen crawlen
Geschäftsdaten	Alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevante Inhalte.	Gesamten Geschäftsdatenkatalog crawlen
Geschäftsdaten	Nicht alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevante Inhalte. - oder - Sie möchten einige Anwendungen mit einem anderen Zeitplan crawlen.	Ausgewählte Anwendungen crawlen

Planen von Dateitypinklusionen und IFilters

Inhalt wird nur gecrawlt, wenn die entsprechende Dateinamenerweiterung in der Liste der Dateitypeinschlüsse enthalten und ein IFilter auf dem Indexserver installiert ist, der diese Dateitypen unterstützt. Verschiedene Dateitypen sind automatisch bei der Erstinstallation enthalten. Bei der Planung von Inhaltsquellen für die anfängliche Bereitstellung ermitteln Sie, ob zu crawlender Inhalt nicht enthaltene Dateitypen verwendet. Wenn Dateitypen nicht enthalten sind, müssen Sie diese Dateitypen während der Bereitstellung auf der Seite Dateitypen verwalten hinzufügen und sicherstellen, dass ein entsprechender IFilter für diesen Dateityp installiert und registriert ist.

Microsoft Office SharePoint Server 2007 bietet mehrere IFilters, und weitere Filter sind über Microsoft und Drittanbieter verfügbar. Informationen zum Installieren und Registrieren von zusätzlichen IFilters von Microsoft finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server 2008 (möglicherweise maschinelle Übersetzung) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x407). Gegebenenfalls können Softwareentwickler IFilters für neue Dateitypen erstellen.

Wenn andererseits bestimmte Dateitypen nicht gecrawlt werden sollen, können Sie die Dateinamenerweiterung für diesen Dateityp aus der Liste der Dateitypeinschlüsse löschen. Damit werden Dateinamen mit dieser Erweiterung vom Crawlen ausgeschlossen.

Die folgende Tabelle enthält eine Liste von Dateitypen, die von den standardmäßig installierten IFilters unterstützt werden, sowie derjenigen Dateitypen, die standardmäßig auf der Seite Dateitypen verwalten aktiviert sind.

Dateinamenerweiterung	Standardmäßige IFilter-Unterstützung	Standardmäßige Dateitypinklusionen
ASCX	Ja	Ja
ASM	Ja	Nein
ASP	Ja	Ja
ASPX	Ja	Ja
BAT	Ja	Nein
C	Ja	Nein
CMD	Ja	Nein
CPP	Ja	Nein
CSS	Ja	Nein
CXX	Ja	Nein
DEF	Ja	Nein
DIC	Ja	Nein
DOC	Ja	Ja
DOCM	Ja	Ja
DOCX	Ja	Ja
DOT	Ja	Ja
EML	Ja	Ja
EXCH	Nein	Ja
H	Ja	Nein
HHC	Ja	Nein
HHT	Ja	Nein
HPP	Ja	Nein
HTA	Ja	Nein
HTM	Ja	Ja
HTML	Ja	Ja
HTW	Ja	Nein
HTX	Ja	Nein
JHTML	Nein	Ja
JSP	Nein	Ja
LNK	Ja	Nein
MHT	Ja	Ja
MHTML	Ja	Ja
MPX	Ja	Nein
MSG	Ja	Ja
MSPX	Nein	Ja
NSF	Nein	Ja
ODC	Ja	Ja
ONE	Nein	Nein
PHP	Nein	Ja
POT	Ja	Nein
PPS	Ja	Nein
PPT	Ja	Ja
PPTM	Ja	Ja
PPTX	Ja	Ja
PUB	Ja	Ja
STM	Ja	Nein
TIF	Ja	Ja
TIFF	Nein	Ja
TRF	Ja	Nein
TXT	Ja	Ja
URL	Nein	Ja
VDX	Nein	Ja
VSD	Nein	Ja
VSS	Nein	Ja
VST	Nein	Ja
VSX	Nein	Ja
VTX	Nein	Ja
XLB	Ja	Nein
XLC	Ja	Nein
XLS	Ja	Ja
XLSM	Ja	Ja
XLSX	Ja	Ja
XLT	Ja	Nein
XML	Ja	Ja

IFilters und Microsoft Office OneNote

Für die von Microsoft Office OneNote 2007 verwendete Dateinamenerweiterung ONE wird kein IFilter bereitgestellt. Wenn Sie möchten, dass Benutzer in der Lage sind, Inhalt in Office OneNote-Dateien zu durchsuchen, müssen Sie einen IFilter für OneNote installieren. Dazu müssen Sie eine der folgenden Methoden verwenden.

Installieren der Microsoft Office OneNote 2007-Clientanwendung auf dem Indexserver

Der IFilter in Office OneNote 2007 kann zum Crawlen von Office OneNote 2003- und Office OneNote 2007-Dateien verwendet werden. Der mit Office OneNote 2003 installierte IFilter kann nur Office OneNote 2003-Dateien crawlen. Weitere Informationen finden Sie unter Installieren und Registrieren des OneNote-IFilters (Office SharePoint Server 2007).
Installieren und Registrieren von Microsoft Filter Pack.

Der OneNote-IFilter in diesem Filter Pack kann nur zum Crawlen von Office OneNote 2007-Dateien verwendet werden. Weitere Informationen finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server (möglicherweise maschinelle Übersetzung).

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Dateitypeinschlüssen und IFilters für die anfängliche Bereitstellung im Abschnitt File-type inclusions and IFilters des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalt" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Begrenzen oder Ausschließen von Inhalten mithilfe von Crawlregeln

Beim Hinzufügen einer Startadresse zu einer Inhaltsquelle und dem Akzeptieren des Standardverhaltens werden alle Unterwebsites oder Ordner unterhalb dieser Startadresse gecrawlt, sofern Sie diese nicht mithilfe einer oder mehrerer Crawlregeln ausschließen.

Weitere Informationen zu Crawlregeln finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Weitere Überlegungen beim Planen von Inhaltsquellen

Sie können nicht dieselben Adressen unter Verwendung mehrerer Inhaltsquellen crawlen. Wenn Sie beispielsweise eine bestimmte Inhaltsquelle verwenden, um eine Websitesammlung und alle dazugehörigen Unterwebsites zu crawlen, können Sie keine andere Inhaltsquelle verwenden, um eine dieser Unterwebsites separat mit einem anderen Zeitplan zu crawlen. Zur Berücksichtigung dieser Einschränkung müssen Sie möglicherweise einige dieser Websites separat crawlen. Beachten Sie folgendes Szenario:

Der SSP-Administrator bei Contoso möchte die Website http://contoso crawlen, die die Unterwebsites http://contoso/websites/website1 und http://contoso/websites/website2 enthält. Er möchte http://contoso/websites/website2 mit einem anderen Zeitplan als die anderen Websites crawlen. Zu diesem Zweck fügt er einer Inhaltsquelle die Adressen http://contoso und http://contoso/websites/website1 hinzu und wählt die Einstellung Nur die SharePoint-Website für jede Startadresse crawlen. Dann fügt er http://contoso/websites/website2 einer anderen Inhaltsquelle hinzu und gibt einen anderen Zeitplan für diese Inhaltsquelle an.

Zusätzlich zu Crawlzeitplänen müssen bei der Planung von Inhaltsquellen noch andere Punkte berücksichtigt werden. Ob Sie beispielsweise Startadressen in einer einzigen Inhaltsquelle gruppieren oder zusätzliche Inhaltsquellen erstellen, um diese Startadressen zu crawlen, hängt weitgehend von Verwaltungsüberlegungen ab. Administratoren nehmen häufig Änderungen vor, die ein vollständiges Update einer bestimmten Inhaltsquelle erfordern. Änderungen einer Inhaltsquelle erfordern einen vollständigen Crawlvorgang für diese Inhaltsquelle. Organisieren Sie zum Vereinfachen der Verwaltung die Inhaltsquellen so, dass Updates von Inhaltsquellen, Crawlregeln und Inhaltscrawlen für die Administratoren bequem sind.

Zusammenfassung der Inhaltsquellen

Berücksichtigen Sie bei der Planung der Inhaltsquellen die folgenden Punkte:

Eine bestimmte Inhaltsquelle kann nur zum Crawlen eines der folgenden Inhaltstypen verwendet werden: SharePoint-Websites, Websites, die keine SharePoint-Websites sind, Dateifreigaben, öffentliche Exchange-Ordner, Lotus Notes-Datenbanken und Geschäftsdaten.
Administratoren gemeinsamer Dienste können bis zu 500 Inhaltsquellen in jeder SSP erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Sie sollten nur so viele Inhaltsquellen erstellen, wie Sie unbedingt benötigen, um die Verwaltung möglichst einfach zu halten.
Jede URL in einer bestimmten Inhaltsquelle muss vom gleichen Inhaltsquellentyp sein.
Für eine bestimmte Inhaltsquelle können Sie auswählen, wie tief von den Startadressen aus gecrawlt werden soll. Diese Konfigurationseinstellungen gelten für alle Startadressen in der Inhaltsquelle. Die verfügbaren Auswahlmöglichkeiten für die Crawltiefe der Startadressen weichen in Abhängigkeit vom ausgewählten Inhaltsquellentyp ab.
Sie können die Ausführung eines vollständigen oder inkrementellen Crawls für die gesamte Inhaltsquelle planen. Weitere Informationen zur Planung von Crawlvorgängen finden Sie unter "Vollständige und inkrementelle Crawlzeitpläne" weiter oben in diesem Artikel.
Administratoren gemeinsamer Dienste können die standardmäßige Inhaltsquelle ändern, zusätzliche Inhaltsquellen zum Crawlen anderen Inhalts oder beides erstellen. Die standardmäßige Inhaltsquelle kann beispielsweise so konfiguriert werden, dass Inhalt auch auf einer anderen Serverfarm gecrawlt werden kann, oder es können neue Inhaltsquellen zum Crawlen anderen Inhalts erstellt werden.
Verwenden Sie so viele Inhaltsquellen, wie für die Arten von zu crawlenden Quellen und die Häufigkeit, mit der Sie Crawlen möchten, sinnvoll ist, damit sämtlicher von Ihrer Organisation benötigter Inhalt effektiv gecrawlt wird.

Planen von Authentifizierung

Wenn der Crawler auf die in den Inhaltsquellen aufgelisteten Startadressen zugreift, muss der Crawler von den Servern authentifiziert werden und von den Servern Zugriff erhalten, auf dem der Inhalt gehostet wird. Dies bedeutet, dass das vom Crawler verwendete Domänenkonto mindestens über Leseberechtigung für den Inhalt verfügen muss.

Das Standardkonto für den Inhaltszugriff ist das Konto, das standardmäßig beim Crawlen von Inhaltsquellen verwendet wird. Dieses Konto wird durch den Administrator der gemeinsamen Dienste angegeben. Sie können alternativ Crawlregeln verwenden, um ein anderes Konto für den Inhaltszugriff anzugeben, das beim Crawlen bestimmten Inhalts verwendet wird. Unabhängig davon, ob Sie das Standardkonto für den Inhaltszugriff oder dafür ein anderes durch eine Crawlregel angegebenes Konto verwenden, muss das für den Inhaltszugriff verwendete Konto über Lesezugriff für sämtlichen Inhalt verfügen, der gecrawlt wird. Andernfalls wird der Inhalt nicht gecrawlt und ist für Abfragen nicht verfügbar.

Es wird empfohlen, dass Sie ein Standardkonto für den Inhaltszugriff wählen, das mit dem umfangreichsten Zugriff auf den Großteil des gecrawlten Inhalts verfügt, und andere Inhaltszugriffskonten nur verwenden, wenn Sicherheitsüberlegungen separate Inhaltszugriffskonten erforderlich machen. Weitere Informationen zum Erstellen eines separaten Inhaltszugriffskontos zum Crawlen von Inhalt, der nicht mit dem Standardkonto für den Inhaltszugriff gelesen werden kann, finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Identifizieren Sie für jede geplante Inhaltsquelle die Startadressen, auf die nicht mit dem Standardkonto für den Inhaltszugriff zugegriffen werden kann, und planen Sie das Hinzufügen von Crawlregeln für URL-Muster, die diese Startadressen umfassen.

Hinweis

Stellen Sie sicher, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein beliebiges anderes Konto Inhaltszugriff verwendet wird, nicht dasselbe Domänenkonto ist, das von einem Anwendungspool verwendet wird, der einer von Ihnen gecrawlten Anwendung zugeordnet ist. Dadurch wird möglicherweise unveröffentlichter Inhalt auf SharePoint-Websites und kleinere Versionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert.

Weitere Informationen zu den Planungsüberlegungen für Inhaltszugriffskonten finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Arbeitsblattaktion
Tragen Sie das Standardkonto für den Inhaltszugriff, das vom Crawler beim Crawlen von Inhalten verwendet wird, in den Abschnitt Default content access account des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Ein weiterer wichtiger Aspekt ist, dass der Crawler dieselbe Authentifizierungsmethode wie der Hostserver verwenden muss. Standardmäßig versucht der Crawler, mit NTLM-Authentifizierung zu authentifizieren. Sie können den Crawler bei Bedarf für die Verwendung einer anderen Authentifizierungsmethode konfigurieren. Weitere Informationen finden Sie in den Artikeln zu den Authentifizierungsanforderungen für das Crawlen von Inhalt unter Planen von Authentifizierungsmethoden (Office SharePoint Server).

Planen von Protokollhandlern

Sämtlicher Inhalt, der gecrawlt wird, erfordert für den Zugriff auf diesen Inhalt die Verwendung eines Protokollhandlers. Microsoft Office SharePoint Server 2007 bietet Protokollhandler für alle häufig verwendeten Internetprotokolle. Wenn Sie jedoch Inhalt crawlen möchten, der einen nicht mit Microsoft Office SharePoint Server 2007 Protokollhandler erfordern, müssen Sie den benutzerdefinierten oder Drittanbieter-Protokollhandler installieren, bevor Sie Inhalt crawlen können.

In der folgenden Tabelle werden die standardmäßig installierten Protokollhandler gezeigt.

Protokollhandler	Wird zum Crawlen folgender Elemente verwendet:
Bdc	Geschäftsdatenkatalog
Bdc2	URLs von Geschäftsdatenkatalogen (internes Protokoll)
File	Dateifreigaben
http	Websites
https	Websites über SSL (Secure Sockets Layer)
Notes	Lotus Notes-Datenbanken
Rb	Öffentliche Exchange-Ordner
Rbs	Öffentliche Exchange-Ordner über SSL
Sps	Personenprofile von Windows SharePoint Services 2.0-Serverfarmen
Sps3	Nur Crawls von Personenprofilen von Windows SharePoint Services 3.0-Serverfarmen
Sps3s	Nur Crawls von Personenprofilen von Windows SharePoint Services 3.0-Serverfarmen über SSL
Spsimport	Importieren von Personenprofilen
Spss	Importieren von Personenprofilen von Windows SharePoint Services 2.0-Serverfarmen über SSL
Sts	Windows SharePoint Services 3.0-Stamm-URLs (internes Protokoll)
Sts2	Windows SharePoint Services 2.0-Websites
Sts2s	Windows SharePoint Services 2.0-Websites über SSL
Sts3	Windows SharePoint Services 3.0-Websites
Sts3s	Windows SharePoint Services 3.0-Websites über SSL

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Protokollhandlern für die anfängliche Bereitstellung im Abschnitt Protocol handlers des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalt" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen der Verwaltung von Auswirkungen des Crawlens

Das Crawlen von Inhalt kann die Leistung der Server, die den Inhalt hosten, erheblich reduzieren. Die Auswirkungen auf einen bestimmten Server hängen von der Last ab, die auf dem Hostserver vorliegt, sowie davon, ob der Server über ausreichende Ressourcen (insbesondere CPU und RAM) verfügt, um die Vereinbarungen zum Servicelevel unter normalen Bedingungen oder bei Spitzenauslastung aufrechtzuerhalten.

Regeln für Crawlerauswirkungen erlauben es Farmadministratoren, die Auswirkungen zu verwalten, wie sich Ihr Crawler auf die gecrawlten Server auswirkt. Für jede Regel für Crawlerauswirkungen können Sie eine einzelne URL angeben oder im URL-Pfad Platzhalterzeichen verwenden, um einen Block von URLs einzuschließen, auf den die Regel angewendet wird. Sie können dann festlegen, wie viele gleichzeitige Anforderungen für Seiten an die angegebene URL ausgeführt werden, oder entscheiden, dass nur ein Dokument zu einem Zeitpunkt angefordert wird und eine Reihe von Sekunden festzulegen, die Sie zwischen Anforderungen gewartet wird.

Regeln für Crawlerauswirkungen verringern oder erhöhen die Rate, mit der der Crawler Inhalt von einer bestimmten Startadresse oder einem Bereich von Startadressen (auch als Websitename bezeichnet) anfordert, unabhängig von der Inhaltsquelle, die zum Crawlen dieser Adressen verwendet wird. Die folgende Tabelle enthält die Platzhalterzeichen, die Sie im Websitenamen verwenden können, wenn Sie eine Regel hinzufügen.

Zu verwendender Platzhalter	Ergebnis
* als Websitename	Wendet die Regel auf alle Websites an.
*.* als Websitename	Wendet die Regel auf Websites mit Punkten im Namen an.
*.websitename.com als Websitename	Wendet die Regel auf alle Websites in der Domäne websitename.com an (z. B. *.adventure-works.com).
*.Domänenname_der_obersten_Ebene als Websitename	Wendet die Regel auf alle Websites an, die mit einem bestimmten Domänennamen der obersten Ebene enden, beispielsweise .com oder .net.
?	Beispielsweise gilt .adventure-works?.com für alle Websites in den Domänen adventure-works1.com, adventure-works2.com* usw.

Sie können eine Regel für Crawlerauswirkungen für alle Websites innerhalb einer bestimmten übergeordneten Domäne erstellen. Beispielsweise gilt *.com für alle Internetwebsites mit Adressen, die auf .com enden. Beispielsweise könnte der Administrator einer Portalwebsite eine Inhaltsquelle für beispiele.microsoft.com hinzufügen. Die Regel für *.com gilt für diese Website, sofern Sie eine Regel für Crawlerauswirkungen speziell für beispiele.microsoft.com hinzufügen.

Für Inhalt innerhalb der Organisation, der von anderen Administratoren gecrawlt wird, können Sie mit diesen Administratoren die Festlegung von Regeln für Crawlerauswirkungen basierend auf Leistung und Kapazität der Server koordinieren. Für die meisten externen Websites ist diese Koordination nicht möglich. Die Anforderung von zu viel Inhalt auf externen Servern oder die Ausführung zu häufiger Anforderungen kann dazu führen, dass Administratoren dieser Websites Ihren zukünftigen Zugriff beschränken, wenn Ihre Crawlvorgänge zu viele Ressourcen oder zu viel Bandbreite verwenden. Auf diese Weise können Sie das Risiko verringern, den Zugriff zum Crawlen des entsprechenden Inhalts zu verlieren.

Legen Sie bei der ersten Bereitstellung die Regeln für Crawlerauswirkungen so fest, dass die Auswirkungen auf andere Server möglichst gering sind, während weiterhin genug Inhalt häufig genug gecrawlt wird, um die Aktualität des gecrawlten Inhalts sicherzustellen.

Während der Vorgänge können Sie die Regeln für Crawlerauswirkungen basierend auf Erfahrungen und Daten aus Crawlprotokollen anpassen.

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Regeln für Crawlerauswirkungen für die anfängliche Bereitstellung in den Abschnitt Crawler impact rules des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen von Crawlregeln

Crawlregeln gelten für eine bestimmte URL oder eine Gruppe von URLs, die durch Platzhalter dargestellt werden (auch als der von der Regel betroffene Pfad bezeichnet). Sie verwenden Crawlregeln für die folgenden Aktionen:

Vermeiden Sie das Crawlen irrelevanten Inhalts, indem eine oder mehrere URLs ausgeschlossen werden. Dadurch werden auch die Verwendung von Serverressourcen und der Netzwerkverkehr reduziert und die Relevanz von Suchergebnissen erhöht.
Crawlen Sie Hyperlinks auf die URL ohne die URL selbst zu Crawlen. Diese Option ist nützlich für Websites mit Verknüpfungen relevanten Inhalts, wenn die Seite mit den Links keine relevanten Informationen enthält.
Aktivieren Sie das Crawlen komplexer URLs. Mit dieser Option werden URLs gecrawlt, die einen Abfrageparameter mit einem Fragezeichen enthalten. Je nach Website schließen diese URLs möglicherweise relevanten Inhalt ein. Da komplexe URLs häufig auf irrelevante Websites umleiten können, empfiehlt es sich, diese Option nur für Websites zu aktivieren, für die der Inhalt von komplexen URLs als relevant bekannt ist.
Aktivieren Sie Inhalt auf SharePoint-Websites so, dass diese als HTTP-Seiten gecrawlt werden. Diese Option ermöglicht es, dass der Indexserver SharePoint-Websites hinter einer Firewall oder in Szenarien crawlt, bei denen die gecrawlte Website den Zugriff auf den von dem Crawler verwendeten Webdienst beschränkt.
Geben Sie an, ob das Standardkonto für den Inhaltszugriff, ein anderes Konto für den Inhaltszugriff oder ein Clientzertifikat zum Crawlen der angegebenen URL verwendet werden soll.

Hinweis

Crawlregeln gelten gleichzeitig für alle Inhaltsquellen des SSP.

Häufig ist der größte Teil der Informationen für eine bestimmte Websiteadresse relevant, nicht aber eine bestimmte Unterwebsite oder eine Reihe von Websites unterhalb dieser Websiteadresse. Durch Auswählen einer fokussierten Kombination von URLs, für die Crawlregeln erstellt werden sollen, die nicht benötigte Elemente ausschließen, können Administratoren gemeinsamer Dienste die Relevanz des Inhalts im Index maximieren, während die Auswirkungen auf die Crawlleistung und die Größe der Suchdatenbanken minimiert werden. Das Erstellen von Crawlregeln zum Ausschließen von URLs ist besonders bei der Planung von Startadressen für externen Inhalt nützlich, für den die Auswirkungen auf die Ressourcenverwendung nicht von Personen in Ihrer Organisation gesteuert werden.

Beim Erstellen einer Crawlregel können Sie im Pfad standardmäßige Platzhalterzeichen verwenden, beispielsweise:

http://server1/ordner* schließt alle Webressourcen mit einer URL ein, die mit http://server1/ordner beginnt.
*://*.txt umfasst alle Dokumente mit der Dateinamenerweiterung TXT.

Da das Crawlen von Inhalt Ressourcen und Bandbreite verbraucht, empfiehlt es sich, eine kleinere Menge an Inhalt einzuschließen, dessen Relevanz Ihnen bekannt ist, als eine größere Menge an Inhalt, der möglicherweise irrelevant ist. Nach der anfänglichen Bereitstellung können Sie die Abfrage und die Crawlprotokolle überprüfen sowie Inhaltsquellen und Crawlregeln so anpassen, dass deren Relevanz erhöht wird und weiterer Inhalt eingeschlossen wird.

Angeben eines anderen Kontos für den Inhaltszugriff

Für Crawlregeln, die Inhalt einschließen, haben Administratoren die Möglichkeit, das Konto für den Inhaltszugriff der Regel zu ändern. Das Standardkonto für den Inhaltszugriff wird verwendet, sofern kein anderes Konto in einer Crawlregel angegeben ist. Der Hauptgrund für die Verwendung eines anderen Kontos für den Inhaltszugriff einer Crawlregel besteht darin, dass das Standardkonto für den Inhaltszugriff nicht auf alle Startadressen zugreifen kann. Für diese Startadressen können Sie eine Crawlregel erstellen und ein Konto mit Zugriff angeben.

Hinweis

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Crawlregeln für die anfängliche Bereitstellung in den Abschnitt Crawl rules des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

Neben den Einstellungen, die auf der SSP-Ebene konfiguriert sind, beeinflussen verschiedene Einstellungen, die auf der Ebene der Farm verwaltet werden, wie Inhalt gecrawlt wird. Berücksichtigen Sie beim Planen des Crawlens die folgenden Sucheinstellungen auf Farmebene:

Kontakt-E-Mail-Adresse: Crawlinhalt betrifft die Ressourcen der Server, die gecrawlt werden. Bevor Sie Inhalt crawlen können, müssen Sie in den Konfigurationseinstellungen die E-Mail-Adresse der Person Ihrer Organisation bereitstellen, an die sich Administratoren richten können, wenn der Crawl deren Server nachteilig beeinflusst. Diese E-Mail-Adresse wird in den Protokollen für die Administratoren der gecrawlten Server angezeigt, sodass diese Administratoren jemanden erreichen, wenn die Auswirkungen auf Leistung und Bandbreite zu groß sind oder andere Probleme auftreten.

Die Kontakt-E-Mail-Adresse sollte einer Person gehören, die die erforderlichen Kenntnisse und die Verfügbarkeit besitzt, um auf Anforderungen schnell zu antworten. Alternativ können Sie einen streng überwachten Verteilerlistenalias als Kontakt-E-Mail-Adresse verwenden. Unabhängig davon, ob der Inhalt intern für die Organisation gecrawlt wird oder nicht, ist eine schnelle Antwortzeit wichtig.
Proxyservereinstellungen: Sie können auswählen, ob beim Crawlen von Inhalt ein Proxyserver verwendet werden soll. Der zu verwendende Proxyserver hängt von der Topologie der Microsoft Office SharePoint Server 2007-Bereitstellung und der Architektur von anderen Servern in Ihrer Organisation ab.
Timeouteinstellungen: Die Timeouteinstellungen werden zur Begrenzung der Zeit verwendet, in der der Suchserver beim Herstellen einer Verbindung mit anderen Diensten wartet.
SSL-Einstellung: Die SSL-Einstellung (Secure Sockets Layer, SSL) bestimmt, ob das SSL-Zertifikat genau übereinstimmen muss, damit Inhalte gecrawlt werden können.

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Sucheinstellungen auf Farmebene für die anfängliche Bereitstellung in den Abschnitt Farm-level search settings des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Indizieren von Inhalten in verschiedenen Sprachen

Beim Crawlen von Inhalt bestimmt der Crawler jedes einzelne Wort im Inhalt, das er findet. Sprachen, in denen Wörter durch Leerzeichen getrennt sind, machen es dem Crawler relativ leicht, die einzelnen Wörter zu unterscheiden. Für andere Sprachen ist die Bestimmung der Wortgrenzen komplexer.

Microsoft Office SharePoint Server 2007 bietet standardmäßig Module zur Wörtertrennung und zur Wortstammerkennung, die beim Crawlen und Indizieren von Inhalten in vielen Sprachen hilfreich sind. Worttrennmodule finden Wortgrenzen in indizierten Volltextdaten, Module zur Wortstammerkennung dienen zur Konjugation von Verben.

Wenn Sie eine der Sprachen in der unten stehenden Tabelle crawlen, werden in Microsoft Office SharePoint Server 2007 automatisch die entsprechenden Module zur Wörtertrennung und Wortstammerkennung für diese Sprache verwendet. Ein Sternchen (*) gibt an, dass das Feature zur Wortstammerkennung standardmäßig aktiviert ist.

Standardmäßig unterstützte Sprache	Standardmäßig unterstützte Sprache
Arabisch	Litauisch*
Bengali	Malaiisch
Bulgarisch*	Malayalam*
Katalanisch	Marathi
Kroatisch	Norwegisch (Bokmaal)
Tschechisch*	Polnisch*
Dänisch	Portugiesisch
Niederländisch	Portugiesisch (Brasilien)
Englisch	Pandschabisch
Finnisch*	Rumänisch*
Französisch*	Russisch*
Deutsch*	Serbisch (Kyrillisch)*
Griechisch*	Serbisch (Lateinisch)*
Gudscharati	Slowakisch*
Hebräisch	Slowenisch*
Hindi	Spanisch*
Ungarisch*	Schwedisch
Isländisch*	Tamilisch*
Indonesisch	Telugu*
Italienisch	Thailändisch
Japanisch	Türkisch*
Kannada*	Ukrainisch*
Koreanisch	Urdu*
Lettisch*	Vietnamesisch

Wenn der Crawler Inhalte für eine Sprache indiziert, die nicht unterstützt wird, wird die neutrale Wörtertrennung verwendet. Wenn die neutrale Wörtertrennung nicht die erwarteten Ergebnisse liefert, können Sie Lösungen von Drittanbietern versuchen, die mit Microsoft Office SharePoint Server 2007 funktionsfähig sind.

Es wird empfohlen, die entsprechende Wörtertrennung und Wortstammerkennung für jede der Sprachen zu installieren, die unterstützt werden müssen. Wörtertrennung und Wortstammerkennung müssen auf allen Servern installiert sein, auf denen der Office SharePoint Server-Suchdienst ausgeführt wird.

Weitere Informationen zur Wörtertrennung und Wortstammerkennung finden Sie unter Planung mehrsprachiger Websites.

Arbeitsblattaktion
Tragen Sie die Entscheidungen zu Worttrennung und Wortstammerkennung für die anfängliche Bereitstellung in den Abschnitt Word breakers and stemmers des Dokuments Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) ein (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407).

Arbeitsblatt

Wenn Sie dies nicht bereits getan haben, notieren Sie Ihre Planungsentscheidungen über Inhaltsquellen und andere Entscheidungen zum Crawlen von Inhalt im folgenden Arbeitsblatt:

Arbeitsblatt "Planen des Crawlens von Inhalten" (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x407)

Wenn Sie während der anfänglichen Bereitstellung und Konfiguration nur einige der geplanten Inhaltsquellen und Crawlregeln erstellen möchten, können Sie dieses Arbeitsblatt als Teil der laufenden Vorgänge verwenden.

Herunterladen dieses Buchs

Dieses Thema wurde zum leichteren Lesen und Ausdrucken in das folgende Buch zum Herunterladen aufgenommen:

Planen von Websites und Features, Teil 1

Die vollständige Liste der verfügbaren Bücher finden Sie unter Bücher zum Herunterladen für Office SharePoint Server 2007.

Planen des Crawlens von Inhalten (Office SharePoint Server)

Informationen zum Crawlen und Indizieren von Inhalten

Identifizieren der Quellen der zu crawlenden Inhalte

Planen von Inhaltsquellen

Crawlen unterschiedlicher Inhaltstypen

Planen der Inhaltsquellen für Geschäftsdaten

Crawlen von Inhalten mit unterschiedlichen Zeitplänen

Downtimes und Spitzenauslastungszeiten

Häufig aktualisierte Inhalte

Vollständige und inkrementelle Crawlzeitpläne

Gründe für einen vollständigen Crawl

Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Planen von Dateitypinklusionen und IFilters

IFilters und Microsoft Office OneNote

Begrenzen oder Ausschließen von Inhalten mithilfe von Crawlregeln

Weitere Überlegungen beim Planen von Inhaltsquellen

Zusammenfassung der Inhaltsquellen

Planen von Authentifizierung

Planen von Protokollhandlern

Planen der Verwaltung von Auswirkungen des Crawlens

Planen von Crawlregeln

Angeben eines anderen Kontos für den Inhaltszugriff

Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

Indizieren von Inhalten in verschiedenen Sprachen

Arbeitsblatt

Herunterladen dieses Buchs

Zusätzliche Ressourcen