So extrahieren Sie Text aus Webseiten


Das Extrahieren von Text von einer Webseite kann auf verschiedene Arten erfolgen. Die von Ihnen gewählte Methode sollte von dem Zweck abhängen, den Sie für den Text haben. Wenn Ihr Unternehmen lediglich den Text ausdrucken möchte, um ihn als Anweisungen oder Richtlinien zu verwenden, können Sie den Text nur als HTML extrahieren. Wenn sich Bilder und Text auf der Webseite befinden und Sie die Seite in ihrer ursprünglichen Form beibehalten möchten, sollten Sie die vollständige Webseite extrahieren. Es gibt drei Möglichkeiten, den Text zu extrahieren, und es gibt zwei Möglichkeiten, den Text und die Bilder zusammen zu extrahieren.

Nur Text extrahieren

1


Öffnen Sie die Webseite, von der Sie Text extrahieren möchten. Klicken Sie auf das Menü „Datei“ und dann auf die Option „Speichern unter“ oder „Seite speichern unter“. Wählen Sie im Dropdown-Menü Dateityp die Option „Webseite, nur HTML“, geben Sie einen Namen für die Datei ein und klicken Sie auf „Speichern“. Der Text wird extrahiert und als HTML-Datei mit den ursprünglichen Seitenformatierungsoptionen gespeichert. Die Datei kann in Webbrowsern angezeigt und in Texteditoren wie Notepad bearbeitet werden.

2


Klicken Sie auf die Option „Speichern unter“ oder „Seite speichern unter“ und wählen Sie „Textdateien“ aus dem Dropdown-Menü „Dateityp“. Geben Sie einen Namen für die Textdatei ein und klicken Sie auf „Speichern“. Der Text von der Webseite wird extrahiert und als Textdatei gespeichert, die in Texteditoren und Dokumentprogrammen wie Microsoft Word angezeigt werden kann.

3

Klicken und ziehen Sie, um den Text auf der Webseite auszuwählen, die Sie extrahieren möchten, und drücken Sie „Strg-C“, um den Text zu kopieren. Öffnen Sie einen Texteditor oder ein Dokumentprogramm und drücken Sie „Strg-V“, um den Text von der Webseite in die Textdatei oder das Dokumentfenster einzufügen. Speichern Sie die Textdatei oder das Dokument auf Ihrem Computer.

Text und Bilder extrahieren

1

Klicken Sie in Ihrem Webbrowser auf das Menü „Datei“ und dann auf die Option „Speichern unter“ oder „Seite speichern unter“. Wählen Sie im Dropdown-Menü Dateityp die Option „Webseite, abgeschlossen“ und geben Sie einen Namen für die Datei ein. Klicken Sie auf „Speichern“. Der Text und die Bilder von der Webseite werden extrahiert und gespeichert. Der Text wird in einer HTML-Datei abgelegt und die Bilder werden in einem Ordner am selben Speicherort wie die HTML-Datei abgelegt.

2

Doppelklicken Sie auf die HTML-Datei, um den extrahierten Text und die extrahierten Bilder anzuzeigen. Sie werden in Ihrem Webbrowser geöffnet. Die andere Methode zum Extrahieren von Text und Bildern ist nur im Internet Explorer verfügbar. Öffnen Sie die gewünschte Webseite in Internet Explorer, bevor Sie mit dem nächsten Schritt fortfahren.

3

Klicken Sie im Menü „Datei“ auf die Option „Speichern unter“ und wählen Sie im Dropdown-Menü „Dateityp“ die Option „Webarchiv, einzelne Datei (* .mht)“ aus. Geben Sie einen Namen für die Datei ein und klicken Sie auf die Schaltfläche „Speichern“. Der Text und die Bilder werden von der Webseite in die Datei extrahiert. Doppelklicken Sie auf die Datei, um den extrahierten Text und die extrahierten Bilder in Ihrem Webbrowser anzuzeigen.