BeautifulSoup Archive - Python Tagebuch Python Tagebuch

Tagebuch-Eintrag #53
Dateien aus dem US National Archiv automatisch herunterladen

14. Juni 2020
15:01 Uhr

Browser-Automatisierung mit Selenium. Mein erstes Python-Projekt mit Selenium. Und es funktioniert prima!

Für ein Hobby von mir sind Informationen aus dem US National Archiv sehr interessant und hilfreich für die Recherche. Die Dokumenten sind öffentlich zugänglich und können von der Webseite des National Archivs heruntergeladen werden.

Jedoch gestaltet sich der Download der Dateien sehr mühselig. Die Dateien befinden sich in einem „Ordner“, die mit einem Link aufgerufen werden. In einem Ordner können mehrere Dateien vorhanden sein. Meistens zwischen 15 und 30. (1) Man muss jede Datei anklicken und (2) danach den Download-Button anklicken. (3) Anschließend öffnet sich die JPG-Datei in einem neuen Tab. (4) Diese Datei muss ich wiederum manuell abspeichern.

Tagebuch-Eintrag #45
Webseite Crawlen mit Python

22. März 2020
16:07 Uhr

Webseiten crawlen mit Python war das nächste Thema, welches im Udemy-Python-Kurs dran war.

Vor gut einer Woche habe ich das Thema Webseiten crawlen abarbeitet und weiß nun, was ich benötige um Informationen aus Webseite auszulesen.

Als ich vorher darüber gelesen hatte, kam mir schon den einen oder anderen praktischen Nutzen in den Sinn. Zum Beispiel verschiedene HTML-Tabellen auslesen und nur die Informationen in den Zellen weiterverarbeiten, die man braucht.

Schlagwort: BeautifulSoup

Tagebuch-Eintrag #53
Dateien aus dem US National Archiv automatisch herunterladen

Tagebuch-Eintrag #45
Webseite Crawlen mit Python

Archiv

Weitere Informationen

Schlagwort: BeautifulSoup

Tagebuch-Eintrag #53 Dateien aus dem US National Archiv automatisch herunterladen

Tagebuch-Eintrag #45 Webseite Crawlen mit Python

Tagebuch-Eintrag #53
Dateien aus dem US National Archiv automatisch herunterladen

Tagebuch-Eintrag #45
Webseite Crawlen mit Python