Windows
Mit Scrapy kann man Ressourcen aus dem Internet automatisiert herunterladen. zB. eine große Bildersammlung
aus einem Imageboard oder Preis/Produktinformation aus einem Webshop. Siehe Unterprojekte.
Um Scrapy unter Windows nutzen zu können muß man zuerst Python installieren und danach Scrapy. Die
aktuelle Version zieht man sich
hier. Bei der Installation darauf achten das
Add Python to PATH ausgewählt wird.
Nun einen Projektordner erstellen, wo der Scrapy Spider laufen soll. In diesem Ordner dann die Windows
Command Shell (cmd.exe) starten. Der Befehl
CMD:> python --version sollte einen String wie
Python 3.13.5 ausgeben.
Als Nächstes erstellen wir eine virtuelle Umgebung und installieren Scrapy in ihr.
# Virtuelle Umgebung erstellen.
CMD:> python -m venv venvscrapy
# Virtuelle Umgebung aktivieren, das muss jedes Mal geschehen bevor wir Scrapy nutzen können!
CMD:> venvscrapy\Scripts\activate
# Nun installieren wir Scrapy in der virtuellen Umgebung:
CMD:> pip install scrapy
Wenn alles geklappt hat sollte der Befehl
CMD:> scrapy version die aktuell installierte
Version wie zB.
Scrapy 2.16.0 anzeigen.
Als Letztes das Spider-Skript herunterladen und in den Projektordner verschieben. Den Spider führt man
dann mit
CMD:> python script.py ... aus, wobei der Skriptname natürlich angepasst werden
muss und die drei Punkte für ev erforderliche Parameter stehen.
Linux
Als Erstes aktualisieren wir die Paketliste und installieren Python:
> apt update
> apt install -y python3 python3-pip python3-venv
Der Befehl
python3 --version sollte zu einer Ausgabe wie
Python 3.13.5 führen. Nun
erstellen wir einen Projektordner für Scrapy und den Spider. Diesen Ordner mit der Shell betreten.
# Hier erstellen wir eine Virtuelle Umgebung:
> python3 -m venv venvscrapy
# Virtuelle Umgebung aktivieren, das muss jedes Mal geschehen bevor wir Scrapy nutzen können!
> source venvscrapy/bin/activate
# Als nächstes installieren wir Scrapy und überprüfen die Version.
> pip install scrapy
> scrapy version
Spider ausführen
Nun noch den Spider in den Projektordner verschieben und ausführen:
python script.py --thread-url="https://vipergirls.to/threads/...", wobei
der Skriptname angepasst und ev. erforderliche Parameter ergänzt werden müssen.
Sonstiges
Zum Erstellen des Skriptes habe ich die Entwicklungsumgebung PyCharm verwendet und außerdem ChatGPT
zu Scrapy/IMX Problemen befragt. Bei kleineren Änderungen kann man auch einfach einen Editor
wie Notepad++ oder Notepadqq benutzen. ZB wenn man die Scrapy custom_settings am Anfang des
Skriptes etwas tunen möchte.