Scrapy installieren

Windows


Mit Scrapy kann man Ressourcen aus dem Internet automatisiert herunterladen. zB. eine große Bildersammlung aus einem Imageboard oder Preis/Produktinformation aus einem Webshop. Siehe Unterprojekte. Um Scrapy unter Windows nutzen zu können muß man zuerst Python installieren und danach Scrapy. Die aktuelle Version zieht man sich hier. Bei der Installation darauf achten das Add Python to PATH ausgewählt wird. Nun einen Projektordner erstellen, wo der Scrapy Spider laufen soll. In diesem Ordner dann die Windows Command Shell (cmd.exe) starten. Der Befehl CMD:> python --version sollte einen String wie Python 3.13.5 ausgeben.

Als Nächstes erstellen wir eine virtuelle Umgebung und installieren Scrapy in ihr.
# Virtuelle Umgebung erstellen.
CMD:> python -m venv venvscrapy

# Virtuelle Umgebung aktivieren, das muss jedes Mal geschehen bevor wir Scrapy nutzen können!
CMD:> venvscrapy\Scripts\activate

# Nun installieren wir Scrapy in der virtuellen Umgebung:
CMD:> pip install scrapy
Wenn alles geklappt hat sollte der Befehl CMD:> scrapy version die aktuell installierte Version wie zB. Scrapy 2.16.0 anzeigen.
Als Letztes das Spider-Skript herunterladen und in den Projektordner verschieben. Den Spider führt man dann mit CMD:> python script.py ... aus, wobei der Skriptname natürlich angepasst werden muss und die drei Punkte für ev erforderliche Parameter stehen.

Linux


Als Erstes aktualisieren wir die Paketliste und installieren Python:
> apt update
> apt install -y python3 python3-pip python3-venv

Der Befehl python3 --version sollte zu einer Ausgabe wie Python 3.13.5 führen. Nun erstellen wir einen Projektordner für Scrapy und den Spider. Diesen Ordner mit der Shell betreten.

# Hier erstellen wir eine Virtuelle Umgebung:
> python3 -m venv venvscrapy

# Virtuelle Umgebung aktivieren, das muss jedes Mal geschehen bevor wir Scrapy nutzen können!
> source venvscrapy/bin/activate

# Als nächstes installieren wir Scrapy und überprüfen die Version.
> pip install scrapy
> scrapy version

Spider ausführen


Nun noch den Spider in den Projektordner verschieben und ausführen:
python script.py --thread-url="https://vipergirls.to/threads/...", wobei der Skriptname angepasst und ev. erforderliche Parameter ergänzt werden müssen.

Sonstiges


Zum Erstellen des Skriptes habe ich die Entwicklungsumgebung PyCharm verwendet und außerdem ChatGPT zu Scrapy/IMX Problemen befragt. Bei kleineren Änderungen kann man auch einfach einen Editor wie Notepad++ oder Notepadqq benutzen. ZB wenn man die Scrapy custom_settings am Anfang des Skriptes etwas tunen möchte.