
In der Podcastfolge wird die Ankündigung von Cloudflare diskutiert, einen neuen API-Endpunkt bereitzustellen, der das Extrahieren von Webseiteninhalten revolutionieren könnte. Entwickler können mit...
In der Podcastfolge wird die Ankündigung von Cloudflare diskutiert, einen neuen API-Endpunkt bereitzustellen, der das Extrahieren von Webseiteninhalten revolutionieren könnte. Entwickler können mit einem einfachen Befehl wie „/crawl“ den reinen Inhalt einer Seite abrufen, ohne das überflüssige JavaScript-Markup. Dies macht legales Webscraping erheblich effizienter, da der bisherige Aufwand für das Schreiben und Warten von Crawlern, Proxy-Rotation und Rate-Limiting entfällt. Cloudflare kann diesen Service anbieten, da es als CDN-Anbieter ohnehin gecachte Kopien vieler Webseiten vorhält. Aus gesamtwirtschaftlicher Sicht spart dies menschliche Ressourcen, Energie und macht das Netz effizienter.
Kritisch wird jedoch die Doppelmoral von Cloudflare betrachtet: Das Unternehmen hat jahrelang Dienste verkauft, um Webseiten vor genau solchem Scraping zu schützen, und bietet nun der Gegenseite die Werkzeuge an. Dies wird mit der Strategie von Adblockern verglichen, die später Firmen die Umgehung ihrer eigenen Blocker verkaufen. Für Website-Betreiber könnte der Service dennoch vorteilhaft sein, da er Serverlast reduziert, solange sie unerwünschte Crawler weiter blockieren können.
Die Diskussion weitet sich auf weitere Implikationen aus: Cloudflare könnte mit diesem Schritt in eine rechtliche Grauzone geraten, da es durch die Bereitstellung einer veränderten, reduzierten Version der Webseiteninhalte möglicherweise vom neutralen Infrastrukturanbieter zum „Publisher“ wird, was Haftungsfragen aufwirft. Es wird erwartet, dass Konkurrenten wie Akamai ähnliche Lösungen entwickeln werden. Als nächster konsequenter Schritt werden vorab gepackte Content-Pakete („Corpora“) für KI-Trainingszwecke vorgeschlagen, die das individuelle Scraping überflüssig machen und einen wertvollen Markt für qualitativ hochwertige, gesäuberte Datensätze darstellen könnten.
Abschließend wird kurz die abgeschlossene Übernahme der Cybersecurity-Firma Wiz durch Google für 32 Milliarden US-Dollar erwähnt, der größten Transaktion in Googles Geschichte, nach etwa einem Jahr regulatorischer Prüfung.