Google mit Scripten abfragen
Posted in custom search on May 30th, 2011Tags: search parameter, url parameter
Ja das geht tatsächlich. Und das ist nicht mal schwer. Wenn man als Skript daher kommt muss man Google lediglich sagen, das man eben keines ist. Das macht man ganz einfach über den User Agent.
Während man auf
wget 'http://google.de/search?q=meinSuchBegriff&filter=0'
einen 403 Status-Code zurück bekommt, erhält man bei
wget 'http://google.de/search?q=meinSuchBegriff&filter=0' --user-agent 'Mozilla/4.0'
die korrekte Antwort von Google. Das gleiche Ergebnis erzielt man mit curl so:
curl --location --user-agent 'Mozilla/4.0' 'http://google.de/search?q=meinSuchBegriff&filter=0'
Auswerten kann man die Rückgabe dann einfach mit Regexen (alle Links aus dem Ergebnis ziehen) oder in PHP-CLI mit SimpleHTMLDom. Einfach so einlesen:
$HTML = str_get_html($response);
Die Links der Suchergebnisse findet man dann so:
$results = $HTML->find("a[class=l]");
Für das seitenweise Springen in den Google-Ergebnissen nutzt man dann einfach den Google-Parameter ‘start’, bei 10 Ergebnissen pro Seite wird der einfach mit jedem Lauf um 10 erhöht. Und dann weiß man auch wann Schluss ist. Wenn die Seite keine 10 Ergebnisse mehr hat.
[ Leave A Comment »]