Loading

Google mit Scripten abfragen

Posted in custom search on May 30th, 2011
Tags: ,

Ja das geht tatsächlich. Und das ist nicht mal schwer. Wenn man als Skript daher kommt muss man Google lediglich sagen, das man eben keines ist. Das macht man ganz einfach über den User Agent.

Während man auf

wget 'http://google.de/search?q=meinSuchBegriff&filter=0'

einen 403 Status-Code zurück bekommt, erhält man bei

wget 'http://google.de/search?q=meinSuchBegriff&filter=0' --user-agent 'Mozilla/4.0'

die korrekte Antwort von Google. Das gleiche Ergebnis erzielt man mit curl so:

curl --location --user-agent 'Mozilla/4.0' 'http://google.de/search?q=meinSuchBegriff&filter=0'

Auswerten kann man die Rückgabe dann einfach mit Regexen (alle Links aus dem Ergebnis ziehen) oder in PHP-CLI mit SimpleHTMLDom. Einfach so einlesen:

$HTML = str_get_html($response);

Die Links der Suchergebnisse findet man dann so:

$results = $HTML->find("a[class=l]");

Für das seitenweise Springen in den Google-Ergebnissen nutzt man dann einfach den Google-Parameter ‘start’, bei 10 Ergebnissen pro Seite wird der einfach mit jedem Lauf um 10 erhöht. Und dann weiß man auch wann Schluss ist. Wenn die Seite keine 10 Ergebnisse mehr hat.

[ Leave A Comment »]

Als Deutscher nach englischen Inhalten suchen.

Posted in Google Eigenarten on May 25th, 2011

Habt Ihr schon einmal versucht als Deutscher aus Deutschland via Google nach englischen Inhalten zu suchen? Das funktioniert nicht wirklich gut. Gibt man englische Begriffe in der deutschen Suche ein, dann werden zuerst deutsche Seiten gefunden, auf denen der Englische Begriff verwendet wird.

Der ein oder andere wird sich jetzt denken: Kein Problem, dann gehe ich halt auf google.com. Da kann ich nur sagen: Pech gehabt. Google erkennt dass Ihr aus Deutschland kommt und gibt euch auch über diese Domain die deutsche Google-Suche.

Es gibt aber eine Möglichkeit dennoch auf die amerikanische Suche mit den amerikanischen Suchergebnissen zu kommen. Das Zauberwort ist: “no country relay”
Dazu ruft man google.com einfach wie folgt auf:

http://www.google.com/ncr

[ Leave A Comment »]
//modules/coppermine/include/init.inc.php?CPG_M_DIR //inc/cmses/aedatingCMS.php?dir%5Binc%5D /fclicksql/order/login.php?svr_rootscript /includes/lang/language.php?path_to_root /fclicksql/admin/inc/change_action.php?format_menue //faqsupport/samplefaqsupport.php?path[docroot] /fclicksql//phpAdsNew/view.inc.php?phpAds_path //authentication/smf/smf.functions.php?pConfig_auth[smf_path] /default/params.php?gConf[dir][layouts] ///vwar/backup/errors.php?error
Blogverzeichnis - Blog Verzeichnis bloggerei.de Blogverzeichnis