Loading

Google mit Scripten abfragen

Posted in custom search on May 30th, 2011
Tags: ,

Ja das geht tatsächlich. Und das ist nicht mal schwer. Wenn man als Skript daher kommt muss man Google lediglich sagen, das man eben keines ist. Das macht man ganz einfach über den User Agent.

Während man auf

wget 'http://google.de/search?q=meinSuchBegriff&filter=0'

einen 403 Status-Code zurück bekommt, erhält man bei

wget 'http://google.de/search?q=meinSuchBegriff&filter=0' --user-agent 'Mozilla/4.0'

die korrekte Antwort von Google. Das gleiche Ergebnis erzielt man mit curl so:

curl --location --user-agent 'Mozilla/4.0' 'http://google.de/search?q=meinSuchBegriff&filter=0'

Auswerten kann man die Rückgabe dann einfach mit Regexen (alle Links aus dem Ergebnis ziehen) oder in PHP-CLI mit SimpleHTMLDom. Einfach so einlesen:

$HTML = str_get_html($response);

Die Links der Suchergebnisse findet man dann so:

$results = $HTML->find("a[class=l]");

Für das seitenweise Springen in den Google-Ergebnissen nutzt man dann einfach den Google-Parameter ‘start’, bei 10 Ergebnissen pro Seite wird der einfach mit jedem Lauf um 10 erhöht. Und dann weiß man auch wann Schluss ist. Wenn die Seite keine 10 Ergebnisse mehr hat.

[ Leave A Comment »]

Als Deutscher nach englischen Inhalten suchen.

Posted in Google Eigenarten on May 25th, 2011

Habt Ihr schon einmal versucht als Deutscher aus Deutschland via Google nach englischen Inhalten zu suchen? Das funktioniert nicht wirklich gut. Gibt man englische Begriffe in der deutschen Suche ein, dann werden zuerst deutsche Seiten gefunden, auf denen der Englische Begriff verwendet wird.

Der ein oder andere wird sich jetzt denken: Kein Problem, dann gehe ich halt auf google.com. Da kann ich nur sagen: Pech gehabt. Google erkennt dass Ihr aus Deutschland kommt und gibt euch auch über diese Domain die deutsche Google-Suche.

Es gibt aber eine Möglichkeit dennoch auf die amerikanische Suche mit den amerikanischen Suchergebnissen zu kommen. Das Zauberwort ist: “no country relay”
Dazu ruft man google.com einfach wie folgt auf:

http://www.google.com/ncr

[ Leave A Comment »]

Google hacking database

Posted in Google hacking on January 13th, 2011

Ein paar solcher Sachen habe ich selbst hier ja auch bereits selbst gefunden und gepostet. Eine größere Datenbank an “Google-Hacks” findet Ihr aber in der Google hacking database.

Die Google  hacking database ist ein Teil der Exploit-DB und zeigt sehr viele Sicherheitslücken auf die man durch Google finden kann. Dabei geht es nicht rein darum unsichere Skripte ausfindig zu machen sondern auch wie man Zugangsdaten oder ungewollt für alle erreichbare Bereiche einer Webseite im Internet findet.

Schuld daran sind meist unbedacht oder fahrlässig handelnde Webmaster.

  • Passwort-Dateien werden einfach mit auf die Webseite gelegt, in der Hoffnung, das Google diese nicht findet.
  • Administrator-Bereiche werden oft einfach offen gelassen, weil die CMS ja bereits eine Passwortsicherung mitbringen. Das diese Ebenfalls Sicherheitslücken enthalten können, wird nicht bedacht.
  • Bereiche die nicht für die Öffentlichkeit gedacht sind werden teilweise nicht mal in der robots.txt erwähnt. Google wird also auch darin suchen. Noch besser wäre hier aber natürlich ebenfalls ein Passwortschutz über .htaccess.

Wenn Bedarf besteht, kann ich einzelne Artikel aus der Google hacking database gerne übersetzt mit ausführlicher Erklärung hier reposten. Ihr könnt mir dazu einfach Feedback über die Kommentar-Funktion oder das Kontakt-Formular geben.

[ Leave A Comment »]

Google Übersetzung als Beatbox

Posted in google translate on December 12th, 2010
Tags: , ,

Ja, eigentlich ist der Hype schon fast vorbei und ich bin echt spät mit diesem Post.

Der Google-Übersetzer hat es vor kurzem zu seltsamer Berühmtheit geschafft. Findige Nutzer haben sich darin versucht die “Anhören”-Funktion als Beatbox zu gebrauchen. Das funktioniert auch sehr gut, wie Ihr an folgendem Beispiel sehen könnt:

pv zk bschk pv zk pv bschk zk pv zk bschk pv zk pv bschk zk bschk pv bschk bschk pv kkkkkkkkkk bschk

Direkt zu Google

Also: Viel Spaß damit!

Wenn Ihr selbst schonmal was “gemixt” habt, postet den Link einfach hier als Kommentar:)

[ Leave A Comment »]

Linksys Dateifreigaben für Jedermann

Posted in webinterfaces on November 9th, 2010

Einige Linksys-Router haben eine Option eine Festplatte an den Router zu hängen und diese über einen eigenen Dateibrowser in einem Netzwerk freizugeben. Das klingt praktisch, wenn man es braucht.

Nutzt man dazu noch DynDNS kann man auch übers Internet schnell an  seine Daten ran oder diese Freunden zur Verfügung stellen. Doch Vorsicht: Auch Google ist dein “Freund”.

Schneller als man denkt sind dann nämlich alle Dateifreigaben im Google-Index gelandet und lassen sich darüber finden. Aber überzeugt euch selbst. Sucht dazu mit Google einfach nach folgendem:

intitle:”Browse Files” “Network Storage”

Direkt zu Google

Also denkt daran. Solche Freigaben sollte man immer entsprechend mit einem Passwort absichern oder die Freigabe auf bestimmte IP-Adressen beschränken.

[ Leave A Comment »]

Gästebücher, Feedback-Formulare oder Tell-a-Friend-Funktionen – Wie schützt man Sie vor Bots (CAPTCHA)

Posted in Sidetopics on October 24th, 2010

Ja, alle oben genannten Funktionen versenden normalerweise E-Mails oder die Möglichkeit Inhalt direkt auf Ihre Webseite zu schreiben. Daher sind sie meist sehr spannende Ziele für Bots.

* Gästebücher

Beiträge in Gästebüchern werden in vielen Fällen direkt auf der entsprechenden Webseite angezeigt. Das ist also Ideal für “Spammer” um Viagra, oder ähnliche, Werbung im Internet zu verbreiten. Man schnappe sich einfach eine Sammlung an Gästebüchern (finden kann man diese zum Beispiel über eindeutige Suchstrings mit Google) und schreibe in jedes Werbung von der gewünschten Seite. Um möglichst schnell möglichst viele Gästebücher abarbeiten zu können werden hier sogenannte Bots verwendet. Dies gehen dann automatisiert auf die Seite und Schreiben in das Gästebuch.

* Feedback-Forumlare

In manchen Fällen kann man damit nur den Seitenbetreiber ärgern, weil dieser immer eine E-Mail erhält wenn das Formular abgesendet wird. Der Seitenbetreiber sollte sich hier auf jeden Fall hüten die eigenen E-Mails als Spam zu markieren. Sonst werden von seiner Webseite bald gar keine E-Mails mehr irgendwo angenommen.

Viel schlimmer ist es allerdings, wenn das Formular  eine Option bietet sich eine Kopie auf die eigenen E-Mail-Adresse zusenden zu lassen. Es wird nämlich nirgends abgefragt (wie sollte das auch gehen) ob die Adresse, welche ich dort eingebe auch wirklich meine ist. Das machen sich Spammer natürlich zu nutzen. Sie können ganz einfach eine Beliebige Adresse in das entsprechende Formular eingeben und Ihren eigenen Werbe-Inhalt in das Formular schreiben. Damit geht dann an eine völlig unbeteiligte Person die Werbung des Spammers im Namen der missbrauchten Webseite raus.

Wenn ein Spammer diese Lücke dann einmal gefunden hat, wird auch hier ein Bot/Skript losgejagt der über das Formular dann an Zehntausend von E-Mail-Adressen Spam versendet.

* Tell-a-Friend-Funktionen

Hier ist es meist ähnlich wie bei dem Feedback-Formular. Man kann über die Webseite (meist Internet-Shops) eine E-Mail an eine beliebige Adresse versenden und meist auch noch eigenen Text hinzufügen. Ich denke man erkennt die Gemeinsamkeit mit dem Feedback-Formular.

Aber wie schützt man sich denn jetzt davor?

Das ist eine sehr gute Frage. Beim Gästebuch kann man als Schnellschuss schon einmal die Moderationsfunktion (falls vorhanden) einschalten. Damit muss man als Seitenbetreiber die Gästebucheinträge erst lesen und dann freigeben.

Gerade, wen sich ein Spam-Bot auf der Webseite befindet isst dies aber eher unpraktikabel. Es müsste also eine Möglichkeit geben (und das gilt auch fürs Feedback-Formular und die Tell-a-Friend-Funktion) zu verhindern, dass Bots / Skripte das Formular bedienen können.

Die Lösung sind CAPTCHA’s.

Die Definition auf Wikipedia sagt bereits alles:

CAPTCHA ['kæptʃə] ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing-Test zur Unterscheidung von Computern und Menschen“. CAPTCHAs werden verwendet, um zu entscheiden, ob das Gegenüber ein Mensch oder eine Maschine ist.

Es sind also Erkennungsmechanismen um Computer und Menschen unterscheiden zu können. Die bekannteste Form ist wohl Buchstaben und Zahlen, die man von einem Bild abschreiben muss um ein Formular absenden zu können. Mittlerweile sind auch angezeigte Rechenaufgaben weit verbreitet. Das ist allerdings nur eine Form von CAPTCHA. Ich beschreibe diese hier zum Schluss, zuvor versuche ich allerdings CAPTCHA’s zu beschreiben, von denen der Besucher selbst nicht mitbekommt (und daran sollte jeder Webseitenbetreiber Interesse haben).

1. Eine ID in jedes Formular

Jedes Formular dass Ihre Webseite ausgibt sollte in ein verstecktes Input-Feld eine ID einspeichern, die als Berechtigung dient Formulardaten abzusenden. Also eine einmalig generierte Nummer die auf dem Server später wieder geprüft werden kann. So kann man schon mal Skripte ausschließen, die gar nicht Ihr Formular aufrufen um die Formulardaten abzusenden. WordPress verwendet hierzu im Backend die wp-once Funktion. Diese wird für jede Formularausgabe neu generiert. Das Formular kann dann nur mit dieser ID abgesendet werden.

2.  Zeitliche Erkennung

Ein Skript wird Ihr Formular meist innerhalb weniger Sekunden mehrmals hintereinander aufrufen. Ein guter Mechanismus wäre es also genau das abzufragen. Wenn das Formular innerhalb 2 Sekunden vom gleichen Besucher 3  mal aufgerufen wird. Dann sollte man diesem Besucher den Zugang zum Formular für eine Bestimmte Zeit verweigern.

3. Weitere Tipps

Weitere sehr gute Tipps findet Ihr auf dieser Seite (http://1ngo.de/web/captcha-spam.html ). Auch wenn der Seitenbetreiber sie nicht so nennt, sind die Beschriebenen Mechanismen ebenfalls unter den CAPTCHA-Verfahren einzuordnen.

Interessant finde ich hier vor allem die Arbeit mit den Formular-Feld-Namen. Man vergibt einfach dem Feld für die E-Mail-Adresse den Namen Feld1 und stellt ein verstecktes Feld (nicht hidden field sondern über eine CSS-Datei auf “diplay:none” gestelltes Feld) zur Verfügung das nicht ausgefüllt werden darf. Der Besucher macht das ganze dann richtig, weil er das Feld1 auf der Webseite als E-Mail-Feld angezeigt bekommt und das Feld “email” gar nicht sieht. Ein Bot/Skript dagegen wird in diese Falle tappen. Er füllt das Feld E-Mail mit der E-Mail-Adresse aus und wird damit das Formular nicht absenden können.

4. Evtl. geografische Erkennung.

Anhand der IP-Adresse des Besuchers lässt sich grob sein Standort bestimmen. Diesen Mechanismus nennt man GEO-Lookup und wird von PHP im Geo IP Location-Paket mitgeliefert (http://de3.php.net/manual/de/book.geoip.php). So könnte man in dem Verwendeten Formular schon von Anfang an spezielle Länder ausschließen. Das ganze sollte man allerdings vorsichtig verwenden, wenn die Meisten Besucher Ihrer Seite aus den entsprechenden Ländern kommen, ergibt das natürlich keinen Sinn. Zahlen zu den aktivste Spam-versendenden Ländern findet man über die Google-Suche:

spam länder

Direkt zu Google.

5. Die von Besuchern gehassten Abfragen

Der Vollständigkeit halber schreibe ich auch noch etwas über diese Art von CAPTCHA’s. Es gibt hierzu mittlerweile gute Anbieter, deren Bilder man sehr leicht in ein eigenes Formular einbinden kann. Auch Google bietet so etwas unter dem Namen reCAPTCHA (http://www.google.com/recaptcha) an. Die Einbindung des Codes ist denkbar einfach

<html>
<body> <!-- the body tag is required or the CAPTCHA may not show on some browsers -->
<!-- your HTML content --><form method="post" action="verify.php">
<?php
require_once('recaptchalib.php');
$publickey = "your_public_key"; // you got this from the signup page
echo recaptcha_get_html($publickey);
?>
<input type="submit" />
</form><!-- more of your HTML content -->
</body>
</html>

Auf PHP-Seite muss man dann nur noch abfragen ob das CAPTCHA richtig eingegeben wurde:

<?php
require_once('recaptchalib.php');
$privatekey = "your_private_key";
$resp = recaptcha_check_answer ($privatekey,
$_SERVER["REMOTE_ADDR"],
$_POST["recaptcha_challenge_field"],
$_POST["recaptcha_response_field"]);if (!$resp->is_valid) {
// What happens when the CAPTCHA was entered incorrectly
die ("The reCAPTCHA wasn't entered correctly. Go back and try it again." .
"(reCAPTCHA said: " . $resp->error . ")");
} else {
// Your code here to handle a successful verification
}
?>

Was kann man noch tun?

Man sollte sich darüber hinaus noch folgende Fragen stellen:

1. Muss ich das Formular jedem Besucher anbieten? Evtl. reicht es aus, wenn nur registrierte Benutzer  das Formular nutzen können. Das gilt vor allem für Tell-a-Friend-Funktionen in Shops.

2. Bei Gästebüchern/Foren: Ist es notwendig dass die Beiträge immer sofort online sind? Ist es mir die Moderationsarbeit  Wert eine Spam-Freie Webseite zu haben?

3. Ist es notwendig  dass der Besucher sich eine Kopie der Kontakt-Anfrage zusenden lassen kann?

[ Leave A Comment »]

Spuren der Hacker

Posted in Über Google Malware finden. on October 4th, 2010

Ja, täglich werden tausende, ja wahrscheinlich millionen von Internet-Seiten gehackt. Dabei sind nicht alle Hacker darauf aus, in ein System einzudringen um dort böse Skripte zu hinterlassen über die man dann böse Dinge tun kann. Nein, manche wollen sogar bewusste Spuren hinterlassen. Dabei verunstalten viele die Startseiten der Internet-Seiten Ihrer Opfer und hinterlassen dabei den Namen Ihrer Hacker Gruppe.

Diese Veränderung einer Internet-Seite nennt man “defacement”. Im  Archive von zone-h findet man eine Menge veränderter Internet-Seiten, welche allerdings nicht mehr unbedingt in dieser Form online sind.

Wenn man nach aktuell gehackten Seiten suchen möchte, liefert Google bessere Ergebnisse.

Ein Teil vieler Defacements ist die Änderung des Titles ins “Hacked by”+Name der Hackergruppe oder des Hackers. Dies machen wir uns für unsere Suche zu nutze:

intitle:”Hacked By”

Direkt zu Google

Hier fand ich bereits auf Seite 5 das erste Opfer.  Weitere folgen dann.

Diese Suche kann man auch noch weiter beschränken. Will man nur nach deutschen (.de-Domains) Internet-Seiten suchen, so ergänzt man die Suche einfach mit einem entsprechendem Site:

intitle:”Hacked By” site:de

Direkt zu Google

Ein wenige erschreckend für die Deutschen Webmaster, aber hier wurde ich sogar noch schneller fündig. Bereits auf Seite 1 befanden sich 2 Opfer.

So kann man übrigens auch einfach die eigene Internet-Seite überprüfen. Hier ersetzt man den Site-Wert einfach durch seine eigene komplette Domain. Das ist dann ein weitere Fühler zur Früherkennung einer Kompromittierung der eigenen Internet-Seite.

intitle:”Hacked By” site:domain.tld

Wenn Ihr weitere Title gesehen habt, dann könnt Ihr diese ganz einfach in der Suche ersetzen. Viele Hacker benutzen zum Beispiel “H4ckd by”  anstelle vom ausgeschriebenem “Hacked by”.

Teilweise ist es erschreckend zu sehen, wie lange manche Seiten bereits derart verändert wurden. In manchen Ergebnissen sieht man wiederum dass die Seite zwar halbwegs wiederhergestellt wurde, der Title aber immer noch geändert ist. Wer weiß, was auf diesen Seiten noch an Schadcode schlummert.

[ Leave A Comment »]

pastie.org – Das Portal zu den Zugangsdaten der Anderen.

Posted in custom search on August 27th, 2010

Ja, pastie.org ist praktisch. Mit wenigen Klicks kann man dort Textdateien erstellen und diese an beliebig viele Menschen weitergeben. Es gibt sogar so tolle Funktionen wie Syntax-Hightlighting.

Ein weiteres tolles Feature ist dass alle Dokumente, welche nicht explizit als privat markiert wurden in Google zu finden sind. So findet man dort Chat-Protokolle, E-Mail-Verkehr, interessanten Quellcode von irgendwelchen Programmieren und Zugangsdaten zu diversen Webseiten.

Letztere sind sogar relativ einfach zu finden. Hier ein Beispiel für Wer-Kennt-Wen-Zugangsdaten:

site:pastie.org “wer-kennt-wen.de”

Direkt zu Google
Klar muss man in den Ergebnissen ein wenig suchen, aber ich bin mir sicher Ihr findet hier auch jede Menge funktionierende Zugangsdaten ;-)

Aber woher kommen diese Daten? Wenn man sich einmal mehrere Dateien Anschaut, dann sieht man, dass das Format immer relativ gleich ist. Diese Listen sind also über Programme bzw. in diesem Fall Trojaner erzeugt worden. Die Besitzer der entsprechenden Accounts haben sich also einen Trojaner eingefangen, der fröhlich alle Zugangsdaten die der Besitzer auf Webseiten eingibt mitlogt und diese dann irgendwann an einen zentralen Server weiter gibt. Wie gesagt, pastie.org ist ja so praktisch.

Einer der derzeit meist verbreiteten Vertreter unter den Trojanern ist “ZeuS”: 1&1 schützt Internetnutzer vor Trojaner ZeuS

Ich empfehle diese Suche mal mit eurem eigenen Benutzernamen zu machen. Falls Ihr was findet:

  • Den Virus suchen und entfernen
  • Wenn kein Virus gefunden werden kann, den Computer neu installieren
  • Alle Passwörter, die an dem PC genutzt wurden ändern
[ Leave A Comment »]

Dyndns, das Tor zu den Heimrechnern

Posted in Privatrechner on August 8th, 2010

Dank Diensten die dynamische IP Adressen mit festen Hosts verknüpfen ist es möglich genau diese Gruppe von Rechnern im Netz ausfindig zu machen. Dahinter stecken meist Privatrechner, weil es sich ja um eine dynamische IP meist von einem Internet-Anschluss handelt. Der größte Anbieter ist DynDNS.

Was viele nicht wissen ist, dass Google auch diese Adressen abgrast. Aufbauend auf diesem Wissen kann man also gezielt nach Privatrechnern suchen. Dazu hier einmal die Domains die DynDNS derzeit anbietet:

ath.cx
blogdns.com
blogdns.net
blogdns.org
blogsite.org
boldlygoingnowhere.org
dnsalias.com
dnsalias.net
dnsalias.org
dnsdojo.com
dnsdojo.net
dnsdojo.org
doesntexist.com
doesntexist.org
dontexist.com
dontexist.net
dontexist.org
dvrdns.org
dyn-o-saur.com
dynalias.com
dynalias.net
dynalias.org
dyndns.biz
dyndns.info
dyndns.org
dyndns.tv
dyndns.ws
endofinternet.net
endofinternet.org
endoftheinternet.org
ftpaccess.cc
game-host.org
game-server.cc
getmyip.com
go.dyndns.org
gotdns.com
gotdns.org
ham-radio-op.net
hobby-site.com
hobby-site.org
home.dyndns.org
homedns.org
homeftp.net
homeftp.org
homeip.net
homelinux.com
homelinux.net
homelinux.org
homeunix.com
homeunix.net
homeunix.org
is-a-chef.com
is-a-chef.net
is-a-chef.org
is-a-geek.com
is-a-geek.net
is-a-geek.org
isa-geek.com
isa-geek.net
isa-geek.org
kicks-ass.net
kicks-ass.org
merseine.nu
mine.nu
mypets.ws
myphotos.cc
office-on-the.net
podzone.net
podzone.org
scrapper-site.net
scrapping.cc
selfip.biz
selfip.com
selfip.info
selfip.net
selfip.org
servebbs.com
servebbs.net
servebbs.org
serveftp.net
serveftp.org
servegame.org
shacknet.nu
thruhere.net
webhop.biz
webhop.info
webhop.net
webhop.org

Ich nehme mir jetzt eine Dieser Adressen heraus und suche danach, hier endofinternet.net:

site:endofinternet.net

Direkt zu Google

Das alleine ist schon interessant. Verbunden mit andere Suchparametern kann man sehr interessante Ergebnisse erzielen. Mit intitle:”index of” zum Beispiel findet Ihr Dateien die auf diesen Rechnern zugreifbar sind.

site:endofinternet.net intitle:”index of”

Direkt zu Google

Auch sehr interessant kann das in der Bildersuche sein:
Direkt zu Google
Weitere Spielchen überlasse ich euch :)

[ Leave A Comment »]

Auf der Suche nach den Bots (pBot)

Posted in Über Google Malware finden. on July 9th, 2010

So einfach findet man über Google PHP-Bots:

filetype:txt “class pBot”

Diese kann man für sogenannte RFI-Attacken (Remote File Inclusion) gegen Webseiten verwenden.
Direkt zu Google

[1 Comment »]
//modules/coppermine/include/init.inc.php?CPG_M_DIR //inc/cmses/aedatingCMS.php?dir%5Binc%5D /fclicksql/order/login.php?svr_rootscript /includes/lang/language.php?path_to_root /fclicksql/admin/inc/change_action.php?format_menue //faqsupport/samplefaqsupport.php?path[docroot] /fclicksql//phpAdsNew/view.inc.php?phpAds_path //authentication/smf/smf.functions.php?pConfig_auth[smf_path] /default/params.php?gConf[dir][layouts] ///vwar/backup/errors.php?error
Blogverzeichnis - Blog Verzeichnis bloggerei.de Blogverzeichnis