Mir (und nicht nur mir) ist in den letzten Tagen eine auffällige Zunahme der Referer-Spam in verschiedenen Internet-Projekten aufgefallen, um die ich mich kümmere.
Ich vermute, dass nicht jeder Leser weiß, was „Referer-Spam“ ist, deshalb eine kurze Erklärung.
Wenn der Browser eine Seite (oder eine beliebige andere Datei) von einem Webserver anfordert, muss er dem Webserver natürlich irgendwie mitteilen, welche Datei er haben will. Der Webserver sendet daraufhin eine Antwort, die im Regelfall von den angeforderten Daten gefolgt wird – es gibt aber noch weitere mögliche Antworten des Webservers im Falle eines Fehlers, bei einer Weiterleitung und noch vieles mehr, und diese in geeigneter Weise zu behandeln, obliegt wieder dem Browser. Damit sich die beiden, oft auf völlig verschiednen Betriebssystemen laufenden Programme, der Browser und der Webserver, untereinander verstehen, muss diese Form des Datenaustausches geregelt sein.
Ein kleiner Einschub: Der Begriff „Webserver“ ist für viele „normale“ Menschen, die sich nicht mit solchen Biestern auseinandersetzen müssen, oft ein bisschen verwirrend. Die Umgangssprache versteht unter einem „Webserver“ meist einen Computer, der am Internet hängt. In technischer Ausdrucksweise ist ein Server aber kein Computer, sondern eine Software, die auf einem Computer läuft. Die beiden Begriffe geraten deshalb leicht einmal durcheinander, was dazu führt, dass eigentlich einfache technische Aussagen völlig missverstanden werden. Ich verwende hier die technische Ausdrucksweise, meine mit dem Begriff „Webserver“ also das Programm, das Anfragen aus dem Internet behandelt und hoffentlich fehlerfrei abarbeitet.
Eine solche Regelung des Datenaustausches nennt man ein „Protokoll“. Dieses Wort ist nicht im Sinne eines Protokolles zu verstehen, das nachträglich ein Ereignis festhält und beschreibt, sondern eher im Sinne eines „diplomatischen Protokolles“, das die Einzelheiten eines Vorganges der Begegung regelt und strukturiert. Solche Protokolle sind nicht nur in der Diplomatie eine penible Angelegenheit, auch die technischen Protokolle sind recht penibel und sehr genau ausgearbeitet. Das Protokoll, dem Browser und Webserver in ihrer Kommunikation folgen, nennt sich Hypertext Transfer Protocol (abgekürzt: HTTP) – und wer tiefere Erkenntnis wünscht, kann gern einmal einen Blick in die technische Spezifikation werfen. Das ist genau die Form der „Literatur“, die niemand gern liest, die ein Programmierer aber manchmal lesen muss.
Wenn der Browser eine Datei vom Webserver anfordert, macht er eine Menge Angaben. Die wichtigste Angabe ist der relative Pfad der Datei im Verzeichnis des Servers, sonst wüsste der Server ja nicht, welche Daten er ausliefern soll. Aber das ist nicht die einzige Angabe, der Browser gibt unter anderem auch an, welche Dateitypen er akzeptiert, ob die Datenübertragung komprimiert sein kann und welche Sprache für Textdokumente gewünscht ist.
Eine dieser zusätzlichen, aber nicht unbedingt erforderlichen Angaben des Browsers gegenüber dem Webserver ist der Referer. Es handelt sich um eine Angabe, von welcher anderen Adresse im Internet auf die angeforderte Datei verwiesen wurde. Übrigens würde das korrekte englische Wort „Referrer“ (mit doppeltem „r“) lauten, aber bei der erstmaligen Spezifikation des HTT-Protokolles wurde das Wort falsch geschrieben, und dieser Fehler ist dann zur Regel geworden. Obwohl diese Angabe nichts mit dem eigentlichen Datentransfer zu tun hat, ist sie für einen Webmaster recht sinnvoll, denn so erfährt er, wo sein kleines (oder großes) Internet-Projekt verlinkt wird und mit welchen Suchbegriffen es über Suchmaschinen gefunden wurde. Jedes Statistik-Tool für Webmaster wertet diese Angabe aus, denn das gibt Aufschluss über die Verlinkung und Auffindbarkeit und damit über die Sichtbarkeit des Projektes im Internet.
Es gibt aber auch immer wieder Websites, deren Betreiber sich entschließen, die Referer öffentlich anzuzeigen. Auf diese Weise soll auch für Leser einer Website sichtbar und sogar anklickbar werden, welche Websites einen Link gesetzt haben – der Link soll quasi zurückgegeben werden.
Das wäre an sich eine feine Sache, wenn es keine Spam gäbe.
Denn natürlich kann auch das Skript eines Spammers HTTP zum Webserver „sprechen“, um auf diese Weise über einen angegebenen Referer eine meist eklig-schlüpfrige Website offen auf einer „harmlosen“ Site zu verlinken. Ein solches Skript zu schreiben, würde mich weniger als 15 Minuten meiner Lebenszeit kosten, es handelt sich also auch um eine in ihrer Durchführung sehr einfache Form der Spam. Da man eine kriminelle Website schnell und ohne große Schmerzen auf einen anderen Server umziehen kann, ist es auch kaum möglich, mit einer Blacklist gegen diese Form der Spam vorzugehen. Wer seine Referer auf der Website offen darstellt, ist der Referer-Spam schutzlos ausgeliefert, er kann sich sogar nach gegenwärtiger Rechtsauffassung in der BR Deutschland wegen offener Links auf kriminelle Angebote strafbar machen.
Als Blogs in der frühen Mitte der Nuller Jahre beliebter wurden, gab es schnell für beinahe jedes Blogsystem Plugins und Widgets, die es ermöglichten, die Referer in der Sidebar anzuzeigen. Diese verschwanden aber sehr schnell wieder, weil sie zur Zielscheibe der Referer-Spam wurden. Und mit dem Verschwinden der Referer-Anzeigen verschwand auch die Referer-Spam – beides ist jetzt für ein paar Jahre in Vergessenheit geraten.
In den letzten Tagen bemerkte ich eine auffällige Zunahme von Referern, die ihren Spamcharakter nicht verbergen konnten. Diese Referer traten massenhaft auf, einer von einer pornografischen Website vorgestern sogar neunzig Mal im Laufe eines einzigen Tages. Es handelte sich klar um Referer-Spam, um eine Form der Spam, die ich inzwischen schon längst vergessen hatte.
Aber was sollte das Ziel dieser Spam sein? Es zeigt doch niemand mehr seine Referer an, dachte ich mir.
Die Aufklärung kam relativ schnell. Heute wurde ich durch einen Blogkommentar auf das Widget „Feedjit“ aufmerksam gemacht. Das sagte mir zunächst gar nichts, und deshalb musste ich erst einmal eine Suchmaschine bemühen, um etwas Aufklärung über „Feedjit“ zu erhalten:
Bei meinem letzten Besuch auf den Seiten des Blogpimps habe ich dort eine interessante Spielerei gesehen. Ein kleines Tool für die WordPress Sidebar oder auch für jede „normale“ Homepage. Das Gadget von FEEDJIT zeigt die letzten Besucher an und von welcher Seite sie gekommen sind.
Es handelt sich also um ein leicht in Websites, Blogs (und sogar in Twitter) verbastelbares Widget, das unter anderem die Referer öffentlich sichtbar macht. Da wundert es mich gar nicht, dass es auf einmal wieder die inzwischen längst vergessene Refererspam in der beobachteten Massivität gibt. Wer sich über das neue Spielzeug in seinem Blog und…
Erstaunlich fand ich, dass nach der Installation die Besucherzahlen gestiegen sind. […] Ich selbst habe mich auch schon von Seite zu Seite geklickt und habe mich über die vielen neuen Seiten gefreut, die ich so kennen gelernt habe.
…über die Möglichkeit steigender Besucherzahlen freut, könnte schnell eine gewisse Ernüchterung erleben, wenn sich „viele neue Seiten“ als recht unappetitlich erweisen – und die eingeblendeten Referer werden schnell wieder verschwinden. Denn jetzt ist die Seuche der Referer-Spam schon wieder auf einem Niveau wie in den Zeiten des großen Bloghypes und der allgemeinen Neigung zum Spielkram.
Nur, um das mal angemerkt zu haben.
Wer eine andere oder weitere Ursache für die gegenwärtige Zunahme der Referer-Spam kennt, bitte in die Kommentare damit. Gegen meine Hypothese spricht die Tatsache, dass Feedjit schon ein bisschen älter ist, aber ich vermute, dass es gerade eine so große Verbreitung gefunden hat, dass diese Form der Spam wieder als „lohnend“ erscheint.