Während z.B. eine Umfrage-Statistik durch allerhand menschliche Faktoren beeinflußt werden kann, wie z.B. falsche Zielgruppenauswahl, falsche Zeitpunkte oder unterschwellig formulierte Fragen, gibt es bei der Statistik zum Abruf von Internetseiten eine feste Größe die nicht verändert werden kann (es sei denn sie wird willkürlich gefälscht): Die kleinste abrufbare Einheit eines Webservers, die Datei.
Für jede Anfrage an einen Webserver, z.B. in Form von http://www.aca-gmbh.de/bild.gif oder http://www.aca-gmbh.de/startseite.html wird eine Zeile in eine Textdatei, dem so genannten Logfile geschrieben, in der versch. Informationen abgelegt werden. Zeitpunkt des Abrufs, Name und Pfad der abgerufenen Datei, die Seite, welche vorab besucht wurde (der so genannte Referer) sowie eine Statusmeldung ob der Abruf geklappt hat. Und natürlich, ganz wichtig, die Internetadresse des Rechners der die Information angefordert hat, die IP. Auch, welcher Browser die Anfrage gestellt hat, wird festgehalten.
Diese Logfiles speichern also jede abgerufene Einheit, sei es ein Bild, ein Video oder eine HTML-Seite und ausserdem auch welcher Rechner im Internet die Informationen abgerufen hat. Als Beispiel eine einfache HTML-Seite (seite.html):
<html>
<body>
<h1>Willkommen auf meiner Seite</h1>
<img src="/bild.gif">
</body>
</html>
Wird diese Webseite in folgender Form vom Webserver abgerufen - http://www.aca-gmbh.de/seite.html - so generiert der Webserver im Logfile in etwa folgende Einträge (vereinfacht):
66.249.72.107 - - [16/Mar/2009:00:00:27] "GET /seite.html " 302 719 www.aca-gmbh.de "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"
87.168.124.217 - - [16/Mar/2009:00:00:22] "GET /bild.gif" 200 843 www.aca-gmbh.de "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.20) Gecko/20081217 Firefox/2.0.0.20" "-"
Für diese eine, abgerufene Webseite (seite.html) wurden also zwei Einträge ins Logfile geschrieben, einmal für die Grafik, und einmal für die Webseite selbst, man spricht von einer Pageview mit zwei Hits. Die kleinste abrufbare Einheit des Webservers ist somit der Hit, die darauf folgende der Seitenabruf, der Pageview. Und genau hier beginnt schon die erste Auswertarbeit, die ein Analyse-Programm leisten muss: Es muss herausfinden, welche Hits zu einer Seite gehören und welche selbst eine Seite darstellen, um die Größe "Pageview" korrekt zu errechnen. Die nächste größere Einheit, ein Besuch (Visit), beinhaltet den Abruf verschiedener zusammen gehörender Seiten in Kombination mit der abrufenden IP-Adresse, was zu noch größeren Verschiebungen führen kann. Inbesondere bei den neuen Programmiertechniken im Internet, bei denen Grafiken, Videos und wiederum ganze Webseiten und Skripte eng ineinander verwoben oder ständig nachgeladen werden, werden die korrekten Auswertungen der Webserver-Logfiles daher immer schwerer.
Halten wir fest: Ein Analyseprogramm, welches aus konventionellen Logfiles Webserver-Statistiken erstellt, stützt sich hauptsächlich auf folgende drei Größen: IP-Adresse des abrufenden Rechners, der weiterleitende Server bzw. die zuvor aufgerufene Webseite (Referer) sowie der Browser der die Seite angefordert hat.
Daraus ergeben sich in der Praxis einige Probleme:
Insgesamt zeichnet sich die Qualität von Logfile-Analyse-Programmen dadurch aus, dass sie aus den beschränkten Webserver-Informationen trotz allem aussagekräftige Statistiken liefern. Dies wird aus den oben genannten Gründen immer schwerer und zusehends nur noch zu Richtgrößen, da selbst der Seitenabruf nicht mehr als zuverlässige Größe genutzt werden kann. Inbesondere die Statistiken der Provider liefern bei mittelgroßen und großen Sites keine nutzbaren Informationen mehr.
Demgegenüber stehen Echtzeit Analyzer, die gezielt auf der Webseite eingebaut werden, wie Google Analytics oder eTracker. Diese Analyse Tools arbeiten wesentlicher effizienter. Dadurch, dass die Tracking-Codes direkt in den zu analysierenden Seiten, an selbst festzulegenden Stellen eingebaut werden, wird auch nur das ausgewertet was wichtig ist. Es stehen schon in den Basisversionen deutlich mehr Funktionen zur Verfügung: Suchbegriffe, Klickpfade, Branchen-Benchmarks, Neu Trendanalysen, Regional- und Länderauswertungen, Wiederkehr, Verweildauer, Flash-Tracking und Live-Besucherverfolgung sind möglich. Verschiedenen Schätzungen zufolge hat Google mit seinem Analytics inzwischen über 60% Marktanteil, und das nicht von ungefähr. Die Liste der Funktionen liest sich wie folgt:
Dies schafft Google mit den folgenden Methoden:
Google speichert die Nutzerdaten auf seinen Servern. Beim Besuch einer Website, die zum Beispiel Google Analytics verwendet, wird dem User eine ID-Nummer zugewiesen und über diese ID ist Google theoretisch in der Lage, ein umfassendes Bewegungs- und Nutzungsprofil zu erstellen. Unter Umständen kann dieses Profil sogar personalisiert werden.
Datenschutzrechtlich bedenklich
Google setzt Cookies und unterschiedliche, weitere Methoden ein um Benutzer eindeutig zu identifizieren. Dabei wird auch vor Zusatzinformationen wie Bildschirmgrößen und eingesetzter Software kein Halt gemacht.
Greift ein Nutzer nun z.B. auf anmeldepflichtige Google-Dienste (Google Apps, Google AdWords, Google Maps usw.) zu oder gibt anderweitig seine persönlichen Daten an, ist es soweit: Die Zusammenführung von Namen und IP-Nummer könnte statt finden.
Wichtig:
Webmaster müssen auf ihrer Website darauf hinweisen, dass Web-Tracking-Software Nutzerdaten sammelt, die zur Profilerstellung verwendet werden könnte. Das schreibt Google in § 8.1 der Nutzungsbedingungen sogar vor. 99% aller Websites, die den Dienst verwenden, ignorieren dies, obwohl Google sogar auf die Übernahme eines vorgefertigten Wortlautes besteht:
“Diese Website benutzt Google Analytics, einen Webanalysedienst der Google Inc. (Google) Google Analytics verwendet sog. Cookies, Textdateien, die auf Ihrem Computer gespeichert werden und die eine Analyse der Benutzung der Website durch Sie ermöglicht. Die durch den Cookie erzeugten Informationen über Ihre Benutzung dieser Website (einschließlich Ihrer IP-Adresse) wird an einen Server von Google in den USA übertragen und dort gespeichert. Google wird diese Informationen benutzen, um Ihre Nutzung der Website auszuwerten, um Reports über die Websiteaktivitäten für die Websitebetreiber zusammenzustellen und um weitere mit der Websitenutzung und der Internetnutzung verbundene Dienstleistungen zu erbringen. Auch wird Google diese Informationen gegebenenfalls an Dritte übertragen, sofern dies gesetzlich vorgeschrieben oder soweit Dritte diese Daten im Auftrag von Google verarbeiten. Google wird in keinem Fall Ihre IP-Adresse mit anderen Daten der Google Inc. in Verbindung bringen. Sie können die Installation der Cookies durch eine entsprechende Einstellung Ihrer Browser Software verhindern; wir weisen Sie jedoch darauf hin, dass Sie in diesem Fall gegebenenfalls nicht sämtliche Funktionen dieser Website voll umfänglich nutzen können. Durch die Nutzung dieser Website erklären Sie sich mit der Bearbeitung der über Sie erhobenen Daten durch Google in der zuvor beschriebenen Art und Weise und zu dem zuvor benannten Zweck einverstanden.”
Fazit: Der Einsatz von Echtzeit-Tracker bietet viele Vorteile gegenüber den herkömmlichen Statistiken. Der Einsatz ist jedoch datenschutzrechtlich bedenklich und die Nutzung muss auf der Webseite bekannt gegeben werden.
ACA GmbH
Stefan Neumann