info@aca-gmbh.de

+49 7121 50 93 82

Mit Internet-Statistiken ist es wie mit allen Statistiken. Man kann sie auslegen und interpretieren wie man will. Aber nur fast.

Während z.B. eine Umfrage-Statistik durch allerhand menschliche Faktoren beeinflußt werden kann, wie z.B. falsche Zielgruppenauswahl, falsche Zeitpunkte oder unterschwellig formulierte Fragen, gibt es bei der Statistik zum Abruf von Internetseiten eine feste Größe die nicht verändert werden kann (es sei denn sie wird willkürlich gefälscht): Die kleinste abrufbare Einheit eines Webservers, die Datei.

Für jede Anfrage an einen Webserver, z.B. in Form von http://www.aca-gmbh.de/bild.gif oder http://www.aca-gmbh.de/startseite.html wird eine Zeile in eine Textdatei, dem so genannten Logfile geschrieben, in der versch. Informationen abgelegt werden. Zeitpunkt des Abrufs, Name und Pfad der abgerufenen Datei, die Seite, welche vorab besucht wurde (der so genannte Referer) sowie eine Statusmeldung ob der Abruf geklappt hat. Und natürlich, ganz wichtig, die Internetadresse des Rechners der die Information angefordert hat, die IP. Auch, welcher Browser die Anfrage gestellt hat, wird festgehalten.

Diese Logfiles speichern also jede abgerufene Einheit, sei es ein Bild, ein Video oder eine HTML-Seite und ausserdem auch welcher Rechner im Internet die Informationen abgerufen hat. Als Beispiel eine einfache HTML-Seite (seite.html):

<html>
 <body>
 <h1>Willkommen auf meiner Seite</h1>
 <img src="/bild.gif">
 </body>
</html>

Wird diese Webseite in folgender Form vom Webserver abgerufen - http://www.aca-gmbh.de/seite.html - so generiert der Webserver im Logfile in etwa folgende Einträge (vereinfacht):

66.249.72.107 - - [16/Mar/2009:00:00:27] "GET /seite.html " 302 719 www.aca-gmbh.de "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"
87.168.124.217 - - [16/Mar/2009:00:00:22] "GET /bild.gif" 200 843 www.aca-gmbh.de "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.20) Gecko/20081217 Firefox/2.0.0.20" "-"

Für diese eine, abgerufene Webseite (seite.html) wurden also zwei Einträge ins Logfile geschrieben, einmal für die Grafik, und einmal für die Webseite selbst, man spricht von einer Pageview mit zwei Hits. Die kleinste abrufbare Einheit des Webservers ist somit der Hit, die darauf folgende der Seitenabruf, der Pageview. Und genau hier beginnt schon die erste Auswertarbeit, die ein Analyse-Programm leisten muss: Es muss herausfinden, welche Hits zu einer Seite gehören und welche selbst eine Seite darstellen, um die Größe "Pageview" korrekt zu errechnen. Die nächste größere Einheit, ein Besuch (Visit), beinhaltet den Abruf verschiedener zusammen gehörender Seiten in Kombination mit der abrufenden IP-Adresse, was zu noch größeren Verschiebungen führen kann. Inbesondere bei den neuen Programmiertechniken im Internet, bei denen Grafiken, Videos und wiederum ganze Webseiten und Skripte eng ineinander verwoben oder ständig nachgeladen werden, werden die korrekten Auswertungen der Webserver-Logfiles daher immer schwerer.

Halten wir fest: Ein Analyseprogramm, welches aus konventionellen Logfiles Webserver-Statistiken erstellt, stützt sich hauptsächlich auf folgende drei Größen: IP-Adresse des abrufenden Rechners, der weiterleitende Server bzw. die zuvor aufgerufene Webseite (Referer) sowie der Browser der die Seite angefordert hat.

Daraus ergeben sich in der Praxis einige Probleme:

  • Die IP-Adresse des abrufenden Rechners wird vom Einwahl-Provider, z.B. Arcor oder T-Online, aus einem IP-Pool vergeben und wechselt von Einwahl zu Einwahl, bei DSL-Modems meistens täglich, und surfen mehrere Rechner gleichzeitig über ein DSL-Modem, so gehen alle mit derselben IP ins Netz, je nachdem wie das Modem arbeitet.
    Das kann zu versch. Problemen führen:
    Surfen z.B. in einer Firma an einem Tag mehrere Personen auf die selbe Webseite, so wird nur ein Besucher gezählt, da die IP-Adresse nicht variiert. Surft anders herum ein User mehrere Tage lang auf die selbe Webseite, so werden aufgrund der pro Einwahl wechselnden IPs mehrere Besucher für die Webseite gezählt, obwohl es immer der selbe war. Noch schlimmer: Die IPs werden von den Providern unterschiedlichen Usern zugeordnet und evtl. werden verschiedene Benutzer als nur ein Besucher gewertet.
    Die IPs sind für Regionalauswertungen zwar nutzbar, da IP-Bereiche Regionen zugeordnet sind, diese sind aber relativ verwaschen und Einwahlen können heutzutage über verschiedenste Wege stattfinden und somit die regionale Abgrenzung stark erschweren.
  • Der anfordernde Agent muss nicht zwingend den Weiterleiter bekannt geben, wie im obigen Beispiel mit "-" zu sehen ist. Antispyware-Tools und Anonymisierer können diese Informationen ebenfalls blocken oder sogar fälschen.
  • Der anfordernde Agent muss sich selbst auch nicht unbedingt bekannt geben oder kann sich als ein anderer ausgeben.

Insgesamt zeichnet sich die Qualität von Logfile-Analyse-Programmen dadurch aus, dass sie aus den beschränkten Webserver-Informationen trotz allem aussagekräftige Statistiken liefern. Dies wird aus den oben genannten Gründen immer schwerer und zusehends nur noch zu Richtgrößen, da selbst der Seitenabruf nicht mehr als zuverlässige Größe genutzt werden kann. Inbesondere die Statistiken der Provider liefern bei mittelgroßen und großen Sites keine nutzbaren Informationen mehr.


Logging auf dem entfernten Server

Demgegenüber stehen Echtzeit Analyzer, die gezielt auf der Webseite eingebaut werden, wie Google Analytics oder eTracker. Diese Analyse Tools arbeiten wesentlicher effizienter. Dadurch, dass die Tracking-Codes direkt in den zu analysierenden Seiten, an selbst festzulegenden Stellen eingebaut werden, wird auch nur das ausgewertet was wichtig ist. Es stehen schon in den Basisversionen deutlich mehr Funktionen zur Verfügung: Suchbegriffe, Klickpfade, Branchen-Benchmarks, Neu Trendanalysen, Regional- und Länderauswertungen, Wiederkehr, Verweildauer, Flash-Tracking und Live-Besucherverfolgung sind möglich. Verschiedenen Schätzungen zufolge hat Google mit seinem Analytics inzwischen über 60% Marktanteil, und das nicht von ungefähr. Die Liste der Funktionen liest sich wie folgt:

  • Schnelle Implementierung
  • Vergleich von Keyword und Kampagne
  • Benutzerdefiniertes Dashboard
  • AdWords-Integration
  • Interne Website-Suche
  • Benchmarking
  • Trend- und Datumsregler
  • E-Commerce-Tracking
  • Trichter-Visualisierung
  • Website-Overlay
  • E-Mail-Berichte
  • Ausrichtung auf Zielregionen

Dies schafft Google mit den folgenden Methoden:
Google speichert die Nutzerdaten auf seinen Servern. Beim Besuch einer Website, die zum Beispiel Google Analytics verwendet, wird dem User eine ID-Nummer zugewiesen und über diese ID ist Google theoretisch in der Lage, ein umfassendes Bewegungs- und Nutzungsprofil zu erstellen. Unter Umständen kann dieses Profil sogar personalisiert werden.

Datenschutzrechtlich bedenklich
Google setzt Cookies und unterschiedliche, weitere Methoden ein um Benutzer eindeutig zu identifizieren. Dabei wird auch vor Zusatzinformationen wie Bildschirmgrößen und eingesetzter Software kein Halt gemacht.

Greift ein Nutzer nun z.B. auf anmeldepflichtige Google-Dienste (Google Apps, Google AdWords, Google Maps usw.) zu oder gibt anderweitig seine persönlichen Daten an, ist es soweit: Die Zusammenführung von Namen und IP-Nummer könnte statt finden.

Wichtig:
Webmaster müssen auf ihrer Website darauf hinweisen, dass Web-Tracking-Software Nutzerdaten sammelt, die zur Profilerstellung verwendet werden könnte. Das schreibt Google in § 8.1 der Nutzungsbedingungen sogar vor. 99% aller Websites, die den Dienst verwenden, ignorieren dies, obwohl Google sogar auf die Übernahme eines vorgefertigten Wortlautes besteht:

“Diese Website benutzt Google Analytics, einen Webanalysedienst der Google Inc. (Google) Google Analytics verwendet sog. Cookies, Textdateien, die auf Ihrem Computer gespeichert werden und die eine Analyse der Benutzung der Website durch Sie ermöglicht. Die durch den Cookie erzeugten Informationen über Ihre Benutzung dieser Website (einschließlich Ihrer IP-Adresse) wird an einen Server von Google in den USA übertragen und dort gespeichert. Google wird diese Informationen benutzen, um Ihre Nutzung der Website auszuwerten, um Reports über die Websiteaktivitäten für die Websitebetreiber zusammenzustellen und um weitere mit der Websitenutzung und der Internetnutzung verbundene Dienstleistungen zu erbringen. Auch wird Google diese Informationen gegebenenfalls an Dritte übertragen, sofern dies gesetzlich vorgeschrieben oder soweit Dritte diese Daten im Auftrag von Google verarbeiten. Google wird in keinem Fall Ihre IP-Adresse mit anderen Daten der Google Inc. in Verbindung bringen. Sie können die Installation der Cookies durch eine entsprechende Einstellung Ihrer Browser Software verhindern; wir weisen Sie jedoch darauf hin, dass Sie in diesem Fall gegebenenfalls nicht sämtliche Funktionen dieser Website voll umfänglich nutzen können. Durch die Nutzung dieser Website erklären Sie sich mit der Bearbeitung der über Sie erhobenen Daten durch Google in der zuvor beschriebenen Art und Weise und zu dem zuvor benannten Zweck einverstanden.”

Fazit: Der Einsatz von Echtzeit-Tracker bietet viele Vorteile gegenüber den herkömmlichen Statistiken. Der Einsatz ist jedoch datenschutzrechtlich bedenklich und die Nutzung muss auf der Webseite bekannt gegeben werden.

ACA GmbH
Stefan Neumann