Alle Zugriffe werden von den Servern automatisch protokolliert. Jede HTML Seite,
jede Grafik, also jede Datei die vom Server abgefragt wird, scheint
somit in der Statistik auf.
Der WWW Server schreibt für jede Abfrage eine Zeile in ein
sogenanntes LOGFILE. Es sind eine Menge Informationen, die dabei festgehalten werden:
- Rechner: woher die Abfrage kommt. Zum Beispiel "pop53.resi.at"
ist ein Zugriff über eine Einwahlleitung des ReSI Terminalservers.
- Datum, Uhrzeit: der genau Zeitpunkt des Zugriffes.
- URL: Adresse, die abgefragt wurde, z.B: "/resi-nr/index.htm".
Die URL "/" bedeutet die Startseite, da hat also jemand nur "http://www2.resi.at"
eingegeben, ohne genaue Dateibezeichnung wie "index.htm".
- Status: Gibt an, ob die Datei gefunden und vom Besucher tatsächlich
heruntergeladen wurde. Der Status Code "OK" (200) meldet einen
erfolgreichen Download, "not modified" sagt dem Empfänger, die
Datei aus seinem/ihrem CACHE (Zwischenspeicher) zu holen.
Siehe auch: "Anfragen" gegenüber "Dateien"
- Bytes: die Größe der Datei in Bytes.
- Verweise: der Browser sagt dem Server immer, welche URL vorher
benutzt wurde. Diese Information ist ganz nützlich um herauszufinden,
wie bzw. auf welchem Weg die BesucherIn kam.
- Programm: welchen Internet Software (Browser) für
die Abfrage verwendet wurde.
Dieses ausführliche Protokoll der Zugriffe macht die Auswertung
sehr aufwendig. So war z.B. das Logfile des ReSI 1998 rund ein halbes Gigabyte groß.
Derartig große Logfiles stellen also höchste Ansprüche an
die Leistungsfähigkeit von Hard- und Software.
"Anfragen" gegenüber "Dateien"
Anfragen sind alle Zugriffe im gemessenen Zeitraum. Dateien sind jene Dokumente,
die tatsächlich heruntergeladen wurden. Proxy Server und Browser speichern
bereits geladene Dokumente im CACHE (siehe oben). Beim nächsten
Zugriff auf die selbe Datei fragen sie lediglich nach, ob die Datei geändert
wurde. Unter "Dateien" scheinen daher jene Dokumente, die sich bereits
in einem CACHE befinden, nicht auf.
Bei den "Anfragen nach Status Code" gibt es eine Zeile "Code 200 - OK".
Das ist die gleiche Zahl, die unter "Dateien" angeführt wird, also
jene der erfolgreich abgerufenen Dateien.
TOP 50 bzw. TOP 100
Die Statistik der am häufigsten abgefragen URLs ist wohl die wichtigste.
Bei der DATAnews Auswertung erfährt diese daher eine Sonderbehandlung:
Alle Grafiken werden hier ausgefiltert! Die TOP 50 Reihung zeigt also
die tatsächlich abgefragten HTML Seiten, ohne Grafiken, etc..
Bei den Auswertungen des ReSI werden noch ein paar zusätzliche Seiten
ausgefiltert, die die Statistik verfälschen könnten. Dazu zählt
z.B. die Chat Seite, die vom Benutzer automatisch alle 10 Sekunden neu geladen wird.
Darüber hinaus bietet die DATAnews Statistik des ReSI noch ein weiteres
Feature: Bestimmte URLs, wie z.B. einzelne Firmen, Gemeinden, Vereine, etc.,
werden zusammengefaßt (bein den TOP 100 sind diese farbig hinterlegt).
Fragen und Antworten
- Was sind "Anfragen" bzw. "Abfragen" in der WWW Statistik?
- Jeder Zugriff, egal ob auf eine HTML-Seite, eine (darin enthaltene) Grafik,
oder eine Java Applikation, wird protokolliert. Diese Anfragen (engl: Hits)
sind damit gemeint.
Wenn auf einer WWW Seite recht viele verschiedene Grafiken enthalten
sind, werden auch entsprechend viele Hits bzw. Anfragen verzeichnet.
Daher ist diese Zahl nur bedingt aussagekräftig.
Achtung: in der TOP Statistik sind die Grafiken, etc., bereits ausgefiltert,
hier sind nur HTML-Seiten als Anfragen angegeben!
- Was sind "Dateien" in der Statistik?
- Jene HTML Seiten, Grafiken, Java Applets, etc., die erfolgreich heruntergeladen
wurden, werden als Dateien gezählt. Sehr oft fragen die Browser nur nach
ob eine Datei neu ist. Diese Datei wird dann nicht mehr heruntergeladen,
wenn sie sich bereits im CACHE (Zwischenspeicher des Browsers oder Proxy Servers)
befindet. Daher gibt es wesentlich mehr Anfragen als Dateien in der Auswertung.
- Was bedeutet "Seiten" in der Statistik?
- Das sind WWW Seiten, die jeweils angesehen wurden.
Die Zahl der gesehenen Seiten ist wesentlich aussagekräftiger
als jene der Anfragen, wo auch in den Seiten enthaltene Grafiken
gezählt werden.
- Was bedeutet "Besuch" in der Statistik?
- Wenn der gleiche Rechner (siehe unten) länger wiederholt
Daten abfragt, so zählt das als ein Besuch.
Leider werden in der Regel bei der Einwahl TCP/IP Adressen
dynamisch zugeteilt. Dadurch kann es passieren, daß
innerhalb mehrere Besucher die gleiche Adresse haben, und
daher als ein Besuch gezählt werden.
- Was bedeutet "Rechner" in der Statistik?
- Das sind die Computer, also die PCs, (Proxy-)Server, etc.,
von denen die Abfrage kommt. Leider läßt diese Zahl nicht
auf die tatsächlichen Besucher schließen. Fast alle Provider
(auch das ReSI) teilen die Computeradressen (TCP/IP Adressen) dynamisch
zu. Daher verwenden in der Regel viele Benutzer die selbe Adresse.
Am ReSI bedeutet z.B. "pop23.resi.at" eine der Einwahlleitungen,
die von vielen Benutzen verwendet wird.
- Was bedeutet "Verweise" in der Statistik?
- Das sind jene (HTML-)Seiten, die vorher aufgerufen wurde.
- Was ist die URL "/" bei den TOP xx?
- Unter "/" wird vermerkt, wenn jemand ohne besonderes Ziel (z.B. "irgendwas.htm")
zugreift, also nur "http://www2.resi.at" eingibt.
- Was sind die "Anwenderprogramme" in der Statistik?
- Das sind die benutzen Internetprogramme ("WWW Browser") der Besucher.
- Wieso gibt es bei den "Anfragen an Ländern" eine Sparte "Unbekannt"?
- Das sind Rechner (siehe oben), deren Herkunft bzw. Heimat
bei der Auswertung nicht festgestellt werden konnte.
|