Grundlagen der Informations- und Kommunikationstechnologie
(14. Vorlesung, letzte Änderung: 1.02.2006)
Informationsquelle Internet
"Das Internet ist ein Schrotthaufen, in dem
Gold und Perlen versteckt sind."
Joseph
Weizenbaum
Aus dem Verständnis des Aufbaus und der Struktur ergibt
sich die Herangehensweise beim Suchen!
0. Internet - was ist das?
- Netz, das weltweit Millionen Rechner miteinander verbindet
(drahtgestützt, bzw. über Lichtleiter oder Funk werden Rechner in Local Area Networks (LANs) verbunden, die dann zu Wide Area Networks (WANs) zusammengefasst werden)
(Statistiken zur Größe des Netzes: http://focus.de/D/DD/DD36/dd36.htm
| http://www.nic.de/
| http://www.cindoc.csic.es/cybermetrics/)
- Grundlagen wurden Ende der 60er Jahre im US Verteidigungsministerium
gelegt
in den 80er Jahren in den zivilen Bereich übernommen; von den
Universitäten und Wissenschaftseinrichtungen weiterentwickelt; Durchbruch
und allgemeine Akzeptanz in den 90er Jahren durch die Entwicklung des WWW
erreicht
- Kommunikation erfolgt auf der Grundlage standardisierter
Protokolle
TCP -Transmission Control Protocol
IP - Internet Protocol
- Paket-vermitteltes Netzwerk
Daten werden in IP-Paketen übertragen
- Verschiedene Dienste umfaßt das Internet:
Sie arbeiten alle Client-Server-basiert. Server-Programme bieten Leistungen an, die von Client-Programmen abgerufen werden können.
- WWW - World Wide Web
- Januar 2006: ca.
75.000.000 WWW-Server mit ca. 16.000.000.000 HTML-Seiten
(von mir geschätzt)
(Statistik siehe: http://www.netcraft.com/survey/)
- Als Server wird in 70% aller Fälle das Programm Apache verwendet. Bekannte Client-Programme sind Internet Explorer von MS, Mozilla Firefox, Opera etc.
- E-Mail - Electronic Mail / Mailinglisten
- FTP - File Transfer Protokoll
- NewsGroups / FAQ
- Telnet / heute besser SSH (Secure Shell) aus Sicherheitsgründen wird auch für den Filetransfer benutzt
1. Internet-Adressierung
- Jeder Rechner im Internet (genauer jede Netzkarte etc.)
hat eine 32 Bit-Adresse
4 Oktets z.B. 10001101 00010100 01111110 00001000 -- 141.20.126.8;
232 = 4.294.967.296 Adressen sind theoretisch möglich
Die gesamten Adressen werden in Class A, B, C, D, E Netzwerke zur Verfügung gestellt.
Die HU hat ein Class B Netzwerk 141.20.?.?; die ersten beiden Oktetts sind festgelegt.
Das IB hat das Subnetz 141.20.126.?.
Hier werden die Adressbereiche von links nach rechts spezieller.
Über diese Netzwerkklassen erfolgt das Routing (das Herausfinden der "Richtung", in welche die Pakete weitergeleitet werden müssen)
- DNS Domain Name Service
die 32Bit-Adressierung ist für den Menschen sehr unübersichtlich,
daher wurde auch eine Domain-Namen-Adressierung eingeführt.
http://www.ib.hu-berlin.de/ (von
rechts nach links spezieller werdend) - wird über DNS-Server in 141.20.126.8
umgesetzt;
de - Top Level Domain (TLD) für Deutschland;
hu-berlin.de - Domain der HUB;
ib.hu-berlin.de - Domain des IB der HUB;
www.ib.hu-berlin.de - WWW-Server des IB der HUB;
Die Domain-Namen-Adresse einer Institution ist häufig einfach zu erraten, die IP-Adresse natürlich nicht!
- URL - Uniform Resource Locator
Hierdurch wird ein Objekt im Internet adressiert. Wir betrachten ein Beispiel:
http://www.ib.hu-berlin.de:80/inf/i_suche.htm
Die Bestandteile dieser Adresse sind:
[protokoll]://[rechneradresse]:[port][verzeichnis][dateiname]
Wenn Angaben fehlen, werden Standards verwendet bzw. ergänzt:
Port = 80 - Standardport für das http-Protokoll
Dateiname = index.html (kann durch Serverkonfiguration anders festgelegt
werden)
Dadurch ergibt sich, dass
http://www.ib.hu-berlin.de und
http://www.ib.hu-berlin.de:80/index.html
zum selben Ergebnis führen.
~mh - adressiert im Homeverzeichnis des Nutzers mh ein spezielles Unterverzeichnis,
das für das WWW freigegeben ist (häufig das Unterverzeichnis public_html)
Bsp. http://www.ib.hu-berlin.de/~mh/kurse/suche/index.html
- Absolute und relative Adressierung
von der Seite http://www.ib.hu-berlin.de/inf/mitarb.htm aus referenziert
HREF="http://www.ib.hu-berlin.de" ( - absolute Adressierung unserer
Homepage)
HREF="../" ( - relative Adressierung unserer Homepage)
die gleiche Seite.
Relative Adresen sollte man immer dann verwenden, wenn das Gesamtangebot von HTML-Seiten häufig seinen Platz im Internet ändert, bzw. das Angebot auch einer CD-ROM nutzbar gemacht werden soll.
2. Problematik der Suche im Internet
- Wenig hierarchische Organisation
keine umfangreiche zentrale Koordinierung; nur NIC Network Information
Center in den USA und DENIC in Deutschland
koordinieren Adressräume
- Struktur der Informationsangebote oft unterentwickelt
evtl. Abhilfe durch Meta-Tags - ähnlich der Formalkatalogisierung
(Beispiel
einer HTML-Seite)
(Tabelle der
Dublin Core Elemente für Meta-Tags) - Dynamik des Netzes
Was heute vorhanden ist, kann morgen schon verändert oder gelöscht
sein!
Interessant in diesem Zusammenhang ist dieCache-Funktion bei Google (http://www.google.com)
- scheinbare Zufälligkeit
Nur durch die Initiative einer Person oder einer Institution kommen Informationen
in das Netz.
Keine Pflichtexemplarregelung - nicht alles was man weiß, muß
man auch ins Netz stellen!
- Wo befinden sich die Informationen - Visible and unvisible
Internet
a) in HTML-Seiten, Word-Dateien, PDF-Dateien, die über das WWW zugänglich
sind
b) in Datenbanken (hinter HTML-Seiten, über Formulare und CGI-Skripte
zugänglich, z.B. bei normalen OPACs im Internet) (kleines CGI-Beispiel)
c) in Bereichen, die eine Zugangsberechtigung verlangen
3. Suchhilfen im Internet
- Suchhilfen auf einzelnen Servern, Datenbankanbindungen
WWW-OPACS, Harvestsysteme, Site-Suchmaschinen etc. - Suchmaschinen
roboterbasiert, automatisch aufgebaut; günstig wenn man konkret weiß
was man sucht, bestimmte Firmen, Namen, Projekte, Programme etc.
Bsp.:
Google (http://www.google.com)
AlltheWeb (http://www.alltheweb.com)
MSN-Search (http://search.msn.com)
Lycos (http://www.lycos.com)
Alta Vista (http://www.altavista.com)
- Thematische Verzeichnisse / Kataloge
intellektuell bearbeitete Verzeichnisse von Web-Sites; günstig für
allgemeine Überblicke, für Fragen; die sich gut an die groben
verwendeten hierarchischen Klassifikationen anpassen lassen
Bsp.:
Yahoo! (http://www.yahoo.com) (http://www.yahoo.de)
Open Directory (http://dmoz.org/)
LookSmart (http://www.looksmart.com/)
DINO (http://www.dino-online.de)
WEB.DE (http://web.de)
- Hybride Suchhilfen (eigentlich die Norm heute)
versuchen die Vorzüge beider Gruppen zu vereinen - Metasuchmaschinen
ermöglichen das gleichzeitige Absuchen von mehreren Suchmaschinen;
damit ist eine gute Vollständigkeit zu erzielen
Bsp.: MetaGer,
MetaCrawler
- Abdeckungsgrad, Überlappungsgrad, Aktualität
von Suchmaschinen
4. Suchmethoden und -möglichkeiten bei Suchmaschinen:
- Suchmodi
Simple Search / Anfänger-Suche; Advanced (extended) Search /
Experten-Suche
- Groß-/Kleinschreibung
- Truncation / Wildcards
- + - Operatoren
- Boole'sche Operatoren
AND, OR, NOT (besser AND NOT)
- Kontextoperatoren
NEAR, WITH, ADJ; BEFORE, FAR, OFAR, ONEAR, OADJ, (O von ordered)
gab es alles schon einmal bei Internetsuchmaschinen
- Phrasensuche
("Fackel der Wahrheit")
- Feldsuche / Bereichssuche
title:bibliothekswissenschaft; author:umstätter;
url:ib.hu-berlin.de; link:russgus etc.
- Suchraumeinengung / Limitation
zeitlich, geografisch, sprachlich, strukturell, ...
- Ranking
beeinflußbar vom Suchenden z.B. bei Alta Vista, Fireball, Lycos (früher, heute nicht mehr)
- Anzeigevarianten
Trefferanzahl, Kurz- oder Langform etc.
- Trefferweiterbearbeitung
Benutzung alter Rechercheergebnisse, z.B. früher bei refine bei Alta Vista)
- Beispielsuche
"More Like This" "Ähnliche Seiten" bei Google) - Visualisierung der Suchergebnisse, des Suchraumes
z.B.ehemalige grafische refine-Funktion bei Alta Vista, zukünftig
wird es mehr davon geben)
Bsp.:
Visimo (http://vivisimo.com/)
Kartoo ( http://www.kartoo.com/)
Grafische Google-Ähnlichkeitsrelation (http://www.touchgraph.com/TGGoogleBrowser.html)
Visualisierung des sysstematschen Katalogs (http://aqua.elibraryhub.com/default.asp)
Visualisierung des Open Directory (http://www.webbrain.com/html/default_win.html)
5. Relevanzberechnungen (Ranking) berücksichtigen:
- die Anzahl der gefundenen Suchwörter in den Dokumenten
- die Position der Wörter in den Dokumenten
(z.B. in welchen Tags, verbunden mit unterschiedlichen Gewichten)
- den Abstand der Suchwörter voneinander im Dokument
- die Häufigkeit der Suchwörter im Dokument
- die Gesamthäufigkeit der Suchwörter in der
Datenbank
- die Länge der Dokumente
- Häufigkeit des Abrufens von einzelnen Seiten
- Position der Datei im Verzeichnisbaum des Servers
- Anzahl der Links, die auf eine Seite gesetzt wurden (z.B.
bei Google)
Die Suchmaschienen geben die genauen Algorithmen des Rankings nicht bekannt!
6. Vorbereitung der Suche
- Ist Internetsuche überhaupt für Problem geeignet?
- WIE und WO könnte die Information im Internet untergebracht
sein?
- Orientiert das Recherche-Problem mehr auf Vollständigkeit
(recall) oder Genauigkeit (precision) (z.B. einzelner Fakt)
- läßt sich das Problem gut in bestehende oder
denkbare Ordnungssysteme (z.B. klassifikatorisch) einordnen
(ermöglicht Entscheidung, ob in verzeichnisbasierten oder roboterbasierten
Suchhilfen gesucht werden sollte)
- sind geografische, sprachliche oder zeitliche Limits
zu setzen
- Wortmaterial zum Problem ermitteln (z.B. auch mit Hilfe
von Thesauri und Wörterbüchern äquivalente und assoziierte
Begriffe bestimmen)
7. Beurteilungen von Suchergebnissen:
- Informationen aus dem URL- Uniform Resource Locator
- Informationen aus Verzeichnis- und Dateinamen
- Server, Autor, etc.