(Version vom 20.01.2002)
Die phpMySearch Suchmaschine ist eine vollständige Internet-Suchsystem für eine einzelne Domain sowie das Intranet. Die Suchmaschine ersetzt aufkeinen Fall eine leistungsstarke Suchmaschine wie Lycos, Infoseek, Webcrawler oder AltaVista. Sie soll lediglich dazu dienen einzelne Webseiten, Unterabteilungen oder spezielle Abteilungen zu durchsuchen.
· $DBName MySQL Datenbank, welche phpMySearch verwenden darf
· $DBUser MySQL username
· $DBPassword MySQL password
· $DBHost MySQL server
iACHTUNG: Alle Tabellen werden automatisch angelegt.
Grundsätzliches zur Arbeitsweise von phpMySearch
Der phpMySearch-Spider ist ein Programm,
welches Homepages „besucht“ die in das Admintool eingetragen wurden.
Der Spider untersucht nun die gefundene Webseite und überprüft, ob diese in die
Datenbank aufgenommen werden soll oder nicht.
Der Spider schaut ebenfalls nach Links (Verweisen) auf andere Webseiten und besucht diese ggf. ebenfalls. Dieses Verhalten hängt aber sehr von den Einstellungen des Admintools ab.
Es werden alle relevanten Daten in eine Datenbank eingetragen (Titel, Stichwörter, Text, ...).
Nur mit einer Datenbank ist gewährleistet, das phpMySearch schnelle Ergebnisse liefert.
Würde man Webseiten in eine Art Textdateien abspeichern, würde es bei größeren Datenmengen einfach zulange dauern bis man Ergebnisse erhält.
Administrations Oberfläche
Führe die Datei admin.php aus.
Standard
Login und Passwort ist:
login:
admin
password: admin
iUNBEDINGT
ÄNDERN!
Table 1-1: Felder und Optionen auf der Administrator Seite
Feld oder Option |
Beschreibung |
DB Main table name |
In dieser Tabelle werden alle Informationen von den gespeicherten
Webseiten gesammelt. Der Standardname ist phpMySearch_Pages |
DB Settings table name |
In dieser Tabelle werden alle Einstellungen der Suchmaschine gespeichert. Der Standardname ist phpMySearch_settings |
DB Spider state table
name |
In dieser Tabelle werden alle Einstellungen gespeichert die den
Spider betreffen. Der Standardname ist phpMySearch_spider |
Search start URL's: |
Die Liste der Webseiten die durchsucht werden sollen. Um Webseiten hinzuzufügen, schreibe die Webseite in das Feld und
drücke anschließend den ADD Button. Um eine Webseiten zu entfernen
markiere die Webseiten und drücke den REMOVE Button. |
Not indexed URL's (Black
list) |
Trage hier alle Webseiten ein die nicht gespeichert werden sollen. Um
Webseiten hinzuzufügen, schreibe die Webseite in das Feld und drücke
anschließend den ADD Button. Um eine Webseiten zu entfernen markiere
die Webseiten und drücke den REMOVE Button. |
Document extensions to index |
Eine Liste der Dokumente die gespeichert werden sollen Um neue Dokumententypen hinzuzufügen, schreibe den Typ in das Feld
und drücke anschließend den ADD Button. Um Dokumententypen zu
entfernen markiere die Webseiten und drücke den REMOVE Button. |
Search depth |
Die Suchtiefe teilt dem Spider mit, wie weit er Verzweigungen zu
anderen Webseiten verfolgen soll. 0 – keine Verzweigungen verfolgen 1 – folge den Verzweigungen nur von der Startseite 2 – folge den Verzweigungen von der Startseite +1 3 – folge den Verzweigungen von der Startseite +2 ... |
Reparse all |
Wenn dies angewählt ist, wird die Datenbank komplett geleert und beim
nächsten “Spidern” gefüllt. Wenn nicht, wird die Datenbank einfach nur
weiter aufgefüllt, ohne vorher zuleeren. |
Automatic spider start |
Dieses Kästchen ist angewählt, wenn man keinen Zugriff auf Cron unter
*nix Systemen hat oder auf den Task scheduler unter Windowssystemen. Falls aktiviert und ein Besucher benutzt die Suchmaschine, wird der
Crawler ggf. automatisch gestartet. |
Start time |
Zeit um den Spider zustarten |
Start spider each (days) |
Anzahl in Tagen um den Spider zustarten. |
Force crawling |
Mit dem Start Spider Button startet der Spider sofort. |
Number of links per page |
So viele Verzweigungen werden pro Ausgabeseite angezeigt. |
Max pages block |
So viele Seiten werden maximal in einem Block dargestellt. |
Search Engine log file
name |
Zielpfad für die Suchmaschinen-Log-Datei. |
Spider Engine log file name |
Zielpfad für die Spider-Log-Datei. |
Admin Tool log file name |
Zielpfad für die Admin-Log-Datei. |
Templates path |
Zielpfad für die Templates. |
Admin Login |
Name des Administrators. |
Admin Password |
Administratorpasswort. |
Confirm Password |
Sicherheitswiederholung des Administratorpasswort. |
Submit |
Mit diesem Buttons werden alle Änderungen gespeichert. |
Ruf
die Datei search.php auf.
Bei dem Suchen brauch man lediglich ein gewünschtes
Wort eingeben und search drücken.
Außerdem kann man für gezieltes Suchen die Boolsche
Algebra benutzen:
Table 2-1: Boolsche Logik.
Operator |
Beschreibung |
AND |
Findet mit Erdnuss
AND Butter alle Dokumente, die die Wörter Erdnuss und Butter enthalten. |
OR |
Findet mit Erdnuss OR Butter alle Dokumente, die die Wörter Erdnuss oder Butter enthalten. Die gefundenen Dokumente müssen aber nicht zwangsläufig beide Wörter enthalten. |
AND NOT |
Findet mit Erdnuss
AND NOT Butter alle Dokumente die die Wörter Erdnuss und nicht Butter
enthalten. NOT muss mit einem anderen Operator wie AND verwendet werden. Die
Suchmaschine akzeptiert nicht 'Erdnuss NOT Butter', sondern Erdnuss
AND NOT Butter. |
OR NOT |
Findet mit Erdnuss
OR NOT Butter alle Dokumente die die Wörter Erdnuss oder nicht Butter
enthalten. |
“” |
Die Anführungszeichen können benutzt werden um exakte Wörter
oder Sätze zufinden. Zum Beispiel werden bei "New York
Times" nur Dokumente angezeigt, die wirklich nur das
zusammenhängende Wort New York Times enthalten. |
{ } |
Braces are used to
denote folders. For example, a search on "CPAN/objects"
will match only documents stored in www.servername.com/currentlocation/CPAN/objects |
Weiter ist es möglich spezielle Ordner zu durchsuchen. Dabei brauch man nur das herunterklappbare Menü aufschlagen und den jeweiligen Ordern aussuchen. Mit der Option .. gelangt man wieder einen Ordner nach oben.
Das
Layout kann individuell verändert werden.
Hierzu
benötigt man nur einen html-Editor und etwas Geschick. :-)
Die
Templates für die Suchmaske und für das Admintool findet man in dem Ordner, den
man in dem Admintool unter „TemplatesPath“ angegeben hat, oder standard-mäßig
unter: ./templates/..
Im
allgemeinen
Hierzu
brauch man nur in dem Ordner /templates die einzelnen Dateien mit einem
html-Editor bearbeiten.
Die
Templates die für die Suchmaske bzw. für die Ausgabe verantwortlich sind, sind
unter anderem:
main.tpl,
body.tpl, body_docfrom.tpl, body_ok.tpl, refs.tpl…
Die
Templates die mit “adm” anfangen werden von dem Admintool benötigt.
Hier
kommt eine kleine Liste von Variablen die durch phpMySearch ersetzt werden,
wenn die Templates bearbeitet werden. Viele der Variablen sind aber auch
selbsterklärend und bedürfen keiner weiteren Erklärung. Es ist zubeachten das
die Variablen immer in {} stehen müssen und die Groß/Kleinschreibung beachtet
werden muß.
{QUERY} gesuchtes Wort
{PAGES} Anzahl der
gefundenen Seiten
{ERROR} die
Fehlerausgabe ;-)
{OUT_CURR_PATH} momentaner Suchpfad
{URL} gefundene
url
{pageDate} Datum der
Webseite
{expiresDate} Datum an der die
Webseite verfällt
{title} Titel
der Webseite
{description} Beschreibung der
Webseite (ggf. META-Tag)
{keywords} META-TAG der
Webseite: Stichwörter
{author} META-TAG der
Webseite: Autor
{replyTo} META-TAG der
Webseite: Emailadresse
{publisher} META-TAG der
Webseite: Veröffentlicher
{copyright} META-TAG der
Webseite: Copyright
{contentLanguage} META-TAG der Webseite:
Sprache
{pageTopic} META-TAG der
Webseite: PageTopic
{pageType} META-TAG der
Webseite: PageType
{abstract} META-TAG der
Webseite: abstract
{classification} META-TAG der Webseite:
classification
{body_1} META-TAG der
Webseite: gefundener Text der Webseite
(die
ersten 255 Zeichen)
{body_2} META-TAG der
Webseite: gefundener Text der Webseite
(die
restlichen Zeichen)
In
eigener Sache:
Für
jedes Layout, was von Ihnen erstellt wurde und Sie uns zusenden, freuen wir
uns.
Und werden es ggf. in einer der nächsten Versionen von phpMySearch
veröffentlichen.
Bitte
nehmen Sie zur Kenntnis, das wenn Sie mit phpMySearch fremde Webseiten
durchsuchen lassen und in Ihre Datenbank aufnehmen, dass Sie die Erlaubnis von
dem jeweiligen Homepagebetreiber benötigen, dieses zutun.
Wenn
der phpMySearch-Spider fremde Webseiten besucht, die nicht auf demselben
Webserver liegen, entsteht Datentransfer zwischen Ihrem Webserver und dem
fremden Webserver.
Dadurch könnten Ihnen und dem fremden Homepagebesitzer Kosten entstehen, die nicht unerheblich werden können.
Sie
können sich unter http://phpMySearch.web4.hm
über
Update-Möglichkeiten z.B. via Newsletter informieren lassen.
Dort finden Sie u.a. auch immer eine aktuelle phpMySearch-Version zum Downloaden.
Copyright (c) 2001,2002 phpMySearch-TEAM
Alle Reche vorbehalten.
Internet: http://phpmysearch.web4.hm, Email: phpMySearch@web4.hm
Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:
"Original product freely available from http://phpMySearch.web4.hm" or
"Original-Produkt
frei erhaeltlich bei http://phpMySearch.web4.hm".
7. Changes, innovations, misprints and mistakes are reserved.
8. This product is not free for reselling - reselling free code parts from http://phpMySearch.web4.hm a special product-registration.
9. The name must not be used to endorse or promote products derived from this software without prior written permission from the phpMySearch.web4.hm-TEAM. This does not apply to add-on libraries or tools that work in conjunction with the software. In such a case the name may be used to indicate that the product supports it.
10. phpMySearch.web4.hm is allowed to forbid the usage of this program or code-parts.
11. THE COVERED CODE IS PROVIDED "AS IS" AND WITHOUT WARRANTY, UPGRADES OR SUPPORT OF ANY KIND. NO ORAL OR WRITTEN INFORMATION OR ADVICE GIVEN BY PHPMYSEARCH, A PHPMYSEARCH AUTHORIZED REPRESENTATIVE OR ANY CONTRIBUTOR SHALL CREATE A WARRANTY. THIS PROGRAM IS DISTRIBUTED IN THE HOPE THAT IT WILL BE USEFULE, BUT WITHOUT ANY WARRANTY; WITHOUT EVEN THE IMPLIED WARRANTY OF MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.