Suchmaschine

Übersicht

Sonstiges

Smalltalk

	blitzprogrammierer Betreff: Suchmaschine	Do, Nov 11, 2004 14:44 Antworten mit Zitat
Liebe Blitzbasic Programmierer Hat schon mal jemand von euch eine Internetsuchmaschine programmiert bei der wenn man in das Suchfeld z.B. computer eingibt sucht er Internetadressen z.B. vmcomputer.de oder mscomputerso.de. Oder kann man so etwas gar nicht programmieren mit BB Aber es könnte ja sein das es so was ja schon gibt zum Downloaden Oder auf Seiten wenn ja Danke ich für Links!!! Danke für Antworten!!!

blitzprogrammierer

Betreff: Suchmaschine

Do, Nov 11, 2004 14:44
Antworten mit Zitat

Liebe Blitzbasic Programmierer

Hat schon mal jemand von euch eine Internetsuchmaschine
programmiert bei der wenn man in das Suchfeld
z.B. computer eingibt sucht er Internetadressen z.B.
vmcomputer.de oder mscomputerso.de.
Oder kann man so etwas gar nicht programmieren mit BB
Aber es könnte ja sein das es so was ja schon gibt zum Downloaden
Oder auf Seiten wenn ja Danke ich für Links!!!

Danke für Antworten!!!

	Nox	Do, Nov 11, 2004 15:15 Antworten mit Zitat
Wovon du redest, ist ein sogenannter Spider. Jene Viecher durchsuchen Internetseiten, indizieren sie, suchen darin nach Links, machen dort weiter und das Spiel fängt von neuem an. Mit BlitzBasic ist sowas definitiv möglich, da es über TCP-Funktionen, welche zum Verbinden zu Webservern nötig sind, verfügt. Ich persönlich würde für ein solches Projekt nicht BlitzBasic nehmen, da sowas sehr speicherintensiv werden kann und in der Geschwindigkeit ja nicht hinterher hinken soll.

Nox

Do, Nov 11, 2004 15:15
Antworten mit Zitat

Wovon du redest, ist ein sogenannter Spider. Jene Viecher durchsuchen Internetseiten, indizieren sie, suchen darin nach Links, machen dort weiter und das Spiel fängt von neuem an.

Mit BlitzBasic ist sowas definitiv möglich, da es über TCP-Funktionen, welche zum Verbinden zu Webservern nötig sind, verfügt. Ich persönlich würde für ein solches Projekt nicht BlitzBasic nehmen, da sowas sehr speicherintensiv werden kann und in der Geschwindigkeit ja nicht hinterher hinken soll.

	blitzprogrammierer	Do, Nov 11, 2004 15:26 Antworten mit Zitat
Und wo finde ich so einen Spider ich mochte das mir mal genauer ansehen. Danke für schon mal für Links!!

blitzprogrammierer

Do, Nov 11, 2004 15:26
Antworten mit Zitat

Und wo finde ich so einen Spider
ich mochte das mir mal genauer ansehen.
Danke für schon mal für Links!!

	Rob_	Do, Nov 11, 2004 16:34 Antworten mit Zitat
[/quote] Hallo Leute ich bin blitzprogrammierer und hoffe das ich euch auch mal helfen kann! Ein Tipp für Anfänger!!! http://www.robsite.de/tutorials.php?tut=blitzbasic [quote] Wenn du uns schon auf die robsite aufmerksam machen kannst, kannst du auch google.de benutzen, um nach "spider" zusuchen:
AMD Athlon 64 3500+ \| Infineon 1 GB DDR RAM \| nVidia Geforce 7800 GTX

Rob_

Do, Nov 11, 2004 16:34
Antworten mit Zitat

[/quote]
Hallo Leute ich bin blitzprogrammierer
und hoffe das ich euch auch mal helfen kann!

Ein Tipp für Anfänger!!!
http://www.robsite.de/tutorials.php?tut=blitzbasic
[quote]

Wenn du uns schon auf die robsite aufmerksam machen kannst,
kannst du auch google.de benutzen, um nach "spider" zusuchen:

AMD Athlon 64 3500+ | Infineon 1 GB DDR RAM | nVidia Geforce 7800 GTX

	Nox	Fr, Nov 12, 2004 15:56 Antworten mit Zitat
Och, seine Frage, wie sowas generell funktioniert, halte ich für garnicht so falsch platziert hier. Aber dennoch: Googlen ist jetzt eigentlich überflüssig, da du das Prinzip nun verstanden haben müsstest. =) Als Lesestoff lege ich dir die RFC2616 (hier darfst du googlen) Nahe - das ist die Spezifikation für den HTTP-Datenverkehr in Version 1.1 (sehr gängig).

Nox

Fr, Nov 12, 2004 15:56
Antworten mit Zitat

Och, seine Frage, wie sowas generell funktioniert, halte ich für garnicht so falsch platziert hier.

Aber dennoch: Googlen ist jetzt eigentlich überflüssig, da du das Prinzip nun verstanden haben müsstest. =)
Als Lesestoff lege ich dir die RFC2616 (hier darfst du googlen) Nahe - das ist die Spezifikation für den HTTP-Datenverkehr in Version 1.1 (sehr gängig).

	TOONY	So, Nov 14, 2004 18:47 Antworten mit Zitat
bei meiner suchmaschiene, www.erorave.de ist ne Demo mit soeinem Spider!

TOONY

So, Nov 14, 2004 18:47
Antworten mit Zitat

bei meiner suchmaschiene,
www.erorave.de

ist ne Demo mit soeinem Spider!

	blitzprogrammierer	So, Nov 14, 2004 19:35 Antworten mit Zitat
ich will aber das er mir in verschidenen Servern sucht!!! Wenn ich z.B.bla eingebe Sucht die Marschiene nach einer Adresse z.B. "www.bla/bla.gif" Ps: oder ist das nicht ganz legal das er in ferschiedenen Servern sucht!!!

blitzprogrammierer

So, Nov 14, 2004 19:35
Antworten mit Zitat

ich will aber das er mir in verschidenen Servern sucht!!!
Wenn ich z.B.bla eingebe
Sucht die Marschiene nach einer Adresse z.B.
"www.bla/bla.gif"
Ps: oder ist das nicht ganz legal das er in ferschiedenen Servern sucht!!!

	Garfield12 Betreff: Wie pr	Mi, Mai 23, 2007 20:20 Antworten mit Zitat
Wie programmiert man den eine Suchmaschine. Also so eine wie Google, nur die wird mit einem Programm auf dem Pc gestartet. ?????

Garfield12

Betreff: Wie pr

Mi, Mai 23, 2007 20:20
Antworten mit Zitat

Wie programmiert man den eine Suchmaschine. Also so eine wie Google, nur die wird mit einem Programm auf dem Pc gestartet. ?????

	Tankbuster	Mi, Mai 23, 2007 20:28 Antworten mit Zitat
OMG!!! Erst gräbst du diesen URALTEN Thread wieder aus, und dann noch mit so einer überflüssigen Frage, die irgendwie schon im 2. Beitrag beantwortet wurde -.- Such nach Spidern, und wie sie funktionieren, dann hast du ales, was du brauchst
Twitter Download Jewel Snake! Windows\|Android

Tankbuster

Mi, Mai 23, 2007 20:28
Antworten mit Zitat

OMG!!!
Erst gräbst du diesen URALTEN Thread wieder aus, und dann noch mit so einer überflüssigen Frage, die irgendwie schon im 2. Beitrag beantwortet wurde -.-
Such nach Spidern, und wie sie funktionieren, dann hast du ales, was du brauchst Wink

Twitter
Download Jewel Snake!
Windows|Android

	TheShadow Moderator	Mi, Mai 23, 2007 22:34 Antworten mit Zitat
Ein Spider kopiert... das ist relativ einfach - da wird jede Seite analysiert und dann werden die Daten reduziert (html code entfernt) usw... Wie durchsucht man nun den Berg an Daten? Dazu sind hochoptimierte Datenbanken erforderlich - und die sind gar nicht so einfach... da wird nicht jede Datei einzeln durchsucht - weil es gibt zu viele... wenn du nach dem wort blitz und basic suchst - dann gibt es sagen wir mal von blitz 28 Mio und von basic 717 Mio treffer - d.h es gibt so statistiklisten - für jedes mögliche wort. dann wird wohl das wort genommen, das am wenigsten vorkommt - und dann wird man versuchen die Seiten zu finden wo alle Begriffe vorkommen... gar nicht so einfach... ich denke jede Seite bekommt eine ID-Nummer - und jedes Wort nur lauter links (also Millionen von ID's) zu den Seiten. Dann muß man nur die ID's filtern... Dazu sind zich-tausende Rechner notwendig... Google hat z.B. 500.000 (ink. Arbeits-PCs)
AMD64 3500+ \| GeForce6600GT 128MB \| 1GB DDR \| WinXPsp2

TheShadow

Moderator

Mi, Mai 23, 2007 22:34
Antworten mit Zitat

Ein Spider kopiert... das ist relativ einfach - da wird jede Seite analysiert und dann werden die Daten reduziert (html code entfernt) usw...

Wie durchsucht man nun den Berg an Daten? Dazu sind hochoptimierte Datenbanken erforderlich - und die sind gar nicht so einfach...

da wird nicht jede Datei einzeln durchsucht - weil es gibt zu viele...

wenn du nach dem wort blitz und basic suchst - dann gibt es sagen wir mal von blitz 28 Mio und von basic 717 Mio treffer - d.h es gibt so statistiklisten - für jedes mögliche wort.

dann wird wohl das wort genommen, das am wenigsten vorkommt - und dann wird man versuchen die Seiten zu finden wo alle Begriffe vorkommen... gar nicht so einfach...

ich denke jede Seite bekommt eine ID-Nummer - und jedes Wort nur lauter links (also Millionen von ID's) zu den Seiten. Dann muß man nur die ID's filtern...

Dazu sind zich-tausende Rechner notwendig... Google hat z.B. 500.000 (ink. Arbeits-PCs)

AMD64 3500+ | GeForce6600GT 128MB | 1GB DDR | WinXPsp2

	BlitzChecker	Fr, Mai 25, 2007 15:18 Antworten mit Zitat
Ohne MySQL (oder andere Datenbankanwendung) Cluster kommst du da nicht weit... Das heißt du kannst nicht mal eben so einen Spider runterladen und dann hast du ein zweites google. Gibt recht viele Bücher über Spider etc. Was ich dir ans Herz legen kann ist YaCy (http://yacy.net/yacy/). http://www.yacy-websuche.de hat Folgendes geschrieben: YACY ist eine neue Art Suchmaschine, bei der man von keinem einzelnen Anbieter mehr abhängig ist. Das Konzept ist ähnlich wie bei Tauschbörsen: jeder trägt etwas dazu bei, und jeder bekommt dafür etwas zurück. Nur dass es sich hier um Suchergebnisse handelt, nicht um Musik. Die hinter dem Verfahren liegende Technik basiert auf einem caching Proxy. Um Seiten zu indizieren kann man entweder einfach den Proxy benutzen oder man schickt selber einen Crawler los, der dann vollautomatisch Webseiten lädt und indiziert. Der Proxy-Modus indiziert keine personalisierten Seiten. Wenn nun irgendein anderer Peer im YaCy Netzwerk einer Suche startet, kann er alle Seiten finden, die Sie indiziert haben. Umgekehrt können Sie alle Seiten finden, die bei anderen indiziert wurden. Dadurch entsteht ein globaler Index. Nur ist nicht ganz so schnell, aber für den Anfang
www.xairro.com

BlitzChecker

Fr, Mai 25, 2007 15:18
Antworten mit Zitat

Ohne MySQL (oder andere Datenbankanwendung) Cluster kommst du da nicht weit...
Das heißt du kannst nicht mal eben so einen Spider runterladen und dann hast du ein zweites google. Gibt recht viele Bücher über Spider etc.
Was ich dir ans Herz legen kann ist YaCy (http://yacy.net/yacy/).
http://www.yacy-websuche.de hat Folgendes geschrieben:

YACY ist eine neue Art Suchmaschine, bei der man von keinem einzelnen Anbieter mehr abhängig ist.
Das Konzept ist ähnlich wie bei Tauschbörsen: jeder trägt etwas dazu bei, und jeder bekommt dafür etwas zurück.
Nur dass es sich hier um Suchergebnisse handelt, nicht um Musik.

Die hinter dem Verfahren liegende Technik basiert auf einem caching Proxy.
Um Seiten zu indizieren kann man entweder einfach den Proxy benutzen oder man schickt selber einen Crawler los, der dann vollautomatisch Webseiten lädt und indiziert. Der Proxy-Modus indiziert keine personalisierten Seiten.

Wenn nun irgendein anderer Peer im YaCy Netzwerk einer Suche startet, kann er alle Seiten finden, die Sie indiziert haben. Umgekehrt können Sie alle Seiten finden, die bei anderen indiziert wurden.
Dadurch entsteht ein globaler Index.

Nur ist nicht ganz so schnell, aber für den Anfang Wink

www.xairro.com

Übersicht

Sonstiges

Smalltalk

Nach Oben

BlitzBasic Portal

Suchmaschine

Betreff: Suchmaschine

Betreff: Wie pr