Crawler geht nicht
Übersicht

![]() |
BlitzCheckerBetreff: Crawler geht nicht |
![]() Antworten mit Zitat ![]() |
---|---|---|
Hallo, ich habe mal angefangen einen Crawler (andere nennen sowas auch Spider oder Robot) zu programmieren. Das ist sowas wie z.B. der Googlebot, also ein Programm, was das Internet nach Links durchsucht. Allerdings funktioniert mein Code nicht. Der macht komischerweise vor fast jeden gefundenen Link ein http:// mehr. Am Ende sieht das dann ungefähr z.B. so aus: http://http://http://http://ht...tzforum.de
Mein Code: BlitzBasic: [AUSKLAPPEN] Graphics 800,600,16,2 Weiss jemand wo der Fehler liegt? |
||
www.xairro.com |
trooper |
![]() Antworten mit Zitat ![]() |
|
---|---|---|
er schreibt zu oft http:// | ||
-- imtane.de.vu --
a cherring ping |
![]() |
BlitzChecker |
![]() Antworten mit Zitat ![]() |
---|---|---|
das weiss ich. ich hab ja nicht umsonst
BlitzChecker hat Folgendes geschrieben: Der macht komischerweise vor fast jeden gefundenen Link ein http:// mehr. Am Ende sieht das dann ungefähr z.B. so aus: http://http://http://http://ht...tzforum.de geschrieben... ![]() Weiss niemand wo der Bug liegt? |
||
www.xairro.com |
![]() |
BlitzcoderNewsposter |
![]() Antworten mit Zitat ![]() |
---|---|---|
mach doch einfach:
Code: [AUSKLAPPEN] if not left$(linkvar$,7)="http://" then linkvar$="http://"+linkvar$ MfG Blitzcoder |
||
P4 3 Ghz@3,55Ghz|GF 6600GT 256MB|Samsung 80GB | 2x Samsung 160GB|2048MB DDR-400 RAM|6 Mbit Flatrate | Logitech G15 | Samsung 225BW-TFT | Ubuntu Gutsy Linux | Windows Vista | Desktop | Blog | CollIDE | Worklog
________________ |°°°°°°°°°°°°°°||'""|""\__,_ |______________ ||__ |__|__ |) |(@) |(@)"""**|(@)(@)****|(@) |
![]() |
BlitzChecker |
![]() Antworten mit Zitat ![]() |
---|---|---|
so hatte ich es schonmal, ging aber auch ned | ||
www.xairro.com |
trooper |
![]() Antworten mit Zitat ![]() |
|
---|---|---|
wahrscheinlich wird "readurls" zu oft ausgeführt bzw. links werden doppelt verarbeitet, höchstwahr. liegt der fehler in der schleife For url_new.url2do = Each url2do , probier doch einfach mal eine einfache seite mit nur ein, zwei links. | ||
-- imtane.de.vu --
a cherring ping |
![]() |
Markus2 |
![]() Antworten mit Zitat ![]() |
---|---|---|
Mache dir möglichst viele HTML Seiten
mit so vielen Fehlern wie möglich und versuche die richtig zu parsen , sonnst bringt das nix . (erstmal ohne TCP Stream, direkt die Datei lesen!) |
||
![]() |
BlitzChecker |
![]() Antworten mit Zitat ![]() |
---|---|---|
ich hab jetzt noch einige bugs rausgebügelt, z.B. dass der nicht immer die adresse in großbuchsteben schreibt, sonst kommen linuysysteme damit nicht zurecht. aber ich glaube, ich werde auf eine javalösung umsteigen, da die javacrawler mehr als 10 seiten in der sekunde schaffen zu durchsuchen. meins schafft gerade mal 3-4 in der sekunde. vil kann ich ja auch das javateil nach bb portieren.
und ausserdem würd mein crawler ununterbrochen crawlen, da der auch seiten aufnimmt, die schon aufgenommen sind und somit in einer endlosschleife crawlt. |
||
www.xairro.com |
Übersicht


Powered by phpBB © 2001 - 2006, phpBB Group