Ορισμός του Crawler Web Spidering και του Διαδικτύου
Burp Suite 2 Professional: Crawling Apps Automatically
Πίνακας περιεχομένων:
- Spammers Spider Websites για τη συλλογή πληροφοριών
- Συμβουλές για την προστασία της ιστοσελίδας σας από ανεπιθύμητα ρομπότ ανιχνευτές
- Σχετικά άρθρα και πληροφορίες
Οι αράχνες είναι προγράμματα (ή αυτοματοποιημένα σενάρια) που «ανιχνεύουν» μέσω του Ιστού αναζητώντας δεδομένα. Οι αράχνες ταξιδεύουν μέσω των διευθύνσεων URL του ιστότοπου και μπορούν να τραβήξουν δεδομένα από ιστοσελίδες, Οι αράχνες χρησιμοποιούνται επίσης για την τροφοδοσία πληροφοριών που βρίσκονται σε ιστοσελίδες στις μηχανές αναζήτησης.
Οι αράχνες, οι οποίες επίσης αναφέρονται ως "ανιχνευτές ιστού", ψάχνουν στο Web και δεν είναι όλοι φιλικοί προς την πρόθεσή τους.
Spammers Spider Websites για τη συλλογή πληροφοριών
Google, Yahoo! και άλλες μηχανές αναζήτησης δεν είναι οι μόνοι που ενδιαφέρονται να ανιχνεύσουν ιστότοπους - έτσι και οι απατεώνες και οι spammers.
Οι αράχνες και άλλα αυτοματοποιημένα εργαλεία χρησιμοποιούνται από τους αποστολείς ανεπιθύμητης αλληλογραφίας για να βρουν διευθύνσεις ηλεκτρονικού ταχυδρομείου (στο διαδίκτυο η πρακτική αυτή αναφέρεται συχνά ως «συγκομιδή») σε ιστότοπους και στη συνέχεια να τις χρησιμοποιούν για τη δημιουργία λιστών ανεπιθύμητης αλληλογραφίας.
Οι αράχνες είναι επίσης ένα εργαλείο που χρησιμοποιείται από τις μηχανές αναζήτησης για να μάθετε περισσότερες πληροφορίες σχετικά με τον ιστότοπό σας, αλλά δεν έχει επιλεγεί, ένας ιστότοπος χωρίς οδηγίες (ή "δικαιώματα") σχετικά με τον τρόπο ανίχνευσης του ιστότοπού σας μπορεί να παρουσιάσει σημαντικούς κινδύνους για την ασφάλεια των πληροφοριών. Οι αράχνες ταξιδεύουν ακολουθώντας τους συνδέσμους και είναι πολύ έμπειροι στην εύρεση συνδέσμων σε βάσεις δεδομένων, αρχεία προγραμμάτων και άλλες πληροφορίες στις οποίες μπορεί να μην θέλετε να έχουν πρόσβαση.
Οι Webmasters μπορούν να δουν τα αρχεία καταγραφής για να δουν τι αράχνες και άλλα ρομπότ έχουν επισκεφτεί τους ιστότοπούς τους. Αυτές οι πληροφορίες βοηθούν τους webmasters να γνωρίζουν ποια είναι η ευρετηρίαση του ιστότοπού τους και πόσο συχνά.
Αυτές οι πληροφορίες είναι χρήσιμες επειδή επιτρέπουν στους webmasters να συντονίζουν με επιτυχία το SEO και να ενημερώνουν τα αρχεία robot.txt για να απαγορεύσουν σε ορισμένα ρομπότ να ανιχνεύσουν το site τους στο μέλλον.
Συμβουλές για την προστασία της ιστοσελίδας σας από ανεπιθύμητα ρομπότ ανιχνευτές
Υπάρχει ένας αρκετά απλός τρόπος για να κρατήσετε τους ανεπιθύμητους ανιχνευτές έξω από τον ιστότοπό σας. Ακόμα κι αν δεν ανησυχείτε για κακόβουλα αράχνες που ανιχνεύουν τον ιστότοπό σας (η σιωπηρή διεύθυνση ηλεκτρονικού ταχυδρομείου δεν θα σας προστατεύει από τα περισσότερα προγράμματα ανίχνευσης), θα πρέπει να παρέχετε στις μηχανές αναζήτησης σημαντικές οδηγίες.
Όλοι οι ιστότοποι θα πρέπει να έχουν ένα αρχείο που βρίσκεται στον ριζικό κατάλογο που ονομάζεται αρχείο robots.txt. Αυτό το αρχείο σάς δίνει τη δυνατότητα να δώσετε εντολές σε ανιχνευτές ιστού όπου θέλετε να αναζητήσουν σε σελίδες ευρετηρίου (εκτός εάν δηλώνεται διαφορετικά στα μεταδεδομένα μιας συγκεκριμένης σελίδας που δεν έχουν ευρετηρίαση) αν είναι μηχανή αναζήτησης.
Όπως μπορείτε να πείτε στους ανιχνευτές που θέλετε να περιηγηθούν, μπορείτε επίσης να τους πείτε πού να μην πάνε και να μπλοκάρουν συγκεκριμένους ανιχνευτές από ολόκληρο τον ιστότοπό σας.
Είναι σημαντικό να έχετε κατά νου ότι ένα σωστά τοποθετημένο αρχείο robots.txt θα έχει τεράστια αξία για τις μηχανές αναζήτησης και θα μπορούσε να αποτελέσει βασικό στοιχείο για τη βελτίωση της απόδοσης του ιστότοπού σας, αλλά ορισμένα crawlers ρομπότ εξακολουθούν να αγνοούν τις οδηγίες σας. Για το λόγο αυτό, είναι σημαντικό να ενημερώνετε συνεχώς όλο το λογισμικό, τα plugins και τις εφαρμογές σας.
Σχετικά άρθρα και πληροφορίες
Λόγω της επικράτησης της συλλογής πληροφοριών που χρησιμοποιήθηκε για κακόβουλους σκοπούς (spam), ψηφίστηκε νομοθεσία το 2003 για να καταστήσει ορισμένες πρακτικές παράνομες. Αυτοί οι νόμοι προστασίας των καταναλωτών εμπίπτουν στο νόμο CAN-SPAM του 2003.
Είναι σημαντικό να αφιερώσετε χρόνο για να διαβάσετε τον νόμο CAN-SPAM, εάν η επιχείρησή σας ασχολείται με οποιαδήποτε μαζική αποστολή ή συλλογή πληροφοριών.
Μπορείτε να μάθετε περισσότερα σχετικά με τους νόμους κατά του spam και τον τρόπο αντιμετώπισης των spammers και τι δεν μπορείτε να κάνετε ως ιδιοκτήτης επιχείρησης διαβάζοντας τα παρακάτω άρθρα:
- CAN-SPAM Act 2003
- CAN-SPAM νόμος για τους μη κερδοσκοπικούς οργανισμούς
- 5 CAN-SPAM Κανόνες Οι ιδιοκτήτες μικρών επιχειρήσεων πρέπει να καταλάβουν
6 Δωρεάν Μαθήματα Διαδικτύου για να Ενισχύσετε τις Δεξιότητες Καριέρας σας
Θέλετε να αναβαθμίσετε τις ικανότητες σταδιοδρομίας σας; Αυτά τα δωρεάν μαθήματα online για το Coursera θα σας βοηθήσουν να βελτιώσετε τις ικανότητες σταδιοδρομίας σας και να σας προσφέρουμε ένα ανταγωνιστικό πλεονέκτημα.
Δείγμα Πολιτικής Διαδικτύου και Email για τους υπαλλήλους
Χρειάζεστε ένα απλό, απλό δείγμα ηλεκτρονικού ταχυδρομείου και πολιτικής διαδικτύου; Χρησιμοποιήστε αυτό το δείγμα για να διαμορφώσετε τη βάση για τις πολιτικές ηλεκτρονικού ταχυδρομείου εργασίας και διαδικτύου.
Ένας ορισμός του άλμπουμ σύνταξης και ματιά σε αυτό
Επειδή οι ετικέτες αρχείων μπορούν να συγκεντρώσουν σχεδόν οτιδήποτε, υπάρχει ένα ευρύ φάσμα παραδειγμάτων των άλμπουμ σύνταξης.