Οι μηχανές αναζήτησης είναι εξοπλισμένες με ρομπότ, γνωστά και ως αράχνες ή bots, που ανιχνεύουν και ευρετηριάζουν ιστοσελίδες. Εάν ο ιστότοπος ή η σελίδα σας βρίσκεται υπό ανάπτυξη ή περιέχει ευαίσθητο περιεχόμενο, μπορεί να θέλετε να αποκλείσετε την ανίχνευση και την ευρετηρίαση του ιστοτόπου από τα bots. Μάθετε πώς μπορείτε να αποκλείσετε ολόκληρους ιστότοπους, σελίδες και συνδέσμους με αρχεία robots.txt και να αποκλείσετε συγκεκριμένες σελίδες και συνδέσμους με ετικέτες html. Διαβάστε παρακάτω για να ανακαλύψετε πώς να αποκλείσετε την πρόσβαση του περιεχομένου σας σε συγκεκριμένα bots.
Βήματα
Μέθοδος 1 από 2: Αποκλεισμός μηχανών αναζήτησης με αρχεία robots.txt
Βήμα 1. Κατανοήστε τα αρχεία robots.txt
Ένα αρχείο robots.txt είναι ένα απλό ή αρχείο κειμένου ASCII που ενημερώνει τις αράχνες των μηχανών αναζήτησης για το τι επιτρέπεται να έχουν πρόσβαση στον ιστότοπό σας. Τα αρχεία και οι φάκελοι που παρατίθενται σε ένα αρχείο robots.txt ενδέχεται να μην ανιχνεύονται και να ευρετηριάζονται από αράχνες μηχανών αναζήτησης. Μπορεί να χρειαστείτε ένα αρχείο robots.txt εάν:
- Θέλετε να αποκλείσετε συγκεκριμένο περιεχόμενο από αράχνες μηχανών αναζήτησης.
- Αναπτύσσετε έναν ζωντανό ιστότοπο και δεν είστε διατεθειμένοι να έχετε τις αράχνες μηχανών αναζήτησης να σέρνονται και να ευρετηριάζουν τον ιστότοπο
- Θέλετε να περιορίσετε την πρόσβαση σε αξιόπιστα bots.
Βήμα 2. Δημιουργήστε και αποθηκεύστε το αρχείο robots.txt
Για να δημιουργήσετε το αρχείο, ξεκινήστε έναν απλό επεξεργαστή κειμένου ή έναν επεξεργαστή κώδικα. Αποθηκεύστε το αρχείο ως: robots.txt. Το όνομα του αρχείου πρέπει να είναι όλα πεζά.
- Μην ξεχνάτε τα «s».
- Όταν αποθηκεύετε το αρχείο, επιλέξτε την επέκταση "'.txt"'. Εάν χρησιμοποιείτε το Word, επιλέξτε την επιλογή "Απλό κείμενο".
Βήμα 3. Γράψτε ένα αρχείο robots.txt με πλήρη απαγόρευση
Είναι δυνατό να αποκλείσετε κάθε αξιόπιστη αράχνη μηχανών αναζήτησης από το να ανιχνεύει και να ευρετηριάζει τον ιστότοπό σας με ένα robots.txt "full-disallow". Γράψτε τις ακόλουθες γραμμές στο αρχείο κειμένου:
User-agent: * Disallow: /
Βήμα 4. Γράψτε ένα αρχείο robots.txt που επιτρέπεται υπό όρους
Αντί να αποκλείσετε όλα τα bots, σκεφτείτε να αποκλείσετε συγκεκριμένες αράχνες από συγκεκριμένες περιοχές του ιστότοπού σας. Οι κοινές εντολές υπό όρους περιλαμβάνουν:
- Αποκλεισμός συγκεκριμένου bot: αντικαταστήστε τους αστερίσκους δίπλα Χρήστη-πράκτορας με googlebot, googlebot-ειδήσεις, googlebot-εικόνα, bingbot, ή teoma.
-
Αποκλεισμός ενός καταλόγου και των περιεχομένων του:
User-agent: * Disallow: /sample-directory /
-
Αποκλεισμός ιστοσελίδας:
User-agent: * Disallow: /private_file.html
-
Αποκλεισμός εικόνας:
User-agent: googlebot-image Να μην επιτρέπεται: /images_mypicture.jpg
-
Αποκλεισμός όλων των εικόνων:
User-agent: googlebot-image Disallow: /
-
Αποκλεισμός συγκεκριμένης μορφής αρχείου:
Χρήστης-πράκτορας: * Απαγόρευση: /p*.gif$
Βήμα 5. Ενθαρρύνετε τα bots να δημιουργήσουν ευρετήριο και να ανιχνεύσουν τον ιστότοπό σας
Πολλοί άνθρωποι θέλουν να καλωσορίσουν, αντί να μπλοκάρουν, αράχνες μηχανών αναζήτησης επειδή θέλουν να καταχωριστεί ολόκληρος ο ιστότοπός τους. Για να το επιτύχετε αυτό, έχετε τρεις επιλογές. Αρχικά, μπορείτε να εξαιρεθείτε από τη δημιουργία ενός αρχείου robots.txt-όταν το ρομπότ δεν εντοπίσει ένα αρχείο robots.txt, θα συνεχίσει να ανιχνεύει και να ευρετηριάζει ολόκληρο τον ιστότοπό σας. Δεύτερον, μπορείτε να δημιουργήσετε ένα κενό αρχείο robots.txt-το ρομπότ θα βρει το αρχείο robots.txt, θα αναγνωρίσει ότι είναι κενό και θα συνεχίσει να ανιχνεύει και να ευρετηριάζει τον ιστότοπό σας. Τέλος, μπορείτε να γράψετε ένα αρχείο robots.txt με πλήρη άδεια. Χρησιμοποιήστε τον κωδικό:
User-agent: * Απαγόρευση:
Βήμα 6. Αποθηκεύστε το αρχείο txt στη ρίζα του τομέα σας
Αφού γράψετε το αρχείο robots.txt, αποθηκεύστε τις αλλαγές. Ανεβάστε το αρχείο στον ριζικό κατάλογο του ιστότοπού σας. Για παράδειγμα, εάν ο τομέας σας είναι www.yourdomain.com, τοποθετήστε το αρχείο robots.txt στη διεύθυνση www.yourdomain.com/robots.txt.
Μέθοδος 2 από 2: Αποκλεισμός μηχανών αναζήτησης με μεταετικέτες
Βήμα 1. Κατανοήστε τις μετα -ετικέτες ρομπότ HTML
Η μετα -ετικέτα ρομπότ επιτρέπει στους προγραμματιστές να ορίσουν παραμέτρους για bots ή αράχνες μηχανών αναζήτησης. Αυτές οι ετικέτες χρησιμοποιούνται για τον αποκλεισμό των bots από την ευρετηρίαση και την ανίχνευση ολόκληρου ιστότοπου ή απλώς τμήματα του ιστότοπου. Μπορείτε επίσης να χρησιμοποιήσετε αυτές τις ετικέτες για να αποκλείσετε μια συγκεκριμένη μηχανή αναζήτησης από το ευρετήριο του περιεχομένου σας. Αυτές οι ετικέτες εμφανίζονται στο κεφάλι του αρχείου HTML.
Αυτή η μέθοδος χρησιμοποιείται συνήθως από προγραμματιστές που δεν έχουν πρόσβαση στον ριζικό κατάλογο ενός ιστότοπου
Βήμα 2. Αποκλεισμός bots από μία σελίδα
Είναι δυνατό να αποκλείσετε όλα τα bots από την ευρετηρίαση μιας σελίδας ή και από την παρακολούθηση των συνδέσμων μιας σελίδας. Αυτή η ετικέτα χρησιμοποιείται συνήθως όταν ένας ζωντανός ιστότοπος βρίσκεται υπό ανάπτυξη. Μόλις ολοκληρωθεί ο ιστότοπος, συνιστάται να καταργήσετε αυτήν την ετικέτα. Εάν δεν καταργήσετε την ετικέτα, η σελίδα σας δεν θα ευρετηριαστεί ή δεν θα αναζητηθεί μέσω των μηχανών αναζήτησης.
- Μπορείτε να αποκλείσετε τη δημιουργία ευρετηρίου της σελίδας από τα bots και την παρακολούθηση οποιουδήποτε από τους συνδέσμους:
- Μπορείτε να αποκλείσετε τη δημιουργία ευρετηρίου της σελίδας από όλα τα bots:
- Μπορείτε να αποκλείσετε όλα τα bots να μην ακολουθούν τους συνδέσμους της σελίδας:
Βήμα 3. Επιτρέψτε στα bots να ευρετηριάσουν μια σελίδα, αλλά να μην ακολουθούν τους συνδέσμους της
Εάν επιτρέψετε στα bots να δημιουργήσουν ευρετήριο της σελίδας, η σελίδα θα ευρετηριαστεί. εάν εμποδίσετε τις αράχνες να ακολουθήσουν τους συνδέσμους, η διαδρομή συνδέσμου από αυτήν τη συγκεκριμένη σελίδα σε άλλες σελίδες θα σπάσει. Εισαγάγετε την ακόλουθη γραμμή κώδικα στην κεφαλίδα σας:
Βήμα 4. Αφήστε τις αράχνες της μηχανής αναζήτησης να ακολουθήσουν τους συνδέσμους αλλά να μην ευρετηριάσουν τη σελίδα
Εάν επιτρέψετε στα bots να ακολουθήσουν τους συνδέσμους, η διαδρομή συνδέσμου από αυτήν τη συγκεκριμένη σελίδα σε άλλες σελίδες θα παραμείνει άψογη. εάν τους περιορίσετε την ευρετηρίαση της σελίδας, η ιστοσελίδα σας δεν θα εμφανίζεται στο ευρετήριο. Εισαγάγετε την ακόλουθη γραμμή κώδικα στην κεφαλίδα σας:
Βήμα 5. Αποκλεισμός ενός μεμονωμένου εξερχόμενου συνδέσμου
Για να αποκρύψετε έναν μόνο σύνδεσμο σε μια σελίδα, ενσωματώστε ένα σχετ ετικέτα εντός της ετικέτας συνδέσμου. Μπορεί να θέλετε να χρησιμοποιήσετε αυτήν την ετικέτα για να αποκλείσετε συνδέσμους σε άλλες σελίδες που οδηγούν στη συγκεκριμένη σελίδα που θέλετε να αποκλείσετε.
Εισαγωγή συνδέσμου σε αποκλεισμένη σελίδα
Βήμα 6. Αποκλεισμός μιας συγκεκριμένης αράχνης μηχανής αναζήτησης
Αντί να αποκλείσετε όλα τα bots από την ιστοσελίδα σας, ίσως θελήσετε να αποτρέψετε την ανίχνευση και την ευρετηρίαση μιας σελίδας από ένα bot. Για να το κάνετε αυτό, αντικαταστήστε το "'robot" εντός της μετα -ετικέτας με το όνομα ενός συγκεκριμένου bot. Τα παραδείγματα περιλαμβάνουν: googlebot, googlebot-ειδήσεις, googlebot-εικόνα, bingbot, και teoma.
Βήμα 7. Ενθαρρύνετε τα bots να ανιχνεύσουν και να ευρετηριάσουν τη σελίδα σας
Εάν θέλετε να διασφαλίσετε ότι η σελίδα σας θα ευρετηριαστεί και οι σύνδεσμοί της θα ακολουθούνται, μπορείτε να εισαγάγετε ένα follow-allow μετα "ρομπότ" ετικέτα στην κεφαλίδα σας. Χρησιμοποιήστε τον ακόλουθο κώδικα: