Πώς να αποκλείσετε τις μηχανές αναζήτησης (με εικόνες)

2024 Συγγραφέας: Gilbert Ryder | [email protected]. Τελευταία τροποποίηση: 2024-01-07 16:47

Οι μηχανές αναζήτησης είναι εξοπλισμένες με ρομπότ, γνωστά και ως αράχνες ή bots, που ανιχνεύουν και ευρετηριάζουν ιστοσελίδες. Εάν ο ιστότοπος ή η σελίδα σας βρίσκεται υπό ανάπτυξη ή περιέχει ευαίσθητο περιεχόμενο, μπορεί να θέλετε να αποκλείσετε την ανίχνευση και την ευρετηρίαση του ιστοτόπου από τα bots. Μάθετε πώς μπορείτε να αποκλείσετε ολόκληρους ιστότοπους, σελίδες και συνδέσμους με αρχεία robots.txt και να αποκλείσετε συγκεκριμένες σελίδες και συνδέσμους με ετικέτες html. Διαβάστε παρακάτω για να ανακαλύψετε πώς να αποκλείσετε την πρόσβαση του περιεχομένου σας σε συγκεκριμένα bots.

Βήματα

Μέθοδος 1 από 2: Αποκλεισμός μηχανών αναζήτησης με αρχεία robots.txt

Βήμα 1. Κατανοήστε τα αρχεία robots.txt

Ένα αρχείο robots.txt είναι ένα απλό ή αρχείο κειμένου ASCII που ενημερώνει τις αράχνες των μηχανών αναζήτησης για το τι επιτρέπεται να έχουν πρόσβαση στον ιστότοπό σας. Τα αρχεία και οι φάκελοι που παρατίθενται σε ένα αρχείο robots.txt ενδέχεται να μην ανιχνεύονται και να ευρετηριάζονται από αράχνες μηχανών αναζήτησης. Μπορεί να χρειαστείτε ένα αρχείο robots.txt εάν:

Θέλετε να αποκλείσετε συγκεκριμένο περιεχόμενο από αράχνες μηχανών αναζήτησης.
Αναπτύσσετε έναν ζωντανό ιστότοπο και δεν είστε διατεθειμένοι να έχετε τις αράχνες μηχανών αναζήτησης να σέρνονται και να ευρετηριάζουν τον ιστότοπο
Θέλετε να περιορίσετε την πρόσβαση σε αξιόπιστα bots.

Βήμα 2. Δημιουργήστε και αποθηκεύστε το αρχείο robots.txt

Για να δημιουργήσετε το αρχείο, ξεκινήστε έναν απλό επεξεργαστή κειμένου ή έναν επεξεργαστή κώδικα. Αποθηκεύστε το αρχείο ως: robots.txt. Το όνομα του αρχείου πρέπει να είναι όλα πεζά.

Μην ξεχνάτε τα «s».
Όταν αποθηκεύετε το αρχείο, επιλέξτε την επέκταση "'.txt"'. Εάν χρησιμοποιείτε το Word, επιλέξτε την επιλογή "Απλό κείμενο".

Βήμα 3. Γράψτε ένα αρχείο robots.txt με πλήρη απαγόρευση

Είναι δυνατό να αποκλείσετε κάθε αξιόπιστη αράχνη μηχανών αναζήτησης από το να ανιχνεύει και να ευρετηριάζει τον ιστότοπό σας με ένα robots.txt "full-disallow". Γράψτε τις ακόλουθες γραμμές στο αρχείο κειμένου:

User-agent: * Disallow: /

Η χρήση ενός αρχείου robots.txt "πλήρους απαγόρευσης" δεν συνιστάται ανεπιφύλακτα. Όταν ένα bot, όπως το Bingbot, διαβάζει αυτό το αρχείο, δεν θα ευρετηριάσει τον ιστότοπό σας και η μηχανή αναζήτησης δεν θα εμφανίσει τον ιστότοπό σας.
Χρήστες-πράκτορες: αυτός είναι ένας άλλος όρος για αράχνες μηχανών αναζήτησης ή ρομπότ
*: ο αστερίσκος σημαίνει ότι ο κώδικας ισχύει για όλους τους παράγοντες χρήστη
Απαγορεύεται: /: η κάθετο προς τα εμπρός υποδεικνύει ότι ολόκληρος ο ιστότοπος είναι εκτός ορίων για τα bots

Βήμα 4. Γράψτε ένα αρχείο robots.txt που επιτρέπεται υπό όρους

Αντί να αποκλείσετε όλα τα bots, σκεφτείτε να αποκλείσετε συγκεκριμένες αράχνες από συγκεκριμένες περιοχές του ιστότοπού σας. Οι κοινές εντολές υπό όρους περιλαμβάνουν:

Αποκλεισμός συγκεκριμένου bot: αντικαταστήστε τους αστερίσκους δίπλα Χρήστη-πράκτορας με googlebot, googlebot-ειδήσεις, googlebot-εικόνα, bingbot, ή teoma.
Αποκλεισμός ενός καταλόγου και των περιεχομένων του:
```
User-agent: * Disallow: /sample-directory /
```
Αποκλεισμός ιστοσελίδας:
```
User-agent: * Disallow: /private_file.html
```

Αποκλεισμός εικόνας:

User-agent: googlebot-image Να μην επιτρέπεται: /images_mypicture.jpg

Αποκλεισμός όλων των εικόνων:
```
User-agent: googlebot-image Disallow: /
```
Αποκλεισμός συγκεκριμένης μορφής αρχείου:
```
Χρήστης-πράκτορας: * Απαγόρευση: /p*.gif$
```

Βήμα 5. Ενθαρρύνετε τα bots να δημιουργήσουν ευρετήριο και να ανιχνεύσουν τον ιστότοπό σας

Πολλοί άνθρωποι θέλουν να καλωσορίσουν, αντί να μπλοκάρουν, αράχνες μηχανών αναζήτησης επειδή θέλουν να καταχωριστεί ολόκληρος ο ιστότοπός τους. Για να το επιτύχετε αυτό, έχετε τρεις επιλογές. Αρχικά, μπορείτε να εξαιρεθείτε από τη δημιουργία ενός αρχείου robots.txt-όταν το ρομπότ δεν εντοπίσει ένα αρχείο robots.txt, θα συνεχίσει να ανιχνεύει και να ευρετηριάζει ολόκληρο τον ιστότοπό σας. Δεύτερον, μπορείτε να δημιουργήσετε ένα κενό αρχείο robots.txt-το ρομπότ θα βρει το αρχείο robots.txt, θα αναγνωρίσει ότι είναι κενό και θα συνεχίσει να ανιχνεύει και να ευρετηριάζει τον ιστότοπό σας. Τέλος, μπορείτε να γράψετε ένα αρχείο robots.txt με πλήρη άδεια. Χρησιμοποιήστε τον κωδικό:

User-agent: * Απαγόρευση:

Όταν ένα bot, όπως το googlebot, διαβάσει αυτό το αρχείο, μπορείτε να επισκεφθείτε ολόκληρο τον ιστότοπό σας.
Χρήστες-πράκτορες: αυτός είναι ένας άλλος όρος για αράχνες μηχανών αναζήτησης ή ρομπότ
*: ο αστερίσκος σημαίνει ότι ο κωδικός ισχύει για όλους τους παράγοντες χρήστη
Απαγορεύω: η κενή εντολή απαγόρευσης υποδεικνύει ότι όλα τα αρχεία και οι φάκελοι είναι προσβάσιμοι

Βήμα 6. Αποθηκεύστε το αρχείο txt στη ρίζα του τομέα σας

Αφού γράψετε το αρχείο robots.txt, αποθηκεύστε τις αλλαγές. Ανεβάστε το αρχείο στον ριζικό κατάλογο του ιστότοπού σας. Για παράδειγμα, εάν ο τομέας σας είναι www.yourdomain.com, τοποθετήστε το αρχείο robots.txt στη διεύθυνση www.yourdomain.com/robots.txt.

Μέθοδος 2 από 2: Αποκλεισμός μηχανών αναζήτησης με μεταετικέτες

Βήμα 1. Κατανοήστε τις μετα -ετικέτες ρομπότ HTML

Η μετα -ετικέτα ρομπότ επιτρέπει στους προγραμματιστές να ορίσουν παραμέτρους για bots ή αράχνες μηχανών αναζήτησης. Αυτές οι ετικέτες χρησιμοποιούνται για τον αποκλεισμό των bots από την ευρετηρίαση και την ανίχνευση ολόκληρου ιστότοπου ή απλώς τμήματα του ιστότοπου. Μπορείτε επίσης να χρησιμοποιήσετε αυτές τις ετικέτες για να αποκλείσετε μια συγκεκριμένη μηχανή αναζήτησης από το ευρετήριο του περιεχομένου σας. Αυτές οι ετικέτες εμφανίζονται στο κεφάλι του αρχείου HTML.

Αυτή η μέθοδος χρησιμοποιείται συνήθως από προγραμματιστές που δεν έχουν πρόσβαση στον ριζικό κατάλογο ενός ιστότοπου

Βήμα 2. Αποκλεισμός bots από μία σελίδα

Είναι δυνατό να αποκλείσετε όλα τα bots από την ευρετηρίαση μιας σελίδας ή και από την παρακολούθηση των συνδέσμων μιας σελίδας. Αυτή η ετικέτα χρησιμοποιείται συνήθως όταν ένας ζωντανός ιστότοπος βρίσκεται υπό ανάπτυξη. Μόλις ολοκληρωθεί ο ιστότοπος, συνιστάται να καταργήσετε αυτήν την ετικέτα. Εάν δεν καταργήσετε την ετικέτα, η σελίδα σας δεν θα ευρετηριαστεί ή δεν θα αναζητηθεί μέσω των μηχανών αναζήτησης.

Μπορείτε να αποκλείσετε τη δημιουργία ευρετηρίου της σελίδας από τα bots και την παρακολούθηση οποιουδήποτε από τους συνδέσμους:
Μπορείτε να αποκλείσετε τη δημιουργία ευρετηρίου της σελίδας από όλα τα bots:
Μπορείτε να αποκλείσετε όλα τα bots να μην ακολουθούν τους συνδέσμους της σελίδας:

Βήμα 3. Επιτρέψτε στα bots να ευρετηριάσουν μια σελίδα, αλλά να μην ακολουθούν τους συνδέσμους της

Εάν επιτρέψετε στα bots να δημιουργήσουν ευρετήριο της σελίδας, η σελίδα θα ευρετηριαστεί. εάν εμποδίσετε τις αράχνες να ακολουθήσουν τους συνδέσμους, η διαδρομή συνδέσμου από αυτήν τη συγκεκριμένη σελίδα σε άλλες σελίδες θα σπάσει. Εισαγάγετε την ακόλουθη γραμμή κώδικα στην κεφαλίδα σας:

Βήμα 4. Αφήστε τις αράχνες της μηχανής αναζήτησης να ακολουθήσουν τους συνδέσμους αλλά να μην ευρετηριάσουν τη σελίδα

Εάν επιτρέψετε στα bots να ακολουθήσουν τους συνδέσμους, η διαδρομή συνδέσμου από αυτήν τη συγκεκριμένη σελίδα σε άλλες σελίδες θα παραμείνει άψογη. εάν τους περιορίσετε την ευρετηρίαση της σελίδας, η ιστοσελίδα σας δεν θα εμφανίζεται στο ευρετήριο. Εισαγάγετε την ακόλουθη γραμμή κώδικα στην κεφαλίδα σας:

Βήμα 5. Αποκλεισμός ενός μεμονωμένου εξερχόμενου συνδέσμου

Για να αποκρύψετε έναν μόνο σύνδεσμο σε μια σελίδα, ενσωματώστε ένα σχετ ετικέτα εντός της ετικέτας συνδέσμου. Μπορεί να θέλετε να χρησιμοποιήσετε αυτήν την ετικέτα για να αποκλείσετε συνδέσμους σε άλλες σελίδες που οδηγούν στη συγκεκριμένη σελίδα που θέλετε να αποκλείσετε.

Εισαγωγή συνδέσμου σε αποκλεισμένη σελίδα

Βήμα 6. Αποκλεισμός μιας συγκεκριμένης αράχνης μηχανής αναζήτησης

Αντί να αποκλείσετε όλα τα bots από την ιστοσελίδα σας, ίσως θελήσετε να αποτρέψετε την ανίχνευση και την ευρετηρίαση μιας σελίδας από ένα bot. Για να το κάνετε αυτό, αντικαταστήστε το "'robot" εντός της μετα -ετικέτας με το όνομα ενός συγκεκριμένου bot. Τα παραδείγματα περιλαμβάνουν: googlebot, googlebot-ειδήσεις, googlebot-εικόνα, bingbot, και teoma.

Βήμα 7. Ενθαρρύνετε τα bots να ανιχνεύσουν και να ευρετηριάσουν τη σελίδα σας

Εάν θέλετε να διασφαλίσετε ότι η σελίδα σας θα ευρετηριαστεί και οι σύνδεσμοί της θα ακολουθούνται, μπορείτε να εισαγάγετε ένα follow-allow μετα "ρομπότ" ετικέτα στην κεφαλίδα σας. Χρησιμοποιήστε τον ακόλουθο κώδικα: