Η σημασία του αρχείου robots.txt και πως να το φτιάξεις
Από Λάζαρος Γεωργούλας
Χρήσιμες και δωρεάν πληροφορίες για αρχείο robots.txt 😁 και τρόποι δημιουργίας του για το site σου. "Κατέβασε" εντελώς δωρεάν 3 ηλεκτρονικά βιβλία (PDF ebooks)!
1. Δωρεάν στρατηγική κέρδους
2. Οδηγός για νέες ιστοσελίδες
3. Βγάλε λεφτά με το bitcoin
Απλά βάλε το email σου στη παρακάτω φόρμα και θα λάβεις άμεσα τα 3 ebooks!
Μισώ το SPAM! Η διεύθυνση email σου είναι ασφαλής και δεν θα γνωστοποιηθεί ποτέ σε τρίτους! Αν ενδιαφέρεσαι, Μάθε περισσότερα για τα 3 ebooks...
Στο άρθρο για τα πλεονεκτήματα του αρχείου sitemap.xml είδαμε ότι ένας χάρτης ιστοσελίδας (sitemap) είναι σημαντικός γιατί αποτελεί μια μορφή επικοινωνίας με τις μηχανές αναζήτησης που τις βοηθάει να μάθουν τη δομή του site σου και ποιές σελίδες να ευρετηριάσουν και να εμφανίζουν στα αποτελέσματα αναζήτησης (SERPs - Search Engine Results Pages). Στο παρόν άρθρο θα μιλήσω για το αρχείο robots.txt, ποιά η σημασία του και πως να το φτιάξεις.
Οι μηχανές αναζήτησης όπως το Google χρησιμοποιούν αυτοματοποιημένα προγράμματα (robots, crawlers, spiders) για να επισκεφθούν μια ιστοσελίδα, να μάθουν τα περιεχόμενα της και να την ευρετηριάσουν δηλαδή να την εντάξουν στα αποτελέσματα αναζήτησης τους που παρουσιάζονται στους χρήστες όταν αυτοί κάνουν αναζητήσεις. Τα spiders αναζητούν την ύπαρξη του αρχείου robots.txt για να ξέρουν ποιά περιεχόμενα ενός site να "σκανάρουν" και ποιά όχι.
Για παράδειγμα αν ορίσεις στο robots.txt ότι μια σελίδα στο site σου δεν θέλεις να "σκαναριστεί" από τα spiders τότε αυτή η σελίδα δεν θα ενταχθεί στα αποτελέσματα αναζήτησης των search engines και οι χρήστες δεν θα μπορούν να τη βρούν. Το να μην επιτρέπεις στις μηχανές αναζήτησης να έχουν πρόσβαση σε τμήματα/σελίδες του site σου είναι σημαντικό τόσο από πλευράς SEO (Search Engine Optimization) όσο και για λόγους ιδιωτικότητας (δες και αυτό το άρθρο με τις καλύτερες πρακτικές SEO για ένα site).
Το robots.txt είναι ένα αρχείο κειμένου (.txt) που μπορείς να φτιάξεις με διάφορους τρόπους και βέβαια με το Σημειωματάριο (Notepad) των Windows. Ας δούμε ένα παράδειγμα κώδικα που μπορεί να περιλαμβάνεται σε ένα αρχείο robots.txt:
Disallow: /thank-you.html
Ο παραπάνω κώδικας αποτρέπει τα spiders όλων των μηχανών αναζήτησης από το να έχουν πρόσβαση στην σελίδα thank-you.html
Η εντολή (command) User-agent:* με την χρήση του αστερίσκου (*) μας λέει ότι η πρόσβαση απαγορεύεται σε όλα τα spiders. Μπορούσε να έχει την εξής μορφή:
Με την παραπάνω εντολή απαγορεύεται η πρόσβαση μόνο στο Google ενώ τα robots των υπόλοιπων μηχανών αναζήτησης θα μπορούν να έχουν πρόσβαση.
Το αρχείο robots.txt πρέπει αφού δημιουργηθεί να "ανέβει" στον κύριο φάκελο στον server σου π.χ.:
http://mydomain.gr/robots.txt
Γιατί να απαγορεύσεις την πρόσβαση σε σελίδες ή τμήματα του site σου;
Υπάρχουν μερικοί βασικοί λόγοι για να αποτρέψεις τα spiders των μηχανών αναζήτησης από το να έχουν πρόσβαση σε κάποιες σελίδες ή τμήματα του site σου. Για παράδειγμα αν έχεις δυο ίδιες σελίδες δηλαδή με το ίδιο πάνω-κάτω περιεχόμενο τότε καλό είναι να διακόψεις την πρόσβαση σε μια από τις δυο σελίδες για λόγους SEO. Στις μηχανές αναζήτησης δεν αρέσει να βλέπουν το ίδιο περιεχόμενο σε δυο διαφορετικές σελίδες σε ένα site (duplicate content).
Ένας άλλος λόγος είναι αν έχεις μια σελίδα στο site σου στην οποία θέλεις οι χρήστες να έχουν πρόσβαση μόνο αφού εκτελέσουν κάποια ενέργεια (π.χ. αφού εισάγουν το email τους σε κάποια φόρμα). Για παράδειγμα αν παρέχεις ένα δωρεάν ebook με αντάλλαγμα τη διεύθυνση email των χρηστών τότε δεν θέλεις η σελίδα που παρέχει πρόσβαση στο ebook να ευρετηριαστεί και να είναι διαθέσιμη σε όλους τους χρήστες παρά μόνο σε όσους δίνουν το email τους (δες και αυτό το άρθρο για το πως να γράψεις ένα ebook για να το δώσεις δωρεάν στους χρήστες του site σου).
Ένας τρίτος λόγος για να απαγορεύσεις τη πρόσβαση μέσω του robots.txt είναι όταν θέλεις να προστατεύσεις κάποια τμήματα του site σου π.χ. τον φάκελλο cgi-bin ή τον φάκελλο με τις εικόνες του site σου. Για παράδειγμα μπορεί να θέλεις να αποτρέψεις τις μηχανές αναζήτησης όπως το Google από το να ευρετηριάσουν τις εικόνες σου ώστε να μην μπορούν να τις χρησιμοποιούν τρίτοι ξοδεύοντας το bandwidth σου.
Δημιουργία του αρχείου robots.txt
Μπορείς να δημιουργήσεις το αρχείο πρόσβασης για τα spiders μέσα από το Google Search Console (πρώην Google webmaster tools). Επίσης υπάρχουν πολλά δωρεάν εργαλεία στο internet για αυτόν ακριβώς το σκοπό. Απλά κάνε μια αναζήτηση για "robots.txt creator" ή "robots.txt generator" ή κάτι αντίστοιχο. Τέλος μπορείς να γράψεις το αρχείο στο Σημειωματάριο (Notepad) των Windows...:
- Άνοιξε το Σημειωματάριο
- Αποθήκευσε το αρχείο ως robots.txt (αρχείο κειμένου)
- Γράψε τον παρακάτω κώδικα στο αρχείο
User-agent:*
Disallow:/images/
Disallow:/books/free-ebook/
Disallow:/thank-you.html
- Στη πρώτη γραμμή συμπλήρωσε τη διεύθυνση URL του αρχείου sitemap.xml
- Τροποποίησε τις εντολές Disallow ώστε να αντικατοπτρίζουν τα περιεχόμενα στα οποία επιθυμείς να απαγορεψεις την πρόσβαση.
- Πρόσθεσε προαιρετικά την εντολή Disallow και για άλλα τμήματα ή σελίδες του site σου που θέλεις να απαγορέψεις την πρόσβαση (κάθε εντολή σε νέα γραμμή)
- Αποθήκευσε το αρχείο...
- Ανέβασε το αρχείο στον κεντρικό φάκελο στον server σου (ώστε να είναι προσβάσιμο από την διεύθυνση π.χ.
http://mydomain.gr/robots.txt) - Κάνε έναν έλεγχο για να δεις αν έχεις γράψει το αρχείο σωστά αναζητώντας στο Google δωρεάν εργαλεία όπως "robots.txt checker" ή "robots.txt validator" ή κάτι αντίστοιχο...
Αυτό ήταν!
Μπορείς να ορίσεις και άλλες εντολές στο αρχείο αλλά για αρχή ας το κρατήσουμε στην πιο απλοϊκή του μορφή...
Είναι σημαντικό να χρησιμοποιείς το αρχείο robots.txt αν θέλεις να περιορίσεις την πρόσβαση σε συγκεκριμένα τμήματα ή σελίδες του site σου. Η δημιουργία του είναι απλή και εξασφαλίζει προστασία ευαίσθητων περιοχών και καλύτερα SEO αποτελέσματα (δες και αυτό το άρθρο για τις καλύτερες πρακτικές SEO για το site σου). Μαζί με το robots.txt προτείνεται να χρησιμοποιείς και έναν χάρτη ιστοσελίδας (sitemap). Διάβασε και αυτό το άρθρο για τα πλεονεκτήματα του αρχείου sitemap.xml και πως να το φτιάξεις.
Αν χρειάζεσαι συμβουλές πάνω σε θέματα διαδικτύου ή κάποιον ειδικό να συζητήσεις για την προώθηση του ιστότοπου σου τότε μπορείς να νοικιάσεις όσο από τον χρόνο μου επιθυμείς και θα κάτσω με σοβαρότητα και επαγγελματισμό να μοιραστώ όλα όσα έχω μάθει τα τελευταία 15 χρόνια για το internet, το marketing, το SEO και γενικά το διαδίκτυο. Κλείσε μια συνεδρία μαζί μου μέσω της υπηρεσίας "Διαδικτυακός Σύμβουλος" και θα δώσω τον καλύτερο μου εαυτό για να σε βοηθήσω.-
Σε ευχαριστώ για την ανάγνωση. Για να σε ανταμείψω σου προσφέρω 3 ηλεκτρονικά βιβλία μου (ebook) εντελώς δωρεάν! Απλά κάνε εγγραφή στις ενημερώσεις nextnet.gr και μετά την ολοκλήρωση της (100% δωρεάν) θα λάβεις τους συνδέσμους (download links) για να "κατεβάσεις" τα ebooks. Βάλε το καλύτερο email σου στη παρακάτω φόρμα:
- Μισώ το SPAM!
- Η διεύθυνση email σου είναι ασφαλής.
- Μπορείς ανά πάσα στιγμή να διαγραφείς από τις ενημερώσεις.