Zakaz indeksacji określonych obszarów serwisu czy wchodzących w jego skład dokumentów to jeden z największych problemów, z którymi borykają się webmasterzy. Problemów o tyle poważnych, że najczęściej skutki nieradzenia sobie z nimi są opłakane – treści, których nikt niepowołany nie powinien oglądać, są publicznie dostępne w wyszukiwarkach przez długi czas.
Na szczęście, nie jest to problem sam w sobie – wystarczy znać i umiejętnie (oraz konsekwentnie) stosować ustalone wytyczne, by nie denerwować się później przez powstałych niedopatrzenia.
Matt Cutts z Google na stronach swojego bloga podpowiada i przypomina, co należy zrobić, by móc potem spać spokojnie (zwłaszcza jeżeli chodzi o wyszukiwarkę Google):
- autoryzacja .htaccess (co to jest?), która umożliwia zablokowanie dostępu do całych witryn lub ich wydzielonych sekcji (np. panelu administracyjnego) – program indeksujący wyszukiwarki nie umie wypełnić wyskakującego wtedy formularza logowania i nie zostaje dopuszczony do znajdujących się za nim treści;
- plik robots.txt (co to jest?), umieszczany w głównym katalogu serwisu, pozwala zdefiniować zarówno katalogi jak i pojedyncze dokumenty, które mają nie być indeksowane; co więcej, można w ten sposób również ustawić różne poziomy uprawnień dla poszczególnych programów indeksujących (np. aby udostępnić zasoby serwisu wyłącznie polskim wyszukiwarkom);
- metatagi, które blokują indeksację dokumentu („noindex„), w którym się znajdują lub zakazują indeksowania dokumentów, do których umieszczono odnośniki w obrębie danego pliku („nofollow„);
- atrybut „nofollow”, który można umieścić w obrębie pojedynczego znacznika odnośnika, by zakazać indeksacji dokumentu docelowego.
Stosowanie jednej lub wielu z wymienionych wyżej metod (w zależności od tego, co chcemy chronić) praktycznie zapewni nam spokój i brak przykrych niespodzianek w przyszłości.
—
Maciek Gałecki