גוגל פרסמו השבוע בבלוג כי יפסיקו לתמוך במספר כללים בקובץ robots.txt, בהם הפקודות noindex, nofollow crawl-delay ועוד. העדכון יצא לפועל ב-1 בספטמבר 2019.
חלופות ל-noindex ב-robots.txt
- noindex ב-Meta Robots– הדרך היעילה ביותר למנוע מכתובות אתר להתווסף לאינדקס של גוגל. השיטה הזאת נתמכת גם ב-html וגם ב-HTTP response headers.
<meta name="robots" content="noindex">
- סטטוס קוד 404 או 410 – שני הקודים האלה אומרים לגוגל שהדף לא קיים , ולכן דפים המחזירים קוד 404 או 410 יוסרו מהאינדקס בתהליך האינדוקס והעיבוד.
- הגנת התוכן באמצעות סיסמה – תוכן המסתתר מאחורי הרשאות כניסה לרוב לא ייכנס לאינדקס של גוגל, אלא אם כן מדובר בתוכן המוגן בחומת תשלום ומסומן ככזה.
- פקודת disallow ב-robots.txt – הפקודה הזאת מורה לגוגל לא לסרוק תוכן מסוים, ולרוב המשמעות היא שהדף גם לא יתאנדקס. עם זאת, גוגל יכולים לאנדקס תוכן שיש אליו קישורים גם אם הוא חסום לסריקה, אבל השאיפה היא לא לאנדקס תכנים כאלה בעתיד.
- הכלי להסרת כתובות URL ב-Search Console – הכלי מאפשר להסיר הסרה זמנית של קישורים מהאינדקס של גוגל.
לסיכום, מי שמשתמש ב-robots.txt כדי לחסום תכנים לאינדוקס או למעקב, מומלץ שיעבור לאחת מהחלופות האחרות עוד לפני 1 בספטמבר 2019.