המושג Crawl Budget מתאר את הזמן או את מספר הדפים שרובוט הסריקה של גוגל מקדיש לאתר נתון. הוא אומנם לא רלוונטי בהכרח לכל אתר, אבל אתרים שמבזבזים את תקציב הסריקה עלולים לגלות שדפי האתר לא נסרקים – ולכן גם לא מופיעים בתוצאות החיפוש. בכתבה הזאת נסביר את המונח תקציב סריקה ואיך הוא משפיע על קידום האתר בגוגל.
מה זה Crawl Budget?
במשפט אחד – תקציב הסריקה הוא מספר דפי האתר שרובוט הסריקה של גוגל סורק ומאנדקס בפרק זמן כלשהו.
בהרחבה, תקציב הסריקה מורכב משני מונחים: Crawl rate limit, שיעור סריקה מקסימלי, ו-Crawl demand, הדרישה לסריקה.
Crawl Rate Limit
המטרה של גוגלבוט (רובוט הסריקה של גוגל המכונה גם זחלן או עכביש) היא לסרוק את הרשת מבלי לפגוע בחוויית המשתמש של המבקרים באתרים הנסרקים. התפקיד של Crawl Rate Limit הוא לקבוע קצב אחזור מקסימלי לכל אתר נתון.
במילים אחרות, ה-Crawl Rate Limit מייצג את מספר הזרועות שגוגלבוט יכול לשלוח בו זמנית כדי לסרוק את האתר וכן את זמן ההמתנה בין האחזורים. קצב הסריקה יכול לעלות או לרדת לפי כמה גורמים:
בריאות האתר: אם האתר מגיב במהירות, קצב הסריקה יעלה, כלומר יהיה אפשר לשלוח יותר זרועות כדי לסרוק את דפי האתר. ולהפך: אם האתר מגיב באיטיות או מחזיר שגיאות שרת, קצב הסריקה ירד והגוגלבוט יסרוק פחות דפים.
שיעור הסריקה המקסימלי המוגדר ב-Search Console: בעלי אתרים יכולים להפחית את קצב הסריקה של האתר באמצעות כלי ניהול האתרים (לחיצה על אייקון גלגל השיניים > הגדרות אתר > שיעור סריקה) עם זאת, הגדלת קצב הסריקה לא תבטיח עלייה במספר הדפים הנסרקים.
Crawl Demand
אם אין דרישה לאנדקס את האתר, הפעילות של הגוגלבוט תהיה מינימלית, גם אם האתר לא הגיע לקצב הסריקה המקסימלי. שני גורמים עיקריים משפיעים על הדרישה לסריקה:
פופולריות: אתרים פופולריים נסרקים לעתים קרובות יותר כדי שיישמרו עדכניים באינדקס של גוגל.
התיישנות: המערכת של גוגל שואפת למנוע מכתובות URL להעלות עובש באינדקס.
בנוסף, פעולות המשפיעות על כל האתר, כמו הגירת למבנה URL או לדומיין חדש, יכולות לגרום לעלייה בדרישה לסריקה כדי לאנדקס מחדש את התוכן בכתובת ה-UR החדשות.
השילוב בין קצב הסריקה לדרישה לסריקה מגדיר את תקציב הסריקה, והוא קובע כמה דפים רובוט הסריקה של גוגל יכול ורוצה לסרוק באתר נתון.
איך סריקת האתר משפיעה על הקידום בגוגל?
כאמור, אם דף אתר לא נסרק על ידי הרובוט של גוגל, הוא גם לא יעלה בשום תוצאות חיפוש. עם זאת, רוב האתרים לא צריכים לדאוג במיוחד לגבי תקציב הסריקה.
מי צריך לדאוג לגבי תקציב הסריקה?
- אתרים גדולים – אם יש לכם עשרות אלפי דפים באתר הרובוט של גוגל יתקשה לאתר את כולם.
- אחרי הוספה של כמויות תוכן בבת אחת – אם הוספתם לאתר קטגוריה חדשה המורכבת ממאות דפים ומעלה כדאי לוודא שהרובוט יגלה אותם בתוך זמן קצר.
- כשיש הפניות מרובות – ריבוי הפניות ושרשראות של הפניות עלולות לבזבז את תקציב הסריקה של גוגל.
גורמים המשפיעים על תקציב הסריקה
לפי גוגל, תוכן כפול וריבוי דפי אתר בעלי ערך מינימלי משפיע לרעה על סריקת האתר ועל הוספתו לאינדקס של גוגל. לקטגוריה הזאת משתייכים דפי אתר מהסוגים האלה:
- Faceted navigation והוספת Session ID לכתובת ה-URL
- תוכן משוכפל בתוך האתר
- שגיאות Soft 404
- דפים שנפרצו בידי האקרים
- רווחים אינסופיים ושימוש בפרוקסי
- תוכן דליל או ספאמי
במילים אחרות, אם אתם מבזבזים את זמנו היקר של רובוט הסריקה של גוגל על תוכן משוכפל או חסר ערך מסיבה כלשהי, אתם מעכבים אותו מלסרוק ולאנדקס תוכן בעל ערך.
טיפים לניצול יעיל של תקציב הסריקה
1. שיפור מהירות האתר
משתמשים ורובוטים אוהבים אתרים מהירים. אתרים איטיים מכלים את זמנו של רובוט הסריקה, ולהפך: ואתרים מהירים מייעלים את תהליך הסריקה של הבוט ומאפשרים לו להגיע אל מספר רב יותר של דפים באותו פרק זמן.
2. מעקב אחר שגיאות שרת ותיקונן
מספר רב של שגיאות מסוג 5XX ואילך או נפילות רבות של האתר יצביעו על בעיות בריאות בשרת ויאטו את קצב הסריקה. גוגל ממליצים לעקוב אחר דו"ח השגיאות ב-Search Console ולהפחית את מספר שגיאות סורק.
3. שיפור ארכיטקטורת האתר
- הוספת קישורים פנימיים
- השטחת ארכיטקטורת האתר
- הימנעות מדפים יתומים שלא מקבלים קישורים מאף דף.
שאלות נפוצות בנושא תקציב הסריקה
האם סריקה משפיעה על דירוג האתר בתוצאות החיפוש?
קצב סריקה גבוה לא ישפר בהכרח את המיקומים בתוצאות החיפוש. גוגל מתייחסים להמון גורמים המשפיעים על מיקומי האתר, ואף על פי שסריקת האתר היא תנאי הכרחי להופעה בתוצאות החיפוש, היא אינה גורם משפיע כשלעצמו על מיקומי האתר.
האם תקציב הסריקה לוקח בחשבון קישורים חלופיים לאתר המובייל (alternate URL) ותוכן מוטמע?
ככלל, כל כתובת URL הנסרקת על ידי הרובוט של גוגל יורדת מתקציב הסריקה של האתר. Alternate URL, בדומה לדפי AMP ולתגיות hreflang, ותוכן מוטמע כמו CSS ו-JavaScript עלולים להיסרק ולזלול את תקציב הסריקה של האתר. באותה מידה, שרשרת ארוכה של הפניות עשויה להשפיע לרעה על סריקת האתר.
האם אפשר לשלוט בגוגלבוט באמצעות פקודת crawl-delay?
הפקודה החריגה יחסית crawl-delay בקובץ robots.txt אינה מעובדת על ידי רובוט הסריקה של גוגל.
האם הפקודה nofollow משפיעה על תקציב הסריקה?
כל כתובת URL שנסרקת משפיעה על תקציב הסריקה. לכן, גם אם קישור מסוים מסומן כ-nofollow, הוא עדיין יכול להיסרק אם בדף אחר באתר או באתר אחר אותו קישור אינו מסומן כ-nofollow.
לסיכום, סריקה היא נקודת הכניסה של אתר אל תוצאות החיפוש של גוגל. שימוש יעיל וחסכוני בתקציב הסריקה של גוגל יזרז את אינדוקס התוכן ואת הופעתו בתוצאות החיפוש.