הבלוג שלנו

איך למצוא ולהסיר תוכן כפול מהאתר

'Gilad Sasson'
5 בספטמבר 2012
זמן קריאה: 4 דקות

תוכן כפול או תוכן משוכפל (duplicate content) הוא תוכן זהה שמופיע בכתובות URL שונות של אותו אתר בין בשל טעות של מערכת ניהול התוכן, מבנה מכוון של התוכן (למשל כדי ליצור גרסה ידידותית להדפסה), או סיבות אחרות שיפורטו בהמשך. תוכן משוכפל הוא אחת הבעיות הנפוצות בקידום אתרים גדולים, בעיקר בקידום אתרי מסחר.

(תוכן כפול יכול להיווצר גם בשל העתקה או מחזור של תוכן אבל במאמר זה לא נדון בתוכן כפול מסוג זה).

מנועי חיפוש לא אוהבים תוכן כפול מכיוון שהוא מקשה עליהם לדעת איזו גרסה להכניס לתוצאות החיפוש ולאיזו גרסה לייחס את המדדים המשפיעים על דירוג האתר כמו אמינות, סמכותיות, כמות קישורים נכנסים וכדומה. תוכן כפול פוגע בדירוג האתר ובכמות התנועה הנכנסת וגם גורם לאתר לאבד את ערך הקישורים הנכנסים (link juice), מכיוון שהקישורים מתפזרים בין שתי כתובות URL או יותר.

גוגל ממליצים על קנוניזציה: לבחור כתובת אחת שתוגדר קנונית, כלומר מועדפת, ולהודיע למנוע החיפוש על הבחירה בכל אחת מהדרכים (או בכולן) המוצעות על ידם: הגדרת דומיין מועדף, ציון קישור קאנוני לכל דף, הפניית 301, הוספת הכתובות הקנוניות למפת אתר xml, טיפול בפרמטר דינמי או ציון קישור קאנוני בכותרת ה-http.

האם יש תוכן כפול באתר?

אם באתר יש דף או תוכן שאפשר להגיע אליהם דרך יותר מ-url אחד, המשמעות היא שיש תוכן כפול באתר והאתר עלול להיפגע מתוצאותיו.

הגורם יכול להיות שלא הוגדרו דומיין או מבנה URL מועדף  שלא הוגדרו, קישור לגרסת pdf של הדף וכו'.

למשל אותו תוכן יכול להופיע בכל אחת מהגרסאות האלה:

https://www.website.com

https://website.com

https://website.com/index

https://website.com/index/

מערכות ניהול תוכן המבוססות על שפות דינמיות יכולות ליצור תוכן כפול על ידי הוספת פרמטרים דינמיים ל-URL המקורי וגוגל יכולים לאנדקס כל URL כדף נפרד אף על פי שמדובר באותו דף. למשל, באתרי וורדפרס נוצרים קישורים לכל תגובה שנוספת לפוסט, ואותו דף יכול להתאנדקס ככה: https://website.com/blogpost וגם ככה: https://website.com/blogpost/?replytocom=10.

איך למצוא תוכן כפול באתר

הדרך הפשוטה ביותר היא להשתמש בחיפוש של גוגל ולהקליד את שם הדף החשוד אחרי הפקודה site: (לדוגמה: site:website.com/about), ולראות אם מתקבלת יותר מתוצאה אחת. כדי לבדוק אם באינדקס של גוגל יש גרסת אתר וגרסת קובץ לאותו דף, יש להוסיף את הפקודה filetype בסוף (לדוגמה: site:website.com/about filetype:pdf).

 דרך טובה לזהות תוכן כפול שנוצר בשל הספת פרמטרים דינמיים היא פשוט לבדוק את מפת האתר. אמנם מפת האתר (בגרסת ה-xml) מראה רק את הדפים שתרצו שמנועי החיפוש ירשמו, אבל הם נוטים לרשום יותר דפים בגלל בעיות הקשורות להגדרת (או אי-הגדרת) דומיין מועדף ופרמטרים דינמיים בכתובת ה-url.

אם בעיית התוכן הכפול ידועה לכם, למשל בתגובות לבלוג וורדפרס, אפשר לבדוק גם דרך חיפוש בגוגל: site:website.com inurl:replytocom. (רק להחליף את website.com בשם הדומיין ואת replytocom בפרמטר החשוד).

לבסוף יש לבדוק בגוגל אנליטיקס אילו כתובות url מביאות תנועה אורגנית לאתר (דרך מקורות תנועה<מקורות>חיפוש>רגילה). אם מופיעה ברשימת דפי הנחיתה כתובת שנראית לכם חשודה, הכניסו אותה לרשימת כתובות שדרושה תיקון.

איך לתקן תוכן כפול

להגדיר דומיין מועדף

ראשית יש להחליט איזו גרסה של כתובת האתר אתם מעדיפים, עם או בלי www, אחר-כך לוודא שכל הגרסאות האחרות מפנות לגרסה המועדפת ולבסוף ליידע את גוגל דרך כלי ניהול האתרים (תצורה>הגדרות<דומיין מועדף).

להסיר דפים מתוצאות החיפוש של גוגל

אחרי שהכנתם רשימת URLים חשודים, יש להיכנס לחשבונכם בגוגל וובמסטר טולס ומשם לאופטימיזציה< הסר כתובות אתרים.

בשלב הראשון יש ללחוץ על "צור בקשה חדשה להסרת תוכן" ואחר-כך להכניס את שם הדף שתרצו להסיר.

בשלב הבא יש לבחור את האפשרות "הסר דף מתוצאות החיפוש ומהקובץ השמור", ללחוץ על "שלח בקשה" ולחזור על התהליך עד שכל הדפים יוסרו מתוצאות החיפוש של גוגל. בדף הזה תוכלו גם לעקוב אחר הסטטוס של כל בקשת הסרה ולדעת מתי הוסרו הדפים מתוצאות החיפוש.

לבקש מגוגל להתעלם מפרמטרים דינמיים

תוכלו לבקש מגוגל להתעלם מפרמטרים דינמיים מסוימים בעזרת הכלי לטיפול בפרמטרים שנמצא גם הוא בוובמסטר טולס תחת תצורה>פרמטרים של כתובות אתר. שם תופיע רשימת פרמטרים שגוגל אספו מהאתר. יש לעבור עליהם ולשנות את ההגדרות של כל פרמטר דרך "ערוך".

קנוניזציה

עוד דרך לעזור למנועי החיפוש להבין איזו גרסת אתר מועדפת עליכם היא באמצעות הוספת תגים קנוניים (canonical tags). פרטים נוספים בווידאו הזה:

מאט קאטס מגוגל מסביר על תגים קנוניים