הבלוג שלנו

ספאם ספאם ספאם – על אלגוריתם הספאם של גוגל

shlomit
14 ביולי 2020
זמן קריאה: 6 דקות

ספאם - אלגוריתם הספאם של גוגל

האם גוגל באמת ניקו 99% מהספאם בתוצאות החיפוש? מה זה בכלל ספאם? והאם עדיין אפשר לקדם אתרים באמצעות טכניקות ספאם מיושנות ומפוקפקות? שאלות ותשובות בעקבות פרסום דו"ח הספאם השנתי של גוגל.

 

מה הוא דו"ח הספאם השנתי של גוגל?

בכל חודש יוני גוגל מפרסמים את דו"ח הספאם השנתי ובו הוא מסכמים את מאמציהם והישגיהם במלחמתם מול הספאם בתוצאות החיפוש. ב-2019, שנים אחרי פנדה ופינגווין ושאר עדכוני האלגוריתם האימתניים שניקו את האינטרנט מטכניקות קידום מפוקפקות, נתקלו גוגל מדי יום ב-25 מיליארד דפים המכילים תוכן ספאמי. אבל צוות הלוחמה של גוגל דיווח על ניקוי של 99% מהספאם בתוצאות החיפוש, ועל השגת שליטה בגזרת הספאם שנוצר על ידי גולשים (למשל, קישורים בתגובות בבלוגים או בשרשורים בפורומים). המשמעות היא ש-99% מהגולשים באינטרנט יכולים לגלוש בבטחה בלי להיתקל בקישורים לחנויות ויאגרה מקוונות באתרים לכל המשפחה. או שלא?

 

מה זה בכלל ספאם?

קודם כול, קצת אטימולוגיה, או איך בשר משומר הגיע לפח האשפה של האינטרנט בעזרת מונטי פייתון:

 

מנוע החיפוש של גוגל שולף אתרים ומדרג אותם בתוצאות החיפוש בעזרת אלגוריתם דירוג. האלגוריתם מורכב מכל מיני רכיבים, חלקם עלומים וחלקם ידועים, כמו רלוונטיות התוכן לשאילתת החיפוש, כמות הקישורים הנכנסים, מדדי משתמש והיבטים טכניים כמו מהירות האתר, התאמה למובייל ועוד. ספאם, אם כן, הוא שימוש בטכניקות המחקות את הרכיבים האלה בלי לספק את הסחורה (למשל, קניית קישורים כדי ליצור אשליה של סמכותיות באתר זניח) או בכאלה העלולות להזיק למשתמשים (למשל, חשיפתם לתוכנות זדוניות).

 

עוד טכניקות שגוגל מגדירים כספאם:

  • תוכן שנוצר באופן אוטומטי
  • השתתפות בהונאות קישורים
  • יצירת דפים המכילים מעט תוכן מקורי, אם בכלל
  • הסוואה (Cloaking)
  • הפניות אוטומטיות מטעות
  • טקסט או קישורים מוסתרים
  • דפי סף (Doorway Pages)
  • תוכן מועתק
  • השתתפות בתוכניות שותפים מבלי להוסיף ערך של ממש
  • טעינת דפים עם מילות מפתח לא רלוונטיות
  • יצירת דפים עם התנהגות זדונית, כגון פישינג או התקנת וירוסים, סוסים טרויאניים או תוכנות זדוניות אחרות
  • ניצול לרעה של תגי עיצוב של נתונים מובְנים (Schema)
  • שליחת שאילתות אוטומטיות אל Google

(מתוך: הנחיות למנהלי אתרים)

 

כל הטכניקות האלה כמובן היו נפוצות למדי בקרב מקדמי אתרים בימים המוקדמים של התעשייה, שעברו בעיקר בניסוי וטעייה ובדיונים בפורומים.

 

חלק מהטכניקות האלה (למשל, הסתרת קישורים או טקסטים באמצעות פונט זעיר או בצבע הרקע) כבר נעלמו לפני שנים מעולם ה-SEO, או לפחות מהאזורים הלגיטימיים של האינטרנט.

 

טכניקות אחרות גוגל העלימו באופן גורף בעזרת עדכוני אלגוריתם מטלטלים:

עדכון פנדה מ-2011 העלים, או לפחות צמצם, אתרים בעלי תוכן דליל, מועתק, מפוצץ במודעות או כזה שאינו עונה על ההבטחה.

 

עדכון פינגווין מ-2012 גרם למקדמי אתרים לתכנן מחדש את אסטרטגיית בניית הקישורים, לוותר על קנייה סיטונאית של קישורים מפורומים ומאתרים מפוקפקים אחרים ואף לבקש מגוגל שיתעלמו מקישורים מסוימים או מכולם באמצעות הכלי Disavow Links.

 

עוד קודם לעדכון פינגווין גוגל המציאו את התגית nofollow, שנועדה לשחרר אתרים, בעיקר כאלה המפרסמים תוכן גולשים, מהאחריות לקישורים שפורסמו בהם. מטרת התגית היא בעצם להורות לגוגל לא לעקוב אחרי הקישורים המתויגים, ולא לראות בהם הכרה מטעם האתר המקשר באיכות או בסמכותיות של האתר המקושר. גם עדכון זה נועד לפגוע באטרקטיביות של השתתפות ב"הונאות קישורים", אבל ההצלחה הייתה חלקית, והשנה גוגל הוסיפו עוד תגיות לסימון קישורים בתוכן גולשים (rel="ugc") ובתוכן ממומן (rel="sponsored").

 

עם זאת, קנייה, החלפה והשגה של קישורים עדיין נמצאת בשימוש נרחב, ואין הוכחה לכך שהאתרים משני הצדדים של העסקה נענשים עליהן (לפחות כל עוד השימוש הוא מידתי ובשפות נידחות כמו עברית).

 

איך גוגל מאתרים ספאם והאם הם מאתרים את כל הספאם?

גוגל נעזרים בכמה דרכים כדי לאתר תוכן ספאמי, בהן דיווחים של משתמשים (הלשנות, במילים אחרות), בדיקות ידניות ושימוש במערכות בינה מלאכותית. לא את כל הדרכים גוגל מוכנים לחשוף.  "אנחנו לא יכולים לשתף בטכניקות ספציפיות המשמשות למלחמה בספאם מכיוון שחשיפתן תחליש את ההגנות ותפגע ביעילות של החיפוש", כתב דני סאליבאן, לשעבר איש SEO והיום עובד גוגל, בפוסט שכותרתו "Why keeping spam out of Search is so important".

 

ב-2019 גוגל הציבו בראש סדרי העדיפויות את שיפור יכולות המלחמה בספאם בעזרת מערכות למידת מכונה. התותחים הכבדים האלה כוונו לעבר אתרים מהסוג המזיק במיוחד. למשל, אתרים המתחזים לאתרים ידועים ורשמיים, מטעים את המשתמשים וגורמים להם לבטוח בהם ולשתף במידע אישי או כספי ואף להתקין תוכנות זדוניות. לפי הדו"ח השנתי ב-2019 גוגל הצליחו להפחית את החשיפה לספאם מהסוג הזה ב-60% יותר מב-2018.

 

אבל גם ספאמרים (או מקדמי אתרים המחפשים קיצורי דרך) נעזרים במערכות בינה מלאכותית כדי לתמרן את תוצאות החיפוש בגוגל.

 

לפי כתבה באתר Search Engine Journal, ספאמרים משתמשים בטכנולוגיות למידת מכונה כדי ליצור תוכן טקסטואלי מווידאו ואודיו ולהפך, ולקדם אותו בעיקר תוצאות החיפוש המתקדמות בגוגל (Rich Results), סוג תוצאות שעדיין אינו נפוץ מאוד בחיפוש בעברית וכולל, בין השאר, שאלות ותשובות, מדריכים (How to), מתכונים, סרטוני וידאו ועוד.

 

האלגוריתם של גוגל אומנם יודע לזהות תוכן מועתק ולהתעלם ממנו, אבל הוא עדיין לא מצטיין בזיהוי העתקות בין אמצעי מדיה שונים. כך, ספאמרים יכולים לנצל את הפרצה הזאת כדי להפוך, למשל, טקסטים כתובים לסרטונים ולתפוס נדל"ן בולט בתוצאות החיפוש האורגניות, בעיקר בחיפושים טרנדיים ואקטואליים. האירוניה היא שאפילו אפשר להשתמש בכלי AI חינמי של גוגל, Text-to-Speech, כדי להמיר טקסט לדיבור כמו-אנושי.

 

ואם רוצים להתחכם עוד יותר, גם אפשר להעביר את הטקסט דרך אחד מכלי התרגום האוטומטיים, למשל זה שבבעלות גוגל, ולקבל טקסטים מוכנים לפרסום בעוד שפות. אבל מלבד הסיכון שבזיהוי על ידי מערכות גילוי הספאם המשוכללות של גוגל, השימוש בשיטות האלה גם יכול לחשוף את המשתמשים לתביעות על הפרת זכויות יוצרים.

 

לסיכום:

  • אין ספק שיש שיפור ביכולות של גוגל לזהות ספאם ולסנן אותו מתוצאות החיפוש (בוודאי בהשוואה ל-2010).
  • סינון הספאם לא מושלם, ומשתמשים עדיין יכולים להיתקל בתוכן ספאם, כנראה ביותר מ-1% מהביקורים באינטרנט.
  • אנשי SEO עדיין ממשיכים לקבל הצעות מפתות להשתתפות ב"הונאות קישורים", וכמעט כל מחקר קישורים יחשוף קישורים שהושגו בדרכים לא טבעיות.
  • גם היכולות של הספאמרים משתפרות ומשתכללות, אבל לא בטוח שהפשע ישתלם לטווח הארוך.
  • בקצב הזה, ועם ההטמעה של BERT, יש סיכוי גדול שרבות מטכניקות הקידום הלגיטימיות, למשל, שילוב של מילות מפתח בתוכן, ייראו מפוקפקות ומיושנות בזמן הקרוב.