יוני 10
30
במהלך חודש יוני הבחנתי בתנועה מוזרה בגרף הסריקה של גוגלבוט בתוך כלי מנהל האתרים. מה שלעין הבלתי מיומנת עלול להיראות כנפילת האתר מהאוויר, היה למעשה סימפטום שונה לחלוטין. החלטתי לחקור את הנושא בטרם אכתוב על כך את הפוסט. והממצאים שלי אימתו שאכן קרה הדבר.
כאשר אתר סופג נפילת שרת או חוסר יכולת מוחלטת של העכביש לבקר אנחנו נבחין בנקודת הגרף נוגעת לחלוטין בתחתית וכמו כן בערך Low נקבל 0. אך כאן הדבר היה שונה, זה נראה כאילו פשוט העכביש קיבל עצירה ולקח מעט מאוד דפים באותו יום. התחלתי לעבור על לפחות 20 אתרים נוספים אשר שונים אחד מהשני בתכלית, מאוחסנים במקומות שונים, עוסקים בתחומים שונים ומגוונים בכמות הדפים, מ1,000,000 דפים דרך אתרים עם מאות אלפי דפים וגם אתרים קטנים יותר. הממצאים הראו כי יש מן המשותף לכולם. בכל הגרפים באיזור שנופל בין התאריכים (להערכתנו) 14-18 ליוני, יש את אותה נפילה.
לא קפאתי על השמרים והחלטתי לשלול גם את "צירוף המקרים" שהשתקף בבירור בכלי מנהל האתרים ופניתי לקולגות נוספות במטרה לבדוק את הגרפים שלהם ולדווח האם הם נתקלים באותה פעילות. התשובה של כולם היתה שכן, כמו כן בדקתי עם כמה אתרים גדולים מאוד בארץ של קולגות וקיבלנו את אותה תשובה.
למי ששם לב בין התאריכים הללו החלה להופיע הודעה חדשה לאתרים גדולים או לאתרים שיש בהם פגמים טכניים מסוימים בכלי מנהל האתרים :
Googlebot encountered an extremely high number of URLs on your site
ייתכן וזהו חלק מהביטוי של האינדקס החדש קפאין אך הדבר אינו מחייב זאת בלבד.
לפי הערכתנו העכביש שיפר את יכולת ההבחנה שלו בכתובות URL פגומות אשר גרמו גם עומס על השרתים של האתרים הנסרקים וגם עומס על מרכזי המידע של גוגל. כמות האתרים בעולם (אשר השתמשו בSession ID, פרמטרים משורשרים, לופים פנימיים של כתובות, הפניות רלטיוויות שבורות וכו' ) היא רבה ומגוונת וגודלו של האינטרנט הוא עצום, לכן על ידי ניפוי משמעותי של דפי זבל, דפים שגויים ודפים כפולי תוכן שנובעים משרשורי פרמטרים אינסופיים הם משימה שאמורה לתת לבעלי האתרים וגם לגוגל אוויר צח לנשימה ויותר כוח להתעסק בעיבוד נתונים חשובים ופחות לחזור הביתה לאינדקס עם "משאית זבל" של כתובות URL.
הבעיות העיקריות שגוגל נתקל בהן כאשר הוא מציג הודעה זו :
1. שרשור של KEY אקראי בתוך כתובות URL של אתר (זה יכול להיות session ID אבל לא רק), כלומר כל ווריאציה של מנגנון אשר מוסיף פרמטרים רנדומליים אינסופיים מסוג כזה או אחר (אשר ברוב המקרים מיועדות לביצוע מדידות בסגנון הישן ולפעמים סתם מודול שלא כתוב נכון) יוצר לעכביש מצב שבו הוא סורק אלפי דפים סתם.
2. הפניות רלטיוויות שבורות יכולות לגרום לבעיה זו ולהוביל לloop של שרשור נתיבים אינסופי, דבר זה גם עלול ליצור זיבול מיותר בסריקה.
3. שרשור פרמטרים מגוון עבור הצגה של אותם נתונים באתרים בעלי נפח חיתוכים גדול (כגון ווריאציות שונות של הצגת אותן תוצאות בדיוק).
4. הכפלות תוכן פנימיות באתר שנובעות מסיבות מגוונות.
נתקלתם באותה פעילות בגרפים שלכם ? קיבלתם את ההודעה ? נשמח לשמוע את תגובותיכם.

תודה על מאמר מקצועי מאוד
גיא
תתחדשו על ה RSS
היי תשמע סתיו אתה צודק בדקתי עכשיו ב 3 אתרים שלי וזה בדיוק ככה. לפחות הצניחה הזאת.
אולם אצלי לא היו הודעות כאלה ואחרות.
תודה פוסט מרתק ומקצועי.
+
תודה גלעד, למעשה רק אתרים בעלי כמויות גדולות משמעותית של דפים קיבלו את ההודעה הזו, אבל הנסיגה של גוגלבוט אכן קרתה בכל המקומות.
תודה על העדכון חבר