עמוד הבית > Web Analytics > מתי לאחרונה עשיתם בדיקת טפילים לשרת?

מתי לאחרונה עשיתם בדיקת טפילים לשרת?

עשיתם פעם בדיקת טפילים על השרתים שלכם? אני למדתי את זה בדרך הקשה.

מישהו אי פעם עקב אחרי פעילויות של קרולרים (עכבישי איסוף המידע של אינדקסים) באתרים שלו?

הגיע הזמן לעשות קצת סדר בנושא הטראפיק בשרת

בתקופה האחרונה – בכל יום בשעה 13:00 השרת שלי, שמכיל מספר אתרי תוכן פופולריים, היה מתחיל להתנדנד וליפול מרוב עומס היסטרי על הרוחב פס שלו ועל המעבד.

רק כדי לסבר את האוזן – עומס סביר על השרת נמדד בספרות שבין 0 ל1 למעבד. כלומר – כל מספר בין 0 ל1עבור כל מעבד בשרת זה תקין. בשרת שלי יש 2 מעבדים אז כל מספר בין 0 ל2 זה תקין כשהממוצע בד"כ עמד על 0.8-1.2.

 

אז בתקופה הזו בגל יום החל מ 13:00 ולמשך כמעט שעתיים וחצי העומס נמדד במספרים בין 16 ל19. כלומר פי 8-10 לעומס התקין. וזאת בלי שהייתה עלייה משמעותית בטראפיק ולא נצפתה התקפת DDOS על השרת.

לאחר 3 ימים כאלו של טירוף מערכות שגרמו להשבתת השרת ל3 שעות בכל פעם – נכנסתי לעובי הקורה יחד עם עזרה של מנהל אחסון האתרים התותח שלנו, תוספים ייעודיים בWP (כמו וורדפרנס, מוניטור וP3) ובדיקה יום יומית של הaccess log – וגילינו שבכל יום בשעה 13:00 נכנס קרולר של יאנדקס לסרוק לי את האתר הכי עמוס שלי.

יאנדקס יימח שמם, בניגוד לגוגל, לא ממש מתייחסים לרוחב פס ולא מנסים להתייעל ופשוט חרבו לי יום אחרי יום למשך שעתיים וחצי את הרוחב פס של השרת ברמה כזו שכשהייתי עושה לשרת ריסט, השרת היה חוזר ל3-4 דקות ושוב הקרולר של יאנדקס היה חוזר והשרת היה קורס תחת עומס שבשיא הגיע לפי 20 מעומס ממוצע.

הסיבה הייתה שיאנדקס ניסה לסרוק כמה שיותר עמודים בבת אחת. במקום לסרוק כמו גוגל – עמוד אחרי עמוד – יאנדקס סרק עשרות עד מאות עמודים במקביל. ומכיוון שכל שרת סביר מגביל את כמות החיבורים בו זמנית באתר ל150-200 גולשים בשנייה – יאנדקס פשוט חנק את השרת.

יחד עם יאנדקס גיליתי עוד כל מני בוטים שממש לא רלוונטיים לאתר תוכן ישראלי כמו קרולרים של ביידו, אמאזון, כל מיני יצורים יפנים, ועוד בוטים שכל מה שהם עשו היה לשתות מידע מהRSS FEED של האתרים בשרת. שכל אחד מהם תפס מקום של גולש לגיטימי וזלל לי מנתוני השרת – וזאת מבלי שבכלל אני זקוק לשירותים שלהם. הרי אתרי התוכן שלי הם בעברית. אז ממש לא מעניינים אותי אינדקסים ומנועי חיפוש רוסים, סינים, יפנים ואפילו מנועים אמריקאים שהם לא גוגל.

מה עשיתי?

חסמתי את כולם.

לחלק חסמתי את הIP, לחלק חסמתי את כל רשת השרתים ממנה הם הגיעו, וחלק מהקרולרים ניסיתי לחסום בrobots.

אממה?

יאנדקס שם על הרובוטס כמו שפוטין שם על אובמה. כלומר – נכנס לקובץ לבדוק מה עניינים והמשיך לזמבר לי את השרת. אז ניסיתי לחסום אותו ברמת IP. נכנס קרולר אחר שלהם עם IP אחר. ניסיתי לחסום את כל טווח הIP ואת רשת השרתים שלו – נכנס מרשת אחרת.

בסופו של דבר נכנסתי לפיירוול של השרת – חסמתי את כל רוסיה ובנוסף הוספתי הגבלה שכל IP יכול להיות במקביל במקסימום 4 עמודים ו… הכל בא על מקומו בשלום.

מאז שקט ושלווה.

כמובן שעדיין לא עצמתי עיניים – בכל יום בשבועיים שעברו מהמקרה ניטרתי וחסמתי בוטים נוספים של מנועים נוספים ומיותרים (חלקם של שירותי SEO כמו ahref ודומיו) ובסופו של שבוע – הנה קובץ הrobots של האתר:

רובוטס

מה אנחנו לומדים מכאן?

קודם כל – בוטים הם חארות. רוב הבוטים ישתו לכם את המידע ויעמיסו על השרת שלכם בלי שאתם בכלל צריכים אותם.

דבר שני – אל תהססו לחסום כל מה שלא אמור להיות בשרת שלכם. תחסמו מדינות שלמות (על הדרך חסמתי את כל מדינות ערב, מזרח אסיה ואפריקה) חלק חסמתי ברמת האתר (כי יש לי אתרים בשפות שונות שפונות לקהלים שונים בעולם) וחלק ברמת השרת (ארצות ערב לא רלוונטיות לשום אתר שלי). תחסמו בוטים של מנועי חיפוש מיותרים (אין שום סיבה שביידו, יאנדקס ואפילו בינג(!) יסרקו אתר תוכן בעברית)

דבר שלישי – הוספתי עוד שורה בצ'קליסט בדוחות אופטימיזציית מהירות אתר – וממליץ לכולם לעשות גם – בדיקת טפילים. מי מטייל לכם על השרת ולא אמור להיות שם?

אסף כהן, ירושלמי, נשוי ואבא לילדים. מנהל את תחום הSEO וקידום האתרים בהיידה. מתמחה באופטימיזציה למנועי חיפוש ואוהב לפתור בעיות אופטימיזציה שאחרים הרימו עליהן ידיים. לאסף יש תואר שף מטעם איגוד השפים הישראלי והוא מתחזק אתר מתכונים מוביל בתחום.

2 Replies to “מתי לאחרונה עשיתם בדיקת טפילים לשרת?”

  1. יפה מאוד
    ננסה 🙂 לא יודע כמה זה מעודכן

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

יש לנו עוד מאמרים מעולים

קידום אתרי שופיפיי Shopify – כך תעשו את זה נכון

לא מזמן השתתפתי בדיון בקבוצת פייסבוק על עניין קידום אתרי ...

אורי פדידה
21.07.2022
לקריאה

איך מוסיפים Rich Snippets ותמונת Authors לתוצאות החיפוש של גוגל

אחד המהלכים החדשים של גוגל זה להאדיר מאמרים איכותיים וטובים. ...

אסף כהן
04.06.2012
לקריאה