ארכיב האינטרנט יתעלם מרובוטס.טקסט

אולי יעניין אותך גם

ארכיב האינטרנט - או, כמו שהוא ידוע יותר, מכונת היה-היה (Wayback Machine) - החליט להתעלם מ-robots.txt. רובוטס.טקסט הוא קובץ המורה למנועי חיפוש אילו איזורים באתר לא לסרוק ולאנדקס. מנהל אתר יכול ליישם אותו מאלף ואחת סיבות - מפני שיש חומר רגיש באיזורים הללו, מפני שהם בבניה, מפני שיש שם קבצים גדולים או בגלל שאינו רוצה שמנועי חיפוש ישמרו גרסאות-עבר של התוכן. חלק ממנועי החיפוש מכבדים robots.txt (מי אמר גוגל ראשון?!) וחלק לא.

Archive.org הוא אתר ענק המשמש לאירכוב חלקים מאתרי Web, אחת לכמה זמן. באופן זה הוא משמר תמונות חטופות (snapshots) של האינטרנט בנקודות זמן שונות. כעת הוא מודיע בבלוג שלו, שהחליט לא לכבד יותר את ההוראות של קבצי robots.txt מפני שלשיטתו הם מיועדים למנועי חיפוש ולא לארכיונים. הוא מנמק זאת בשתי סיבות -

  • מטרת האתר היא ליצור תמונת-מראה שלמה של אתרי אינטרנט, כולל תכנים כפולים שיש בהם וקבצים גדולים. 
  • שימוש ב-robots.txt להחריג ממנועי חיפוש דומיינים שהיו פעילים וחדלו לאכסן אתרים, גורם לכך שאותם אתרים נעלמים לגמרי גם מהארכיב שהוא מנהל.

לדברי הפירסום, לפני חודשים אחדים הם הודיעו שיתעלמו מהוראות הקובץ באתרי ממשל וצבא אמריקאים, והתגובות החיוביות מעודדות אותם להמשיך עם זה הלאה.