האם גוגל באמת יודע הכל?

האם גוגל באמת יודע הכל?

מאת: עמית אדלר, מנהל פרויקטים

מה גוגל באמת יודע?
האם הוא באמת מגיע לכל המידע ברשת?


אחת ממשימותיה המוצהרות של גוגל, היא למצוא ולאנדקס את כל המידע בעולם. ב-2008 גוגל הגיע לאתר הטריליון במספר (אלף מיליארד כתובות אינטרנט), אבל מסתבר שגם זה מהווה רק שבריר מכמות המידע שמסתובב באינטרנט; ממש קצה הקרחון. הדבר נכון גם לגבי כל מנוע חיפוש אחר, כגון בינג או יאהו.

הרשת העמוקה, או Deep Web כפי שהיא נקראת בשפת אנשי-המקצוע*, עצומה בממדיה. קשה לדייק בגודלה, אבל ההערכות מדברות על כמויות מידע הגדולות פי 1,000 עד 5,000 מאלו הקיימות ברשת האינטרנט הגלויה. הערכות אחרות גורסות שמנועי חיפוש מסוגלים לגרד כ-10% מהמידע הקיים ברשת בכללותה.

בלי קשר לשאלה מה ניתן לאנדקס, מדובר בנפח עצום של מידע ונתונים שאינו זמין למנועי חיפוש סטנדרטיים. הרשת הבלתי נראית תופחת בממדים מעריכיים (אקספוננציאליים), ואין שום אפשרות לכמת אותה.

לפיכך, מנוע החיפוש של גוגל לא יכול להגיע לכל המידע הקיים ברשת (ולא משנה העובדה שהוא המתוחכם מכל המנועים האחרים). למרות שגוגל כן יכול להוביל אותנו אל כתובת אתר המכיל את המידע, לא תמיד יש באפשרותו לחדור פנימה ולאחזר את המידע עבורנו. זה ההבדל בין למצוא את המחט, ובין לבדוק את כל ערימת השחת. מה שנדמה לנו כמנוע יודע-כל, מתברר בעצם כתינוק המשחק לחופו של אוקיינוס.

מהי הרשת העמוקה?

כל מה שאינו נגיש למנועי החיפוש, מסיבות כאלה ואחרות: מידע עסקי ופיננסי, קטלוגים, מחקרים מדעיים, מסמכי-עבודה (White Papers); אתרים עסקיים, ארגוניים וממשלתיים; וכל סוג אחר של מידע העולה על הדעת.

באופן כללי ניתן לחלק את הרשת לשלוש קטגוריות:

Free Visible Web – שכבת האינטרנט שכולנו מכירים, הנגישה לביצוע חיפושים;
מהווה את פני השטח בלבד.

Free Invisible Web – השכבה הראשונה של הרשת העמוקה, והחלק הגדול ביותר בה.
כוללת אתרים פתוחים ונגישים, אך שאינם זמינים לחיפושים. כוללים בדרך-כלל מנוע חיפוש פנימי.

Anonymous Web – השכבה השנייה של הרשת העמוקה. כוללת רשתות סגורות הדורשות
מנוע חיפוש פנימי, ולעתים גם סיסמאות.


אחת הסיבות העיקריות לכך שרוב המידע אינו זמין למנועי חיפוש, היא שהמידע מאוחסן במסדי-נתונים. אלו דורשים מנועי חיפוש פנימיים משל עצמם, ולעתים גם סיסמאות גישה.סיבה נוספת לחוסר הנגישות היא תוכן או ממשקים לא-ידידותיים למנועי חיפוש, מנגנוני אבטחה (סיסמאות), קבצים בלתי קריאים (תמונות), חוסר בקישורים, ייצור של דפים דינמיים ועוד.

איך בכל זאת מחלצים מידע מהרשת העמוקה?

צריך להשתמש במנועי חיפוש מתוחכמים יותר, כגון Google Scholar למשל. זהו מנוע מיוחד לאיתור חומר אקדמי, שלא תמיד נגיש למנוע החיפוש הרגיל של גוגל. מנוע חיפוש "עמוק" נוסף לדוגמה, הוא לקסיס-נקסיס, המאתר ומאחזר מידע עסקי-פיננסי. כמו כן קיימים אתרים המוקדשים לנושא הרשת הבלתי נראית, כגון BrightPlanet.com או DeepWebTech.com, בהם ניתן ללמוד יותר אודות התחום המרתק הזה.

גם לגוגל יש "אג'נדת Deep Web", בניהולו של אלון הלוי – פרופ' לשעבר למדעי המחשב באוניברסיטת וושינגטון. בין יתר עיסוקיה של המחלקה (מידע מובנה, כריית מידע, אחזור מידע), ניתן למצוא גם טכניקות חיפוש ברשת הבלתי נראית.

כאשר גוגל נתקל במקור בלתי-נגיש (בדרך-כלל מסד נתונים), הוא שולח בוט לניתוח המבנה שלו. הבוט שולח שאילתות אקראיות למסד הנתונים, בנושא בו הוא עוסק. ברגע שאחת השאילתות מחזירה תשובה מהמסד, המנוע מנתח את הנתונים ויוצר מודל החוזה את תכולתו של מסד הנתונים. שיטה נוספת של גוגל היא שימוש בחיפוש הסמנטי המפורסם. למרות זאת, הלוי הודה ב-2009 שלגוגל יש בעיה בסריקת מבני-נתונים (או בעברית: הרשת העמוקה).

דרך נוספת לגלוש בעולם הנסתר של הרשת העמוקה, היא להשתמש במערכת TOR (או בשמה המלא The Onion Routing, "ניתוב בצל"). הגלישה מתבצעת דרך המערכת ולא דרך דפדפן רגיל, באמצעות "קפיצה" מוצפנת משרת אחד לשרת אחר. בסופו של דבר הגולש מגיע ליעד שלו, בלי שכתובת ה-IP שלו נחשפת. מכיוון שהרבה תכנים ברשת הבלתי נראית מוסווים באמצעות רשת TOR, השימוש בה מאפשר גישה לתכנים אלו. דרכי-גישה נוספות: אתרי ממשלה, מאגרי מידע (לקסיס-נקסיס שכבר הוזכר למעלה), Hidden Wiki ועוד.

אם כך נשאלת השאלה: מה ערכם של מנועי החיפוש, אם הם מצליחים להגיע רק לאחוזים בודדים מהמידע ברשת? התשובה היא פרקטית: עדיף מנוע חיפוש המגיע לאחוזים בודדים מהמידע, מאשר אחד שאינו מגיע לשום מקור מידע.

תשובה נוספת קשורה לכך שיכולותיו של גוגל משתפרות והולכות, ופרויקט ה-Deep Web של החברה הוא עדות לכך. אומנם זה אינו מכסה את כל הרשת הבלתי-נראית, אלא אחוזים בודדים ממנה, אבל יש לצפות שמתישהו בעתיד היכולות בנושא זה ישתפרו פלאים. ככל שיכולות הזחילה, האיתור והאחזור משתפרות, וככל שאתרים ורשתות הופכים יותר נגישים לאינטרנט,כך נחשפת והולכת הרשת הבלתי נראית.
Share on Facebook
Share On LinkedIn
Share by Email