.

גוגל ואלגוריתם התוכן החדש

01.01.0001

האלגוריתמים של גוגל משתכלל חדשות לבקרים חלק משמעותי ממנו עוסק מין הסתם בהבנת התוכן המצוי ברשת ובניתוחו. בחמש השנים האחרונות עברה גוגל מהפכה של ממש בצעדיה להפוך את האינטליגנציה המלאכותית לבעלת יכולת ניתוח המתקרבת לזו של הבינה האנושית.עכשיו זה נראה קרוב מתמיד!


חלק מציוני הדרך שזוקף לזכותו גוגל לאחרונה כוללים זיהוי מגוון מרשים של שפות חדשות (נכון לרגע זה 170 שפות) וכן יכולת לתרגם לגולש אתרים בלחיצת כפתור ל- 51 שפות .


ואם עד כה נשמעו ההישגים פושרים משהו, עכשיו נותר למעשה להתפעל מהדבר האמיתי
שיא חדש שמציגה גוגל שנראה כמו פסגת הביצועים שמחשב ,רובוט מסוגל לעשות. ולחידושים אולו יש ויהיו ללא ספק, השלכות מרחיקות הלכת על קידום אתרים באינטרנט.



אלגוריתם משוכלל לניתוח תוכן באינטרנט


אז אחרי שגוגל גילה יכולת מרשימה בהבנת שפות, מסתבר שעכשיו ממש לאחרונה מתגאה גוגל ביכולת מרשימה לנתח מילים נרדפות.


כרגע,כל אחד מכם במיוחד עם הוא מקדם אתרים לא ממש מבין מה המהפך, מדוע בחר סטיבן בייקר,מהנדס בכיר בגוגל להפליא בתיאור ביצועים אלו בפוסט שלו מיום 19.1.10.


אז לטובת ציבור המפקפקים ובעיקר למקדמי אתרים צמאי חידושי אלגוריתם,להלן קצת נתונים מרשימים שהשלכותיהם כאמור על קידום אתרים באינטרנט רבות ומרחיקות לכת.


מה מנתח האלגוריתם החדש


האלגוריתם החדש של גוגל מגלה יכולת "חשיבה" הדומה לדרך בה אנו עושים ניתוח סמנטי למילה או לביטוי. יכולת זיהוי איכותית זו באה לידי ביטוי במקרים הבאים:


  1. בצורה ה"בסיסית" ביותר גוגל מבין ומזהה את הקשר בין מילים נרדפות.למשל photos ו pictures. לכאורה דוגמא זו נראית פשוטה ומובנת ,פעולה אוטומטית שעושה המוח האנושי מתוך סט המידע שלו על העולם .מה שאין לשכוח שמדובר ביכולת שפיתח מחשב ,יכולת למצוא קשר בין שתי מילים שונות מאוד. גם השיטה בה נעזר האלגוריתם דומה לדרך בה מנתח האדם מילים .כשם שאדם משתמש בהיסטוריית הידע שצבר בתחום השפה במשולב עם הכרותו את העולם כך משתמש גוגל ב 1024 טרה בייטס ( petabytes) של מסמכים ברשת והיסטוריות חיפוש על מנת להקיש את המידע הנ"ל.
  2. מרשימה עוד יותר היא היכולת של גוגל להבין ביטויי זנב ארוך .שכן בהם יש צורך לפענח סט שלם של מילים ובעיקר את הקונטקסט שלהם. לעיתים המשמעות נשמרת ואז נראה למשל בתוצאות החיפוש של: " pictures developed with coffee" תוצאות המכילות גם " Photos Developed With Coffee ". היכולת לזזהות משמעות דומה מהווה ציון דרך שכן אין כאן צעד פשוט של לקיחת תבנית משפטית כמו שהיא אלה הבחנה בהיגיון שמאחורי התוכן.  למשל תוצאות לחיפוש ל: "history of motion pictures" לא תציג גם תוצאות עבור: " history of motion photos ". גוגל אם כן מציג יכולת גבוהה להבין קונטקסט.
  3. לר אשונה ניתן לראות ביטויים מסוימים שמקבלים ריבוי משמעויות, כאשר גוגל מצליח להבין את ההקשר בעבור כל הקשר חיפוש. לדוגמא לביטוי "GM" יתקבלו תוצאות שונות כשמדובר בחיפוש מכוניות (General Motors),כשמדובר בלימודים או בחיפוש תלוי איזור (George Mason university ) או להבדיל- general manager .חלק מהטכניקות בהן גוגל מזהה אילו תוצאות להציג כרלוונטיות ואלו לא קשור בהיקש שהוא עושה מהסטוריית החיפוש או מחיפוש תלוי מקום (בחיפוש הסלולארי).
  4. נתון מרשים נוסף היא היכולת של האלגוריתם של גוגל לזהות מילים נרדפות בצורה של " יחיד" "רבים" מבלי ליפול לתבניות אוטומטיות. ניקח לדוגמא את המעבר של מילים רבות מיחיד לרבים בשפה האנגלית בזכות האות S .לכאורה גוגל יכול בצורה פשוטה להקיש לגבי כל מילה שמסתיימת בתוספת  האות S שמדובר בלשון "רבים" אך לא כך הוא המצב. בפועל מגלה גוגל יכולת הבנה מורכבת בהרבה והדבר בולט במיקרים בהם משתנה משמעות י . לדוגמ א: arm reduction לעומת - arms reduction (הורדת שומן מהזרוע לעומת... פרוק התחמשות נשק) - גוגל לא מתפתה ומבין שמדובר בהקשרים שונים לחלוטין.
  5. החדשנות שהאלגוריתם החדש של גוגל מציג מאפשרת לו לזהות מילים הנגזרות מאותו שורש כמילים קשורות, למשל "ספר" "ספרי" . אך גם כאן מוכיח גוגל כי אינו מתנהג כמו "מכונה" פשוטה המזהה תבניות אלה מזהה משמעויות שאינם רלוונטיות ולא מציג אותן למרות האטימולוגיה הדומה למשל : animal לעומת animation. שינוי באופן הצגת התוצאות
    המהפך של גוגל בזיהוי מילים נרדפות,יחיד רבים וביטויים זהים בא לידי ביטוי גם באופן הצגתן של תוצאות החיפוש- אם בעבר הציגה גוגל בתוצאות החיפוש שלה הדגשה רק להטיה של מילה או זיהוי של יחיד רבים של מילת החיפוש נצפה למצוא היום ב Title וגם ב Description הדגשה של מילים נרדפות שיעזרו לגולש להבין מדוע בחרה גוגל להציג תוצאה זו או אחרת לביטוי שלא בהכרח תואם את המילה שהקיש בתיבת החיפוש. כמובן שהדגשה שכזאת תבוא במקרה שההקשר יתאים למילה אותה חיפש הגולש.כלומר כתלות בביטוי החיפוש.


 

גוגל ארצנו הקטנטונת


"עברית שפה קשה" וגוגל ,למרות רצונו הטוב טרם תפס אותה כפי שאליעזר בן יהודה היה ממליץ .


בינתיים התרגום של גוגל לעברית עדיין לא מוצלח וכפועל יוצא גם הבנתו מילים נרדפות מוגבלת.לפיכך מי שעושה קידום אתרים בגוגל עברית עדיין לא צריך להסתגל בזריזות אך בהחלט אין ספק שהשינוי יגיע. בינתים כדאי לעשות התאמות לתוכן כדי השלב קידום אתרים עדכני.