תאריך פרסום: 22 במאי 2025
טכנולוגיית ה-AI משנה את האופן שבו מפתחי אתרים יוצרים אתרים ואפליקציות אינטרנט. ב-Google I/O 2025 סיפרנו על הדברים שעליהם עבדנו במהלך השנה האחרונה, הדגמנו איך השותפים שלנו משתמשים בבינה מלאכותית באינטרנט והכרזנו על ממשקי API מובנים חדשים של AI.
פספסתם את האירוע? חדשות טובות: עכשיו אפשר לצפות בהרצאות על פי דרישה!
AI מובנה שימושי עם Gemini Nano ב-Chrome
המשימה העיקרית שלנו היא להפוך את Chrome ואת האינטרנט לחכמים יותר לכל המפתחים וכל המשתמשים. בהרצאה הזו, תומס שטיינר משתף עדכונים לגבי AI מובנה, תרחישים מעשיים לדוגמה ותובנות לגבי העתיד.
AI מובנה מפעיל מודלים בצד הלקוח בדפדפן, ויש לכך כמה יתרונות:
- פרטי: נתונים רגישים של משתמשים נשארים במכשיר, ואף פעם לא יוצאים מהדפדפן.
- אופליין: אפליקציות יכולות לגשת ליכולות ה-AI גם בלי חיבור לאינטרנט.
- ביצועים מעולים: בזכות האצת החומרה, ממשקי ה-API האלה מספקים ביצועים מעולים.
כדאי לעיין בדוגמאות הקוד לכל אחד מממשקי ה-API המובנים של AI, לקבל עדכון לגבי הסטטוס שלהם ולראות אילו חברות מטמיעות את הטכנולוגיה הזו.
ממשקי API מרובת-מודלים
אנחנו עובדים על ממשקי API חדשים לגמרי עם תמיכה במגוון מודלים. כלומר, אתם יכולים לשאול את Gemini Nano מה הוא "רואה" בתוכן חזותי או מה הוא "שומע" בתוכן אודיו. לדוגמה, הצעות לטקסט חלופי לתמונות שהועלו בפלטפורמת בלוג, שהמשתמשים יכולים לשפר ולשנות. אפשר גם לבקש מ-Gemini Nano לכתוב תיאורים או תמלילים של פודקאסטים.
AI היברידי
אחד האתגרים שמפתחים נתקלים בהם כשהם משתמשים בבינה מלאכותית מצד הלקוח הוא שלא כל הפלטפורמות והדפדפנים עומדים בדרישות החומרה להפעלת מודל במכשיר. שותפות בין Gemini ל-Firebase יצרה את Firebase Web SDK, כדי שתוכלו להשתמש ב-Gemini Nano בשרת במקרה שהטמעות בצד הלקוח לא זמינות.
עבודה איתכם
אנחנו שמחים מאוד שעבדנו עם כל כך הרבה מפתחים על ממשקי API מובנים של AI. אנחנו לא יכולים לעשות את זה בלי התמיכה שלך.
- תוכנית 'תצוגה מקדימה מוקדמת': יותר מ-16,000 מפתחים הצטרפו ל-EPP, ובודקים ממשקי API חדשים, מגלים תרחישים חדשים לשימוש ומספקים משוב כדי לפתח טכנולוגיית AI טובה יותר לאינטרנט.
- האקתונים: ערכנו שני האקתונים, ואתם יצרתם אתרים ותוספים מדהימים.
העבודה שלכם לא הסתיימה. אנחנו ממשיכים לקבל מכם משוב ולבדוק את ממשקי ה-API המובנים החדשים, ונמשיך לשפר אותם. אתם יכולים גם לעזור לנו לסטנדרטיזציה של ממשקי ה-API האלה על ידי הצטרפות לקבוצת הקהילה של למידת מכונה באינטרנט של W3C.
העתיד של תוספים ל-Chrome עם Gemini בדפדפן
מספר התוספים שמבוססים על AI הוכפל בשנתיים האחרונות. למעשה, 10% מכל התוספים שהותקנו מחנות האינטרנט של Chrome משתמשים ב-AI. בסרטון הזה, סבסטיאן בנץ (Sebastian Benz) מציג דוגמאות מעשיות שממחישות למה תוספים ל-Chrome ו-Gemini הם שילוב כה יעיל.
הדוגמאות נעות בין דרכים לשיפור הדפדפן על ידי חילוץ ועיבוד נתונים מאתרים בלקוח באמצעות ה-Prompt API החדש של Chrome, לבין דרכים לשיפור השירות של Chrome לעסקים.
הדגמה של הפוטנציאל של היכולות המולטי-מודאליות החדשות של ממשק ה-API של Chrome להנחיות בתוספים ל-Chrome, כדי להפוך את האודיו והתמונות לנגישים יותר למשתמשים.
כדי להציג את עתיד הגלישה, נסביר איך Project Mariner של Google DeepMind משתמש בתוספים של Chrome ובממשקי ה-API העדכניים ביותר של Gemini Cloud כדי ליצור סוכן דפדפן מלא.
כדאי לבדוק את הפוטנציאל של Gemini בענן או בדפדפן בתוספים של Chrome כדי ליצור חוויות גלישה חדשות ולהפוך את הדפדפן לשימושי יותר.
אסטרטגיות ותרחישי שימוש ב-AI לאינטרנט בעולם האמיתי
יוריקו הירוטה (Yuriko Hirota) וסוותה גופאלקרישנהן (Swetha Gopalakrishnan) הציגו דוגמאות מהעולם האמיתי לחברות שמשתמשות ב-AI באינטרנט כדי לשפר את העסק וחוויית המשתמש.בין אם הפתרון שלהן משתמש במודלים בצד הלקוח, בצד השרת או בפתרון היברידי, מה שחשוב הוא הפונקציות והתכונות החדשות והמרתקות שאפשר להציע למשתמשים כבר עכשיו.
ב-BILIBILI הוסיפו תכונה חדשה לשידורי הווידאו שלהם כדי למשוך יותר צופים: תגובות עם סמלי כוכב. הם מציעים תגובות של משתמשים בזמן אמת בסרטון, שמופיעות מאחורי הדובר. לשם כך, הם משתמשים בפילוח תמונות, קונספט מוכר של למידת מכונה. כתוצאה מכך, משך הסשן עלה ב-30%. ב-Tokopedia צמצמו את החיכוך בתהליך אימות המוכרים באמצעות מודל לזיהוי פנים, כדי להעריך את איכות התמונות שהועלו. כתוצאה מכך, החברה הצליחה לצמצם את מספר האישורים הידניים ב-70%.
Vision Nanny היא פלטפורמת אינטרנט לילדים עם לקות ראייה מוחית (CVI), שמספקת פעילויות גירוי ראייה מבוססות-AI. הם משתמשים במספר ספריות של MediaPipe, כולל מודל זיהוי נקודות ציון ביד, שמאתר נקודות מפתח בידיים בתמונה, בסרטון או בזמן אמת. במסגרת תוכנית פיילוט עם 50 ילדים, הוכח ש-Vision Nanny מספקת תשובות פי 5 מהר יותר מפעילויות של גירוי חזותי ידני. פסיכולוגים דיווחו על חיסכון של שלוש שעות בממוצע בכל סשן, הודות להסרת ההגדרה הידנית.
ב-Google Meet יש כמה תכונות שמבוססות על AI, החל משיפור התאורה ועד לצמצום טשטוש וסרטונים מטושטשים. האתגר הגדול ביותר הוא שהתכונות האלה צריכות לפעול בזמן אמת. כאן נכנס לתמונה WebAssembly (Wasm), שמאפשר לכם לנצל את מלוא העוצמה של מעבד המחשב ולעבד וידאו בזמן אמת.
אלה רק כמה דוגמאות לשימוש ב-AI בעולם האמיתי באינטרנט. כמה חברות אחרות ניסו את ממשקי ה-API המובנים של AI, וחלקן שיתפו את העבודה שלהן במקרים לדוגמה.
סוכני AI בצד הלקוח באינטרנט ליצירת חוויות משתמש חכמות יותר בעתיד
ג'ייסון מייס (Jason Mayes) דיבר על העתיד של האינטרנט: סוכני AI לאינטרנט. לאינטרנט יש עתיד של סוכנות, שמביא יכולות של AI ישירות לדפדפן כדי לבצע עבודה מועילה בשמכם, מעבר ליכולות של מודלים גדולים של שפה (LLM).
גישה בצד הלקוח מאפשרת לשפר את הפרטיות, לצמצם את זמן האחזור ולחסוך בעלויות באופן משמעותי. באמצעות סוכנים תוכלו לשדרג את האתר הקיים, לבצע משימות באופן אוטונומי עבור משתמש, לבחור באופן דינמי כלים חשופים ולהשתמש בהם – אולי בלולאה – וכך לאפשר לסוכנים להשלים משימות מורכבות או משימות עם כמה שלבים.
סוכני תמיכה יכולים:
- תכנון חלוקה של משימות משנה, טיפול בבעיות מורכבות יותר באמצעות תכנון של כמה שלבים כדי לפרק את המשימה לשלבים לוגיים לביצוע.
- בחירת הכלים הטובים ביותר, בין אם מדובר בפונקציות, בשימוש ב-API או בגישה למאגר הנתונים של מודל השפה המורחב, כדי לבצע פעולות בעולם החיצוני.
- שמירה של זיכרון מבוסס-הקשר, על סמך תוצאות קודמות מהסוכן או מכלי חיצוניים. הזיכרון לטווח קצר פועל כמו מאגר FIFO של היסטוריית ההקשר, עד לגודל חלון ההקשר של המודל. לעומת זאת, הזיכרון לטווח ארוך מאפשר להשתמש במסד נתונים של וקטורים כדי לאחסן מידע שאפשר לשחזר לפי הצורך מתוך סשנים קודמים של שיחות או ממקורות נתונים אחרים לגמרי.
סוכני AI לאינטרנט מיועדים לשילוב בטכנולוגיות אינטרנט קיימות ב-JavaScript. בסופו של דבר, חשוב שנמשיך לשפר את החומרה כדי להריץ מודלים בצורה הטובה ביותר בדפדפן. בעתיד, טכנולוגיות כמו WebNN ישחקו תפקיד מרכזי באופטימיזציה של ביצוע המודלים במעבדי CPU, GPU ו-NPU. עם המגמה למודלים קטנים יותר של LLM וההתקדמות המתמשכת, היכולת הזו רק תשתפר בעתיד.
כדאי להשתמש בגישה היברידית, שמשלבת עיבוד במכשיר עם קריאות אסטרטגיות לענן, כדי ליצור חוויית משתמש חכמה, תגובה ומהירה בהתאמה אישית בדפדפן כבר עכשיו. בקרוב, ההחזר על ההשקעה בגישה של AI לאינטרנט ישתלם, כי המכשירים יהיו מסוגלים להריץ מודלים LLM טובים יותר.
עדכונים על Google I/O 2025
פרסמנו את כל ההרצאות מ-Google I/O 2025, עם פלייליסט ייעודי למפתחי אתרים. תוכלו לצפות בעוד הרצאות באתר io.google/2025.