Опубликовано: 22 мая 2025 г.
ИИ преобразует то, как веб-разработчики создают веб-сайты и веб-приложения. На Google I/O 2025 мы поделились тем, над чем работали в течение последнего года, продемонстрировали, как наши партнеры используют ИИ в Интернете, и анонсировали новые встроенные API ИИ .
Вы пропустили мероприятие? Хорошие новости: теперь вы можете смотреть выступления по запросу!
Практичный встроенный ИИ с Gemini Nano в Chrome
Наша основная миссия — сделать Chrome и веб умнее для всех разработчиков и всех пользователей. В этом выступлении Томас Штайнер делится обновлениями встроенного ИИ , практическими примерами использования и взглядом на наше будущее.
Встроенный ИИ запускает клиентские модели в браузере, что имеет ряд преимуществ:
- Конфиденциально : конфиденциальные данные пользователя остаются на устройстве, и нет необходимости покидать браузер.
- Офлайн : приложения могут получать доступ к возможностям ИИ даже без подключения к Интернету.
- Производительность : благодаря аппаратному ускорению эти API обеспечивают превосходную производительность.
Ознакомьтесь с примерами кода для каждого из встроенных API ИИ , получите обновленную информацию об их статусе и узнайте, какие компании внедряют эту технологию.
Мультимодальные API
Мы работаем над совершенно новыми мультимодальными API . Это значит, что вы можете спросить Gemini Nano о том, что он «видит» в визуальном контенте или «слышит» в аудиоконтенте. Например, получить предложения по альтернативному тексту для загруженных изображений на платформе блога, которые пользователи могут улучшить и подправить. Или вы можете попросить Gemini Nano написать описания или транскрипции для подкастов.
Гибридный ИИ
Одной из проблем, с которой сталкиваются разработчики клиентского ИИ, является то, что не все платформы и браузеры соответствуют требованиям к оборудованию для запуска модели на устройстве. Gemini и Firebase объединились для создания Firebase Web SDK , чтобы в случае отсутствия клиентских реализаций можно было вернуться к Gemini Nano на сервере.
Работаем с вами
Мы так рады, что работали со столькими разработчиками над встроенными API ИИ. Наши усилия невозможны без вас.
- Программа раннего ознакомления : к EPP присоединились более 16 000 разработчиков, которые тестируют новые API, открывают новые варианты использования и предоставляют обратную связь для создания лучшего ИИ для Интернета.
- Хакатоны : Мы провели два хакатона, и вы создали несколько невероятных веб-сайтов и расширений .
Ваша работа не закончена. Продолжайте делиться своими отзывами, тестировать новые встроенные API, и мы продолжим итерацию. Вы даже можете помочь стандартизировать эти API, присоединившись к группе сообщества W3C Web Machine Learning .
Будущее расширений Chrome с Gemini в вашем браузере
Количество расширений на базе ИИ удвоилось за последние два года. Фактически, 10% всех расширений, установленных из Chrome Web Store, используют ИИ. В этом докладе Себастьян Бенц приводит практические примеры того, почему расширения Chrome и Gemini являются такой мощной комбинацией.
Примеры включают в себя то, как можно сделать браузер более полезным, извлекая и обрабатывая данные с веб-сайтов на клиентском компьютере с помощью недавно запущенного API-интерфейса Chrome.
Демонстрация потенциала новых мультимодальных возможностей API Chrome в расширениях Chrome позволяет сделать аудио и изображения более доступными для пользователей.
Заглянуть в будущее браузера, объяснив, как проект Mariner от Google DeepMind использует расширения Chrome и новейшие API Gemini Cloud для создания полноценного браузерного агента.
Изучите потенциал использования Gemini в облаке или в браузере в расширениях Chrome, чтобы создать новые возможности просмотра и сделать браузер более полезным.
Примеры и стратегии использования веб-ИИ в реальном мире
Юрико Хирота и Света Гопалакришнан привели реальные примеры компаний, использующих ИИ в Интернете для улучшения своего бизнеса и пользовательского опыта. Независимо от того, использует ли их решение клиентские модели, серверные модели или гибридное решение, важны новые захватывающие функции и возможности, которые вы предоставляете своим пользователям прямо сейчас.
BILIBILI сделал свои видеопотоки более интересными с помощью новой функции: комментариев на экране-буллете . Они предлагают комментарии пользователей в реальном времени в видео, визуализированные позади говорящего. Для этого они используют сегментацию изображений, хорошо понятную концепцию машинного обучения. В результате продолжительность сеанса увеличилась на 30%! Tokopedia уменьшила трение в процессе проверки продавца, используя модель распознавания лиц для оценки качества загружаемых фотографий. В результате они сократили ручное одобрение почти на 70%.
Vision Nanny, веб-платформа для детей с церебральным нарушением зрения (CVI), предоставляет упражнения на стимуляцию зрения с использованием искусственного интеллекта. Они используют несколько библиотек MediaPipe, включая модель обнаружения ориентиров рук, которая определяет ключевые точки рук на изображении, видео или в режиме реального времени. Пилотный проект с 50 детьми продемонстрировал, что Vision Nanny выдает ответы в 5 раз быстрее, чем упражнения на ручную стимуляцию зрения. Терапевты сообщили об экономии в среднем трех часов за сеанс за счет отказа от ручной настройки.
Google Meet имеет несколько функций, реализованных с помощью ИИ, от улучшения освещения до уменьшения размытости и нечеткости видео. Самая большая проблема заключается в том, что эти функции должны работать в режиме реального времени. Вот где вступает в дело WebAssembly (Wasm) , чтобы задействовать всю мощь процессора компьютера и обеспечить обработку видео в реальном времени.
Это всего лишь несколько реальных примеров ИИ, происходящих в сети. Несколько других компаний экспериментировали со встроенными API ИИ, некоторые из которых поделились своей работой в тематических исследованиях .
Клиентские веб-агенты ИИ для создания более интеллектуального пользовательского опыта в будущем
Джейсон Мейес прошелся по будущему Интернета: Агенты веб-ИИ. У Интернета есть агентское будущее, приносящее возможности ИИ непосредственно в браузер, чтобы выполнять полезную работу от вашего имени, выходя за рамки возможностей больших языковых моделей (LLM).
При подходе на стороне клиента повышается конфиденциальность, сокращается задержка и потенциально значительная экономия средств. Агенты позволяют вам модернизировать существующий веб-сайт, выполнять задачи автономно для пользователя, динамически выбирая и используя открытые инструменты — потенциально в цикле — что позволяет агенту выполнять потенциально сложные или многоэтапные задачи.
Агенты могут:
- Планируйте и разделяйте подзадачи , решая более сложные проблемы с помощью многошагового планирования, чтобы разбить задачу на логические шаги для ее выполнения.
- Выберите лучшие инструменты , будь то функции, использование API или доступ к хранилищу данных для базовых знаний модели дополненного языка, а затем выполните действия во внешнем мире.
- Сохраняйте контекстно-ориентированную память , основанную на предыдущих выходах агента или внешних инструментов. Кратковременная память действует как буфер FIFO контекстной истории вплоть до размера контекстного окна модели, в отличие от долговременной памяти, где векторная база данных может использоваться для хранения информации, которую можно вызывать по мере необходимости из предыдущих сеансов разговора или других источников данных.
Агенты Web AI предназначены для интеграции в существующие веб-технологии в JavaScript. В конечном счете, важно, чтобы мы продолжали ускорять наше оборудование для наилучшего запуска моделей в браузере. Заглядывая в будущее, можно сказать, что такие технологии, как WebNN, будут играть ключевую роль в оптимизации выполнения моделей на CPU, GPU и NPU. С тенденцией к уменьшению LLM и постоянным развитием, это будет только становиться все более мощным в будущем.
Рассмотрите возможность использования гибридного подхода, сочетающего обработку на устройстве со стратегическими облачными вызовами, чтобы вы могли создавать интеллектуальные, отзывчивые и персонализированные пользовательские интерфейсы в браузере прямо сейчас. Вскоре ваши инвестиции в подход Web AI должны окупиться, поскольку устройства станут более способными выполнять LLM.
Узнайте о Google I/O 2025
Мы опубликовали все доклады для Google I/O 2025, с плейлистом, посвященным веб-разработчикам . Смотрите еще больше на io.google/2025 .