Verbesserungen bei Gemini Nano: Bessere Zusammenfassungen mit LoRA

Veröffentlicht: 21. Mai 2025

Die Zusammenfassung ist eine der häufigsten und wichtigsten KI-Aufgaben mit Large Language Models (LLMs). Zusammenfassungen sind ein wichtiges Mittel, um umfangreiche Inhalte schnell zu verstehen – von langen Artikeln und dichten Chatprotokollen bis hin zu zahlreichen Rezensionen. So sparen Sie Zeit, steigern die Produktivität und ermöglichen schnellere, fundiertere Entscheidungen.

Es gibt viele verschiedene Arten von Zusammenfassungen mit unterschiedlichen Detailebenen und Formatierungsanforderungen. Um die Erwartungen an die verschiedenen Zusammenfassungstypen zu erfüllen, hat Chrome in Zusammenarbeit mit Google Cloud die Ausgabe von Gemini Nano verbessert.

Wir haben Gemini Nano mit LoRA (Low Rank Adaptation) optimiert, um die Nutzerfreundlichkeit und Ausgabequalität für alle Zusammenfassungsstile und -längen zu verbessern. Außerdem haben wir automatische und automatisierte Bewertungen für verschiedene Aspekte der Qualität von Zusammenfassungen implementiert, darunter Faktentreue, Abdeckung, Format und Lesbarkeit.

Wir haben visualisiert, wie dieser Unterschied in der Praxis aussieht. Sie können mit dieser Implementierung experimentieren und sich eine Echtzeitdemo ansehen, in der die Ausgabe von Gemini Nano und Gemini Nano mit LoRA verglichen wird.

Was ist die Summarizer API?

Erklärvideo Web Erweiterungen Chrome-Status Absicht
MDN Hinter einer Flagge Chrome 138 Beta Hinter einer Flagge Chrome 138 Beta Ansicht Versandabsicht

Die Summarizer API fasst lange Textinhalte in kurze, leicht verständliche Zusammenfassungen zusammen. Die API ist in Chrome integriert und verwendet Gemini Nano für die Inferenz.

Für verschiedene Websites sind Zusammenfassungen in verschiedenen Stilen und Längen erforderlich. Wenn Sie beispielsweise eine Nachrichtenwebsite haben, können Sie in Ihren Artikeln eine Aufzählung der wichtigsten Punkte anbieten. Alternativ könnten Nutzer, die sich Produktrezensionen ansehen, von einer kurzen Zusammenfassung des Rezensionssentiments profitieren. Zur Veranschaulichung haben wir die Wikipedia-Seite zu Welsh Corgis mit einer Länge von short zusammengefasst.

Zusammenfassungstyp Ausgabe
headline ## Welsh Corgi: Eine Geschichte von Königen und Hütehunden
key-points * Der Welsh Corgi ist ein kleiner Hütehund, der aus Wales stammt.
* Es gibt zwei Hauptrassen: Pembroke und Cardigan Welsh Corgi.
* Der Pembroke ist beliebter und wird mit der britischen Königsfamilie in Verbindung gebracht.
tldr Der Welsh Corgi ist ein kleiner Hütehund mit einer langen Geschichte in Wales und der britischen Königsfamilie. Er gibt es in zwei Varianten: Pembroke und Cardigan. Beide sind für ihr fuchsähnliches Gesicht, ihre kurzen Beine und ihre Hüteinstinkte bekannt.
teaser Entdecken Sie die Geschichte des Welsh Corgi, von seinen bescheidenen Anfängen als Hütehund für walisische Bauern bis hin zu seinem Aufstieg als Symbol der britischen Königsfamilie.

Mit dem Summarizer API Playground können Sie mit anderen Seiten experimentieren.

Mit Feinabstimmung experimentieren

Die Feinabstimmung ist ab Version 138.0.7180.0 nur als Flag in Chrome Canary verfügbar. So verwenden Sie dieses Modell:

  1. Öffnen Sie Chrome Canary.
  2. Zu chrome://flags/#summarization-api-for-gemini-nano
  3. Wählen Sie Mit Anpassung aktiviert aus.
  4. Starte den Browser neu.
  5. Öffnen Sie die Console der Entwicklertools und geben Sie Summarizer.availability() ein. Dadurch wird der Download der zusätzlichen LoRA-Datei gestartet.

Sobald der Download abgeschlossen ist, können Sie mit dem Testen beginnen.

Leistung des Zusammenfassungstools bewerten

Wir haben die Leistungssteigerung der optimierten Gemini Nano-Version hauptsächlich mit zwei Bewertungsmethoden gemessen: automatisch und Autorater. Durch die Feinabstimmung kann ein Modell bestimmte Aufgaben besser ausführen, z. B.:

  • Medizinische Texte besser übersetzen.
  • Bilder in einem bestimmten Kunststil erstellen
  • Neue Slangbegriffe verstehen

In diesem Fall wollten wir die Erwartungen an die einzelnen Zusammenfassungstypen besser erfüllen.

Automatische Bewertung

Bei der automatischen Bewertung wird die Ausgabequalität eines Modells mithilfe von Software beurteilt. Mit dieser Methode haben wir nach Formatierungsfehlern, Satzwiederholungen und nicht englischsprachigen Zeichen in Zusammenfassungen englischsprachiger Eingaben gesucht.

  • Formatierungsfehler: Wir prüfen, ob die Zusammenfassungsantworten der Formatierungsanleitung des Prompts entsprechen. Beim Stil für kurze Stichpunkte wird beispielsweise geprüft, ob jeder Aufzählungspunkt mit einem Sternchen (*) beginnt und ob die Anzahl der Aufzählungspunkte drei nicht überschreitet.

  • Wiederholung von Sätzen: Wir prüfen, ob sich in einer Antwort mit Zusammenfassung derselbe Satz wiederholt, da dies auf eine schlechte Qualität der Antwort hinweist.

  • Nicht englischsprachige Zeichen: Wir prüfen, ob die Antwort nicht englischsprachige Zeichen enthält, wenn die Eingabe auf Englisch sein soll.

  • Hyperlink in der Ausgabe: Wir prüfen, ob die Antwort Hyperlinks im Markdown-Format oder im Nur-Text-Format enthält, die nicht in der Eingabe vorhanden sind.

Wir haben zwei Arten von Eingaben bewertet: gescrappte Artikel und Chatprotokolle.

  Anzeigentitel TLDR Wichtige Punkte Teaser
  Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA
Formatfehler 13,54% / 7,05% 41,07% / 4,61% 12,58% / 6,36% 51,17% / 6,74%
Satzwiederholung 0,07% / 0,07% 0,21% / 0,0% 0,10% / 0,10% 0,10% / 0,03%
Fehler in anderen Sprachen als Englisch 3,95% / 0,03% 1,38% / 0,0% 2,41% / 0,03% 1,44% / 0,0%
Hyperlinks 0,07% / 0,0% 0,14% / 0,0% 0,14% / 0,0% 0,34% / 0,0%
Automatische Bewertung von 970 Artikeln verschiedener Zusammenfassungstypen.
  Headline TLDR Wichtige Punkte Teaser
  Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA
Formatfehler 13,17% / 0,24% 22,92% / 0,18% 4,43% / 0,09% 29,64% / 3,51%
Satzwiederholung 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,03% / 0,0%
Fehler in einer anderen Sprache als Englisch 0,15% / 0,0% 0,15% / 0,0% 0,03% / 0,0% 0,06% / 0,0%
Hyperlinks 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0%
Automatische Bewertung von 1.091 Chateintragsbeispielen.

Nach der Optimierung von Gemini Nano konnten wir die Formatfehlerrate bei verschiedenen Zusammenfassungstypen deutlich senken, sowohl bei Artikeln als auch bei Chatprotokollen.

Autorater-Bewertung

Wir haben Gemini 1.5 Pro für die Autorater-Bewertung verwendet, um die Ausgabequalität von Gemini Nano zu beurteilen. Da jede Zusammenfassung einen anderen Zweck hat, unterscheiden sich die Kriterien und der Wert der Kriterien für die verschiedenen Zusammenfassungstypen. Alle Zusammenfassungstypen wurden auf Folgendes geprüft:

  • Abdeckung: Erfasst die Zusammenfassung den wesentlichen Zweck der Eingabe korrekt?
  • Faktizität: Entspricht die Zusammenfassung der Wahrheit? Enthält die Zusammenfassung neue Informationen, die im Text nicht ausdrücklich erwähnt oder angedeutet wurden?
  • Format: Ist die Zusammenfassung mit gültiger Markdown-Syntax formatiert? Wird in der Zusammenfassung die maximale Satzlänge eingehalten, wie gefordert?
  • Klarheit: Ist die Zusammenfassung repetitiv? Vermittelt die Zusammenfassung die Kernbotschaft mit möglichst wenigen Worten?

Da diese Zusammenfassungstypen unterschiedliche Zwecke haben, gelten für bestimmte Zusammenfassungstypen zusätzliche Messwerte:

  • Interaktion: (headline): Ist die Zusammenfassung für eine allgemeine Zielgruppe sofort verständlich? Ist der Ton der Zusammenfassung ansprechend und für eine allgemeine Zielgruppe geeignet?
  • Prägnanz (tldr): Ist die Zusammenfassung klar, prägnant und sofort verständlich für Personen mit einer sehr kurzen Aufmerksamkeitsspanne? Wird die Kernbotschaft effektiv in einer leicht verdaulichen Form für eine schnelle Lektüre zusammengefasst?
  • Anreiz (teaser): Erweckt die Zusammenfassung effektiv Neugier und regt den Leser dazu an, den vollständigen Text zu lesen? Wird eine ansprechende Sprache verwendet, die auf interessante Inhalte hindeutet?

Wir haben die Ausgabe des Basismodells und des Modells mit LoRA mithilfe des Autoraters verglichen. Die Bewertungen der automatischen Raten wurden zwischen 0 und 1 gemittelt und dann anhand des Grenzwerts bewertet.

Um ein fundiertes Ergebnis zu erzielen, haben wir die Datenvarianz reduziert und die Positionsverzerrung verringert.

  • Reduzierung der Datenabweichung: Wir haben die Bewertungen von drei unabhängigen Ergebnissen pro Eingabe gemittelt, da unabhängige Ausführungen leicht unterschiedliche Ergebnisse haben können. Wir haben die Ausgaben sowohl für das Basismodell als auch für das optimierte Gemini Nano gemittelt. Die Unterschiede bei den Bewertungen der verschiedenen Ergebnisse waren nur geringfügig, aber Durchschnittswerte helfen uns, große Datenmengen zuverlässiger zu verstehen.
  • Positionale Verzerrung vermeiden: Um zu vermeiden, dass der Wert der Zusammenfassung, die den Bewertern zuerst präsentiert wurde, bevorzugt wird, haben wir die Ergebnisse zweimal ausgewertet und dann die Endbewertungen gemittelt.

    1. Wir haben das Modell mit LoRA und dann mit dem Basismodell bewertet.
    2. Anschließend haben wir die Anordnung aufgehoben. Wir haben das Basismodell und dann das Modell mit LoRA bewertet.
    3. Wir haben die Endergebnisse gemittelt.
      Kurz Mittel Lang
      Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA
    LoRA first 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95%
    Zuerst Basismodell 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35%
    Version C (durchschnittlich) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65%
    Siege für den Zusammenfassungstyp key-points. Je höher der Wert, desto besser die Ergebnisse.

Die Bewertung der Ergebnisse aus demselben Modell unterschied sich nur geringfügig. Mittelwerte helfen uns jedoch, große Datenmengen zuverlässiger zu verstehen.

Bei 500 Artikeln erzielte das optimierte Gemini Nano-Modell eine deutlich bessere Leistung als das Basismodell.

  Headline TLDR Wichtige Punkte Teaser
  Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA
Kurz 74,74% / 89,12% 55,76% / 89,50% 71,02% / 89,18% 53,47% / 87,14%
Mittel 73,10% / 87,89% 41,82% / 81,21% 69,59% / 84,08% 48,98% / 86,74%
Lang 60,99% / 89,32% 50,51% / 84,85% 63,47% / 82,65% 62,65% / 87,55%
Autorarer-Gewinnrate bei 500 Artikeln mit unterschiedlichen Zusammenfassungs- und Längentypen. Je höher die Zahl, desto besser sind die Ergebnisse.

Das Gleiche gilt für unsere Bewertung von 500 Chatprotokollen: Das optimierte Gemini Nano hat das Basismodell übertroffen.

  Headline TLDR Wichtige Punkte Teaser
  Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA Basis / mit LoRA
Kurz 70,59% / 96,15% 66,27% / 97,79% 81,60% / 97,40% 67,48% / 96,14%
Mittel 76,67% / 95,13% 56,02% / 94,98% 82,60% / 97,20% 50,41% / 96,95%
Lang 59,03% / 94,32% 65,86% / 95,58% 75,00% / 97,60% 70,94% / 97,16%
Siegequote des Autoraters in 500 Chatprotokollen mit verschiedenen Zusammenfassungs- und Längentypen. Je höher die Zahl, desto besser sind die Ergebnisse.

Diese Ergebnisse zeigen, dass die Optimierung die Qualität der Zusammenfassung insgesamt verbessert hat.

Bessere Zusammenfassungen mit LoRA

Traditionell wird die Feinabstimmung durch Anpassung der Modellparameter durchgeführt. Moderne KI-Modelle sind riesig. Daher ist dieser Vorgang langsam, teuer und erfordert das Speichern einer brandneuen Kopie des Modells.

Was wäre, wenn wir anstatt alle Parameter zu ändern, kleine zusätzliche Elemente hinzufügen, die das Modell in die gewünschte Richtung lenken? Aufgrund ihrer geringeren Größe können sie viel schneller trainiert werden. Das ist das Grundprinzip der Low-Rank Adaptation (LoRA). Bei LoRA bleiben bestimmte Teile des Modells unverändert, was oft als „Einfrieren der Parameter“ bezeichnet wird. Anschließend wird ein kleinerer Datensatz mit kleinen Korrekturen eingeführt, wobei der Schwerpunkt der Trainingsbemühungen auf diesen hinzugefügten Daten liegt.

Tatsächlich können Sie mit LoRA in der Regel nur 2% der ursprünglichen Parameter trainieren und trotzdem erhebliche Änderungen an den Ergebnissen feststellen.

Warum funktioniert das? Viele Verhaltensweisen (z. B. neue Stile, Aufgaben oder Kenntnisse) können einbezogen werden, ohne dass alle Modellparameter geändert werden müssen. Diese Änderungen können als kleine Muster oder Richtungen innerhalb des vorhandenen Wissens des Modells ausgedrückt werden. LoRA erfasst diese Muster effizient, ohne das Originalmodell zu verändern.

Sehen Sie sich einige Beispiele an, in denen das Gemini Nano-Basismodell mit den Ergebnissen nach dem Hinzufügen von LoRA verglichen wird.

Wir haben Gemini Nano gebeten, eine kurze Überschrift für den Wikipedia-Artikel zum Joshua-Tree-Nationalpark zu erstellen, die „die Aufmerksamkeit erregt und den Inhalt auf den Punkt bringt“.

Gemini Nano Gemini Nano mit LoRA
Die einzigartige Landschaft und Geschichte des Joshua-Tree-Nationalparks Joshua Tree: Nationalpark in Kalifornien, der sich über zwei Wüsten erstreckt und Heimat berühmter Bäume ist

Als Nächstes haben wir Gemini Nano um einen kurzen Teaser für den Ratatouille-Artikel gebeten. „Formulieren Sie einen ansprechenden Satz, der Nutzer dazu anregt, den gesamten Text zu lesen.“

Gemini Nano Gemini Nano mit LoRA
Ratatouille ist ein beliebtes provenzalisches Gericht aus gedünstetem Gemüse, oft mit Tomaten und Knoblauch. Seine Ursprünge reichen bis ins 18. Jahrhundert zurück und seine Zubereitung hat sich im Laufe der Zeit weiterentwickelt. Einige Köche betonen die einzelnen Gemüsearomen, während andere eine glattere, einheitlichere Textur bevorzugen. Neben seinen französischen Ursprüngen hat Ratatouille ähnliche Gerichte in verschiedenen Küchen auf der ganzen Welt inspiriert, darunter die spanische Piperade und das mittelalterliche Tian. Der Film „Ratatouille“ (2007) machte das Gericht noch bekannter und zeigte seine kulinarische Vielseitigkeit und emotionale Resonanz. Ratatouille, ein provenzalisches Gemüsegericht aus Frankreich, hat eine lange kulinarische Geschichte. Es hat sich von einem einfachen Eintopf zu einem modernen kulinarischen Meisterwerk entwickelt, das weltweit begeistert.

Demo für Echtzeit-Inferenzen

Wir haben eine Benutzeroberfläche erstellt, auf der die Ausgabe von Gemini Nano und Gemini Nano mit LoRA verglichen wird.

Wir haben Gemini Nano gebeten, eine tldr Zusammenfassung mit einer Länge von short für den Artikel zum Ocean Sunfish zu erstellen. Denken Sie daran, dass für tldr und short eine Antwort in einem Satz erforderlich ist, die „schnell gelesen“ werden kann.

Sie können in Echtzeit sehen, wie lange es gedauert hat, die Ergebnisse zu erstellen und die Ausgabe zu lesen.

Durch die Feinabstimmung kann Gemini Nano eine bessere Zusammenfassung erstellen, die den spezifischen Anweisungen folgt.

Feedback geben und erhalten

Wir würden uns sehr über Ihr Feedback dazu freuen, wie sich die optimierte Gemini Nano-Version auf Ihre Zusammenfassungen auswirkt.

Hier finden Sie alle eingebauten KI-APIs, die Modelle, einschließlich Large Language Models, im Browser verwenden.


  1. Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries In „Text Summarization Branches Out“, Seiten 74–81, Barcelona, Spanien. Association for Computational Linguistics. 

  2. Kishore Papineni, Salim Roukos, Todd Ward und Wei-Jing Zhu. 2002. BLEU: Eine Methode zur automatischen Bewertung der maschinellen Übersetzung. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter, Naman Bansal und Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? In „Findings of the Association for Computational Linguistics: ACL 2022“, Seiten 1547–1560, Dublin, Irland. Association for Computational Linguistics. 

  4. Daniel Deutsch und Dan Roth. 2021. Inwiefern Messwerte zur Inhaltsqualität die Informationsqualität von Zusammenfassungen messen In Proceedings of the 25th Conference on Computational Natural Language Learning, Seiten 300–309, Online. Association for Computational Linguistics.