Meningkatkan Gemini Nano: memberikan ringkasan berkualitas lebih tinggi dengan LoRA

Dipublikasikan: 21 Mei 2025

Ringkasan merupakan salah satu tugas AI yang paling umum dan penting menggunakan model bahasa besar (LLM). Ringkasan menawarkan cara penting untuk memahami konten yang luas dengan cepat—mulai dari artikel panjang dan log chat yang padat hingga banyak ulasan—sehingga menghemat waktu, meningkatkan produktivitas, dan memungkinkan pengambilan keputusan yang lebih cepat dan lebih tepat.

Ada berbagai jenis ringkasan, dengan berbagai tingkat detail dan ekspektasi pemformatan. Untuk memenuhi ekspektasi berbagai jenis ringkasan, Chrome berkolaborasi dengan Google Cloud untuk meningkatkan output Gemini Nano.

Kami menyesuaikan Gemini Nano dengan adaptasi peringkat rendah (LoRA) untuk meningkatkan pengalaman dan kualitas output, untuk semua gaya dan panjang ringkasan. Selain itu, kami menerapkan evaluasi otomatis dan penilai otomatis pada berbagai aspek kualitas ringkasan, termasuk faktualitas, cakupan, format, dan keterbacaan.

Kami telah memvisualisasikan seperti apa perbedaan ini dalam praktiknya. Anda dapat bereksperimen dengan implementasi ini dan melihat demo real-time yang membandingkan output Gemini Nano dan Gemini Nano dengan LoRA.

Apa yang dimaksud dengan Summarizer API?

Penjelasan Web Ekstensi Status Chrome Intent
MDN Di balik bendera Chrome 138 beta Di balik bendera Chrome 138 beta View Intent to Ship

Summarizer API meringkas konten teks yang panjang menjadi ringkasan singkat yang mudah dipahami. API ini di-build ke dalam Chrome dan menggunakan Gemini Nano untuk melakukan inferensi.

Situs yang berbeda mungkin memerlukan ringkasan dengan berbagai gaya dan durasi. Misalnya, jika Anda adalah situs berita, sebaiknya tawarkan daftar berbutir poin utama dalam artikel Anda. Atau, pengguna yang menjelajahi ulasan produk dapat mendapatkan manfaat dari ringkasan sentimen ulasan yang cepat dan singkat. Untuk menunjukkannya, kami telah meringkas halaman Wikipedia tentang Welsh Corgis dengan panjang yang ditetapkan ke short.

Jenis ringkasan Output
headline ## Welsh Corgi: Sejarah Penggembala dan Kerajaan
key-points * Welsh Corgi adalah penggembala kecil yang berasal dari Wales.
* Ada dua jenis utama: Pembroke dan Cardigan Welsh Corgi.
* Pembroke lebih populer dan telah dikaitkan dengan keluarga kerajaan Inggris.
tldr Welsh Corgi, penggembala kecil dengan sejarah panjang di Wales dan keluarga kerajaan Inggris, memiliki dua varietas: Pembroke dan Cardigan, yang keduanya dikenal karena wajah seperti rubah, kaki pendek, dan naluri penggembala.
teaser Temukan sejarah Welsh Corgi, dari asal-usul sederhananya sebagai penggembala untuk petani Wales hingga kebangkitannya sebagai simbol keluarga kerajaan Inggris.

Anda dapat bereksperimen dengan halaman lain menggunakan Summarizer API Playground.

Bereksperimen dengan penyesuaian

Penyesuaian hanya tersedia sebagai flag di Chrome Canary, mulai versi 138.0.7180.0. Untuk menggunakan model ini:

  1. Buka Chrome Canary.
  2. Buka chrome://flags/#summarization-api-for-gemini-nano
  3. Pilih Diaktifkan dengan Adaptasi.
  4. Mulai ulang browser.
  5. Buka Konsol DevTools dan masukkan Summarizer.availability(). Tindakan ini akan memulai download untuk LoRA tambahan.

Setelah download selesai, Anda dapat mulai bereksperimen.

Mengevaluasi performa pembuat ringkasan

Kami mengukur peningkatan performa Gemini Nano yang telah dioptimalkan terutama menggunakan dua metode evaluasi, otomatis dan autorater. Penyesuaian membantu model melakukan tugas tertentu dengan lebih baik, seperti:

  • Menerjemahkan teks medis dengan lebih baik.
  • Buat gambar dalam gaya seni tertentu.
  • Memahami bahasa gaul baru.

Dalam hal ini, kami ingin memenuhi ekspektasi setiap jenis ringkasan dengan lebih baik.

Evaluasi otomatis

Evaluasi otomatis menggunakan software untuk menilai kualitas output model. Kami menggunakan teknik ini untuk menelusuri error pemformatan, pengulangan kalimat, dan adanya karakter non-Inggris dalam ringkasan input bahasa Inggris.

  • Error pemformatan: Kami memeriksa apakah respons ringkasan mengikuti petunjuk pemformatan perintah. Misalnya, untuk gaya poin penting singkat, kami memeriksa apakah setiap poin dimulai dengan tanda bintang (*) dan jumlah poin tidak melebihi 3 poin.

  • Pengulangan kalimat: Kami memeriksa apakah kalimat yang sama diulang dalam satu respons ringkasan, karena hal ini menunjukkan respons berkualitas buruk.

  • Karakter non-Inggris: Kami memeriksa apakah respons menyertakan karakter non-Inggris saat input dimaksudkan dalam bahasa Inggris.

  • Hyperlink dalam output: Kami memeriksa apakah respons memiliki hyperlink, dalam format Markdown atau dalam teks biasa, yang tidak ada dalam input.

Kami mengevaluasi dua gaya input: artikel yang di-scrap dan log chat.

  Judul TLDR Poin-Poin Utama Teaser
  Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA
Error format 13,54% / 7,05% 41,07% / 4,61% 12,58% / 6,36% 51,17% / 6,74%
Pengulangan kalimat 0,07% / 0,07% 0,21% / 0,0% 0,10% / 0,10% 0,10% / 0,03%
Error non-Bahasa Inggris 3,95% / 0,03% 1,38% / 0,0% 2,41% / 0,03% 1,44% / 0,0%
Hyperlink 0,07% / 0,0% 0,14% / 0,0% 0,14% / 0,0% 0,34% / 0,0%
Evaluasi otomatis di 970 artikel di berbagai jenis ringkasan.
  Judul TLDR Poin Utama Teaser
  Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA
Error format 13,17% / 0,24% 22,92% / 0,18% 4,43% / 0,09% 29,64% / 3,51%
Pengulangan kalimat 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,03% / 0,0%
Error non-bahasa Inggris 0,15% / 0,0% 0,15% / 0,0% 0,03% / 0,0% 0,06% / 0,0%
Hyperlink 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0%
Evaluasi otomatis di 1.091 sampel entri chat.

Setelah menyesuaikan Gemini Nano, kami melihat penurunan yang signifikan pada rasio error format di berbagai jenis ringkasan, baik untuk artikel maupun log chat.

Evaluasi penilai otomatis

Kami menggunakan Gemini 1.5 Pro untuk evaluasi penilai otomatis, untuk menilai kualitas output Gemini Nano. Karena setiap ringkasan memiliki tujuan yang berbeda, kriteria dan nilai kriterianya berbeda untuk jenis ringkasan yang berbeda. Semua jenis ringkasan dievaluasi untuk:

  • Cakupan: Apakah ringkasan secara akurat menangkap tujuan penting input?
  • Faktualitas: Apakah ringkasannya jujur? Apakah ringkasan memperkenalkan informasi baru yang tidak dinyatakan secara eksplisit atau tersirat dalam teks?
  • Format: Apakah ringkasan diformat dengan sintaksis Markdown yang valid? Apakah ringkasan mengikuti panjang kalimat maksimum, seperti yang diminta?
  • Kejelasan: Apakah ringkasannya berulang? Apakah ringkasan menyampaikan pesan inti secara akurat dalam kata sesedikit mungkin?

Karena jenis ringkasan ini memiliki tujuan yang berbeda, metrik tambahan berlaku untuk jenis ringkasan tertentu:

  • Interaksi: (headline): Apakah ringkasan langsung dapat dipahami oleh audiens umum? Apakah ringkasan menggunakan gaya bahasa yang menarik dan menyenangkan bagi audiens umum?
  • Ringkas (tldr): Apakah ringkasannya jelas, ringkas, dan langsung dapat dipahami oleh seseorang dengan rentang perhatian yang sangat singkat? Apakah desain tersebut secara efektif menyaring pesan inti menjadi bentuk yang mudah dicerna untuk membaca cepat?
  • Pancingan (teaser): Apakah ringkasan secara efektif menimbulkan rasa penasaran dan medorong pembaca untuk ingin mempelajari lebih lanjut dengan membaca teks lengkapnya? Apakah judul tersebut menggunakan bahasa yang menarik dan menyiratkan konten yang menarik?

Kami membandingkan output model dasar dan model dengan LoRA, secara berdampingan, menggunakan autorater. Skor penilai otomatis dirata-ratakan antara 0 dan 1, yang kemudian dinilai berdasarkan nilai minimum.

Untuk memastikan hasil yang berdasar, kami mengurangi varians data dan mengurangi bias posisi.

  • Pengurangan varians data: Kami menghitung rata-rata skor dari tiga output independen per input, karena operasi independen mungkin memiliki hasil yang sedikit berbeda. Kami menghitung rata-rata output untuk model dasar dan Gemini Nano yang disesuaikan. Meskipun perbedaan skor di seluruh output hanya sedikit berbeda, rata-rata membantu kita memahami kumpulan data yang besar dengan lebih andal.
  • Mengurangi bias posisi: Untuk menghindari pemberian preferensi pada nilai ringkasan yang dibagikan terlebih dahulu kepada penilai, kami mengevaluasi hasilnya dua kali, lalu menghitung rata-rata skor akhir.

    1. Kami mengevaluasi model dengan LoRA, lalu model dasarnya.
    2. Kemudian, kita membalikkan urutan. Kami mengevaluasi model dasar, diikuti dengan model dengan LoRA.
    3. Kami menghitung rata-rata skor akhir.
      Short Sedang Long
      Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA
    LoRA terlebih dahulu 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95%
    Model dasar terlebih dahulu 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35%
    Versi C (Rata-rata) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65%
    Rasio kemenangan untuk jenis ringkasan key-points. Nilai yang lebih tinggi berarti hasil yang lebih baik.

Meskipun perbedaan skor untuk output dari model yang sama hanya sedikit berbeda, rata-rata membantu kita memahami kumpulan data yang besar dengan lebih andal.

Di 500 artikel, Gemini Nano yang telah dioptimalkan berperforma jauh lebih baik daripada model dasarnya.

  Judul TLDR Poin Utama Teaser
  Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA
Pendek 74,74% / 89,12% 55,76% / 89,50% 71,02% / 89,18% 53,47% / 87,14%
Sedang 73,10% / 87,89% 41,82% / 81,21% 69,59% / 84,08% 48,98% / 86,74%
Panjang 60,99% / 89,32% 50,51% / 84,85% 63,47% / 82,65% 62,65% / 87,55%
Rasio kemenangan Autorarer di 500 artikel dengan berbagai jenis ringkasan dan panjang. Angka yang lebih tinggi menunjukkan hasil yang lebih baik.

Hal yang sama berlaku dalam evaluasi kami terhadap 500 log chat, Gemini Nano yang disesuaikan memiliki performa lebih baik daripada model dasar.

  Judul TLDR Poin Utama Teaser
  Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA
Short 70,59% / 96,15% 66,27% / 97,79% 81,60% / 97,40% 67,48% / 96,14%
Sedang 76,67% / 95,13% 56,02% / 94,98% 82,60% / 97,20% 50,41% / 96,95%
Long 59,03% / 94,32% 65,86% / 95,58% 75,00% / 97,60% 70,94% / 97,16%
Rasio kemenangan Autorater di 500 chatlog di berbagai jenis ringkasan dan panjang. Angka yang lebih tinggi menunjukkan hasil yang lebih baik.

Hasil ini menunjukkan bahwa penyesuaian kami meningkatkan kualitas ringkasan secara keseluruhan.

Ringkasan yang lebih baik dengan LoRA

Secara tradisional, penyesuaian dilakukan dengan menyesuaikan parameter model. Model AI modern sangat besar, sehingga operasi ini lambat, mahal, dan memerlukan penyimpanan salinan baru model.

Daripada mengubah semua parameter, bagaimana jika kita menambahkan potongan kecil tambahan yang mengarahkan model ke arah yang kita inginkan? Ukurannya yang lebih kecil memungkinkan pelatihan yang jauh lebih cepat. Ini adalah prinsip inti dari adaptasi peringkat rendah (LoRA). Dengan LoRA, bagian tertentu dari model tetap tidak berubah, yang sering disebut sebagai pembekuan parameter. Kumpulan data yang lebih kecil kemudian diperkenalkan dengan koreksi kecil, yang memfokuskan upaya pelatihan pada bagian yang ditambahkan ini.

Faktanya, biasanya Anda dapat melatih hanya 2% parameter asli dengan LoRA dan masih melihat perubahan yang signifikan pada output.

Mengapa cara ini berhasil? Banyak perilaku (seperti gaya, tugas, atau pengetahuan baru) dapat digabungkan tanpa mengubah setiap parameter model. Perubahan ini dapat dinyatakan sebagai pola atau arah kecil dalam pengetahuan model yang ada. LoRA menangkap pola ini secara efisien tanpa menyentuh model aslinya.

Lihat beberapa contoh yang membandingkan model dasar Gemini Nano dengan hasil setelah menambahkan LoRA.

Kami meminta Gemini Nano untuk membuat judul singkat yang "menarik perhatian dan menyampaikan inti konten" dalam artikel Wikipedia Joshua Tree National Park.

Gemini Nano Gemini Nano dengan LoRA
Lanskap dan Sejarah Unik Taman Nasional Joshua Tree Joshua Tree: Taman Nasional di California, Terletak di Antara Gurun & Rumah bagi Pohon Ikonik

Selanjutnya, kita meminta Gemini Nano untuk menampilkan teaser singkat untuk artikel Ratatouille. "Tulis satu kalimat menarik yang mendorong pengguna untuk membaca teks lengkapnya".

Gemini Nano Gemini Nano dengan LoRA
Ratatouille adalah hidangan Provençal Prancis yang populer, yang menampilkan sayuran rebus, sering kali termasuk tomat dan bawang putih. Asalnya dapat ditelusuri hingga abad ke-18, dan persiapannya telah berkembang dari waktu ke waktu, dengan beberapa koki menekankan rasa setiap sayuran, sementara yang lain lebih menyukai tekstur yang lebih halus dan lebih terpadu. Selain berasal dari Prancis, ratatouille telah menginspirasi hidangan serupa di berbagai masakan di seluruh dunia, termasuk piperade dari Spanyol dan tian dari Mediterania. Film "Ratatouille" (2007) lebih jauh mempopulerkan hidangan ini, yang menampilkan fleksibilitas kuliner dan resonansi emosionalnya. Ratatouille, hidangan sayuran rebus Provençal Prancis, memiliki sejarah kuliner yang kaya, yang berkembang dari rebusan sederhana menjadi mahakarya kuliner modern yang telah memikat penonton di seluruh dunia.

Demo inferensi real-time

Kami membuat antarmuka yang menunjukkan perbandingan output antara Gemini Nano dan Gemini Nano dengan LoRA.

Kami meminta Gemini Nano untuk membuat ringkasan tldr dengan panjang short untuk artikel Ocean Sunfish. Ingat bahwa tldr dan short memerlukan respons dalam 1 kalimat yang merupakan "bacaan cepat".

Tonton secara real time berapa lama waktu yang diperlukan untuk membuat hasil dan membaca output.

Dengan menerapkan penyesuaian, Gemini Nano dapat menghasilkan ringkasan yang lebih baik yang mengikuti petunjuk tertentu.

Berinteraksi dan memberikan masukan

Kami ingin mendengar masukan Anda tentang pengaruh Gemini Nano yang telah ditingkatkan kualitasnya terhadap ringkasan Anda.

Temukan semua API AI bawaan yang menggunakan model, termasuk model bahasa besar, di browser.


  1. Chin-Yew Lin. 2004. ROUGE: Paket untuk Evaluasi Ringkasan Otomatis. Dalam Text Summarization Branches Out, halaman 74–81, Barcelona, Spanyol. Association for Computational Linguistics. 

  2. Kishore Papineni, Salim Roukos, Todd Ward, dan Wei-Jing Zhu. 2002. BLEU: metode untuk evaluasi otomatis terjemahan mesin. Dalam Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter, Naman Bansal, dan Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. Dalam Findings of the Association for Computational Linguistics: ACL 2022, halaman 1547–1560, Dublin, Irlandia. Association for Computational Linguistics. 

  4. Daniel Deutsch dan Dan Roth. 2021. Memahami Tingkat Pengukuran Metrik Kualitas Konten terhadap Kualitas Informasi Ringkasan. Dalam Proceedings of the 25th Conference on Computational Natural Language Learning, halaman 300–309, Online. Association for Computational Linguistics.