Dipublikasikan: 21 Mei 2025
Ringkasan merupakan salah satu tugas AI yang paling umum dan penting menggunakan model bahasa besar (LLM). Ringkasan menawarkan cara penting untuk memahami konten yang luas dengan cepat—mulai dari artikel panjang dan log chat yang padat hingga banyak ulasan—sehingga menghemat waktu, meningkatkan produktivitas, dan memungkinkan pengambilan keputusan yang lebih cepat dan lebih tepat.
Ada berbagai jenis ringkasan, dengan berbagai tingkat detail dan ekspektasi pemformatan. Untuk memenuhi ekspektasi berbagai jenis ringkasan, Chrome berkolaborasi dengan Google Cloud untuk meningkatkan output Gemini Nano.
Kami menyesuaikan Gemini Nano dengan adaptasi peringkat rendah (LoRA) untuk meningkatkan pengalaman dan kualitas output, untuk semua gaya dan panjang ringkasan. Selain itu, kami menerapkan evaluasi otomatis dan penilai otomatis pada berbagai aspek kualitas ringkasan, termasuk faktualitas, cakupan, format, dan keterbacaan.
Kami telah memvisualisasikan seperti apa perbedaan ini dalam praktiknya. Anda dapat bereksperimen dengan implementasi ini dan melihat demo real-time yang membandingkan output Gemini Nano dan Gemini Nano dengan LoRA.
Apa yang dimaksud dengan Summarizer API?
Penjelasan | Web | Ekstensi | Status Chrome | Intent |
---|---|---|---|---|
MDN | View | Intent to Ship |
Summarizer API meringkas konten teks yang panjang menjadi ringkasan singkat yang mudah dipahami. API ini di-build ke dalam Chrome dan menggunakan Gemini Nano untuk melakukan inferensi.
Situs yang berbeda mungkin memerlukan ringkasan dengan
berbagai gaya dan durasi. Misalnya, jika Anda adalah situs berita, sebaiknya tawarkan daftar berbutir poin
utama dalam artikel Anda. Atau, pengguna yang menjelajahi ulasan produk dapat
mendapatkan manfaat dari ringkasan sentimen ulasan yang cepat dan singkat. Untuk menunjukkannya,
kami telah meringkas
halaman Wikipedia tentang Welsh Corgis
dengan panjang yang ditetapkan ke short
.
Jenis ringkasan | Output |
headline |
## Welsh Corgi: Sejarah Penggembala dan Kerajaan |
key-points |
* Welsh Corgi adalah penggembala kecil yang berasal dari Wales. * Ada dua jenis utama: Pembroke dan Cardigan Welsh Corgi. * Pembroke lebih populer dan telah dikaitkan dengan keluarga kerajaan Inggris. |
tldr |
Welsh Corgi, penggembala kecil dengan sejarah panjang di Wales dan keluarga kerajaan Inggris, memiliki dua varietas: Pembroke dan Cardigan, yang keduanya dikenal karena wajah seperti rubah, kaki pendek, dan naluri penggembala. |
teaser |
Temukan sejarah Welsh Corgi, dari asal-usul sederhananya sebagai penggembala untuk petani Wales hingga kebangkitannya sebagai simbol keluarga kerajaan Inggris. |
Anda dapat bereksperimen dengan halaman lain menggunakan Summarizer API Playground.
Bereksperimen dengan penyesuaian
Penyesuaian hanya tersedia sebagai flag di Chrome Canary, mulai versi 138.0.7180.0
. Untuk menggunakan model ini:
- Buka Chrome Canary.
- Buka
chrome://flags/#summarization-api-for-gemini-nano
- Pilih Diaktifkan dengan Adaptasi.
- Mulai ulang browser.
- Buka Konsol DevTools dan masukkan
Summarizer.availability()
. Tindakan ini akan memulai download untuk LoRA tambahan.
Setelah download selesai, Anda dapat mulai bereksperimen.
Mengevaluasi performa pembuat ringkasan
Kami mengukur peningkatan performa Gemini Nano yang telah dioptimalkan terutama menggunakan dua metode evaluasi, otomatis dan autorater. Penyesuaian membantu model melakukan tugas tertentu dengan lebih baik, seperti:
- Menerjemahkan teks medis dengan lebih baik.
- Buat gambar dalam gaya seni tertentu.
- Memahami bahasa gaul baru.
Dalam hal ini, kami ingin memenuhi ekspektasi setiap jenis ringkasan dengan lebih baik.
Evaluasi otomatis
Evaluasi otomatis menggunakan software untuk menilai kualitas output model. Kami menggunakan teknik ini untuk menelusuri error pemformatan, pengulangan kalimat, dan adanya karakter non-Inggris dalam ringkasan input bahasa Inggris.
Error pemformatan: Kami memeriksa apakah respons ringkasan mengikuti petunjuk pemformatan perintah. Misalnya, untuk gaya poin penting singkat, kami memeriksa apakah setiap poin dimulai dengan tanda bintang (
*
) dan jumlah poin tidak melebihi 3 poin.Pengulangan kalimat: Kami memeriksa apakah kalimat yang sama diulang dalam satu respons ringkasan, karena hal ini menunjukkan respons berkualitas buruk.
Karakter non-Inggris: Kami memeriksa apakah respons menyertakan karakter non-Inggris saat input dimaksudkan dalam bahasa Inggris.
Hyperlink dalam output: Kami memeriksa apakah respons memiliki hyperlink, dalam format Markdown atau dalam teks biasa, yang tidak ada dalam input.
Kami mengevaluasi dua gaya input: artikel yang di-scrap dan log chat.
Judul | TLDR | Poin-Poin Utama | Teaser | |
Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | |
Error format | 13,54% / 7,05% | 41,07% / 4,61% | 12,58% / 6,36% | 51,17% / 6,74% |
Pengulangan kalimat | 0,07% / 0,07% | 0,21% / 0,0% | 0,10% / 0,10% | 0,10% / 0,03% |
Error non-Bahasa Inggris | 3,95% / 0,03% | 1,38% / 0,0% | 2,41% / 0,03% | 1,44% / 0,0% |
Hyperlink | 0,07% / 0,0% | 0,14% / 0,0% | 0,14% / 0,0% | 0,34% / 0,0% |
Judul | TLDR | Poin Utama | Teaser | |
Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | |
Error format | 13,17% / 0,24% | 22,92% / 0,18% | 4,43% / 0,09% | 29,64% / 3,51% |
Pengulangan kalimat | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,03% / 0,0% |
Error non-bahasa Inggris | 0,15% / 0,0% | 0,15% / 0,0% | 0,03% / 0,0% | 0,06% / 0,0% |
Hyperlink | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% |
Setelah menyesuaikan Gemini Nano, kami melihat penurunan yang signifikan pada rasio error format di berbagai jenis ringkasan, baik untuk artikel maupun log chat.
Evaluasi penilai otomatis
Kami menggunakan Gemini 1.5 Pro untuk evaluasi penilai otomatis, untuk menilai kualitas output Gemini Nano. Karena setiap ringkasan memiliki tujuan yang berbeda, kriteria dan nilai kriterianya berbeda untuk jenis ringkasan yang berbeda. Semua jenis ringkasan dievaluasi untuk:
- Cakupan: Apakah ringkasan secara akurat menangkap tujuan penting input?
- Faktualitas: Apakah ringkasannya jujur? Apakah ringkasan memperkenalkan informasi baru yang tidak dinyatakan secara eksplisit atau tersirat dalam teks?
- Format: Apakah ringkasan diformat dengan sintaksis Markdown yang valid? Apakah ringkasan mengikuti panjang kalimat maksimum, seperti yang diminta?
- Kejelasan: Apakah ringkasannya berulang? Apakah ringkasan menyampaikan pesan inti secara akurat dalam kata sesedikit mungkin?
Karena jenis ringkasan ini memiliki tujuan yang berbeda, metrik tambahan berlaku untuk jenis ringkasan tertentu:
- Interaksi: (
headline
): Apakah ringkasan langsung dapat dipahami oleh audiens umum? Apakah ringkasan menggunakan gaya bahasa yang menarik dan menyenangkan bagi audiens umum? - Ringkas (
tldr
): Apakah ringkasannya jelas, ringkas, dan langsung dapat dipahami oleh seseorang dengan rentang perhatian yang sangat singkat? Apakah desain tersebut secara efektif menyaring pesan inti menjadi bentuk yang mudah dicerna untuk membaca cepat? - Pancingan (
teaser
): Apakah ringkasan secara efektif menimbulkan rasa penasaran dan medorong pembaca untuk ingin mempelajari lebih lanjut dengan membaca teks lengkapnya? Apakah judul tersebut menggunakan bahasa yang menarik dan menyiratkan konten yang menarik?
Kami membandingkan output model dasar dan model dengan LoRA, secara berdampingan, menggunakan autorater. Skor penilai otomatis dirata-ratakan antara 0 dan 1, yang kemudian dinilai berdasarkan nilai minimum.
Untuk memastikan hasil yang berdasar, kami mengurangi varians data dan mengurangi bias posisi.
- Pengurangan varians data: Kami menghitung rata-rata skor dari tiga output independen per input, karena operasi independen mungkin memiliki hasil yang sedikit berbeda. Kami menghitung rata-rata output untuk model dasar dan Gemini Nano yang disesuaikan. Meskipun perbedaan skor di seluruh output hanya sedikit berbeda, rata-rata membantu kita memahami kumpulan data yang besar dengan lebih andal.
Mengurangi bias posisi: Untuk menghindari pemberian preferensi pada nilai ringkasan yang dibagikan terlebih dahulu kepada penilai, kami mengevaluasi hasilnya dua kali, lalu menghitung rata-rata skor akhir.
- Kami mengevaluasi model dengan LoRA, lalu model dasarnya.
- Kemudian, kita membalikkan urutan. Kami mengevaluasi model dasar, diikuti dengan model dengan LoRA.
- Kami menghitung rata-rata skor akhir.
Short Sedang Long Dasar / Dengan LoRA Dasar / Dengan LoRA Dasar / Dengan LoRA LoRA terlebih dahulu 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95% Model dasar terlebih dahulu 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35% Versi C (Rata-rata) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65% Rasio kemenangan untuk jenis ringkasan key-points
. Nilai yang lebih tinggi berarti hasil yang lebih baik.
Meskipun perbedaan skor untuk output dari model yang sama hanya sedikit berbeda, rata-rata membantu kita memahami kumpulan data yang besar dengan lebih andal.
Di 500 artikel, Gemini Nano yang telah dioptimalkan berperforma jauh lebih baik daripada model dasarnya.
Judul | TLDR | Poin Utama | Teaser | |
Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | |
Pendek | 74,74% / 89,12% | 55,76% / 89,50% | 71,02% / 89,18% | 53,47% / 87,14% |
Sedang | 73,10% / 87,89% | 41,82% / 81,21% | 69,59% / 84,08% | 48,98% / 86,74% |
Panjang | 60,99% / 89,32% | 50,51% / 84,85% | 63,47% / 82,65% | 62,65% / 87,55% |
Hal yang sama berlaku dalam evaluasi kami terhadap 500 log chat, Gemini Nano yang disesuaikan memiliki performa lebih baik daripada model dasar.
Judul | TLDR | Poin Utama | Teaser | |
Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | Dasar / Dengan LoRA | |
Short | 70,59% / 96,15% | 66,27% / 97,79% | 81,60% / 97,40% | 67,48% / 96,14% |
Sedang | 76,67% / 95,13% | 56,02% / 94,98% | 82,60% / 97,20% | 50,41% / 96,95% |
Long | 59,03% / 94,32% | 65,86% / 95,58% | 75,00% / 97,60% | 70,94% / 97,16% |
Hasil ini menunjukkan bahwa penyesuaian kami meningkatkan kualitas ringkasan secara keseluruhan.
Ringkasan yang lebih baik dengan LoRA
Secara tradisional, penyesuaian dilakukan dengan menyesuaikan parameter model. Model AI modern sangat besar, sehingga operasi ini lambat, mahal, dan memerlukan penyimpanan salinan baru model.
Daripada mengubah semua parameter, bagaimana jika kita menambahkan potongan kecil tambahan yang mengarahkan model ke arah yang kita inginkan? Ukurannya yang lebih kecil memungkinkan pelatihan yang jauh lebih cepat. Ini adalah prinsip inti dari adaptasi peringkat rendah (LoRA). Dengan LoRA, bagian tertentu dari model tetap tidak berubah, yang sering disebut sebagai pembekuan parameter. Kumpulan data yang lebih kecil kemudian diperkenalkan dengan koreksi kecil, yang memfokuskan upaya pelatihan pada bagian yang ditambahkan ini.
Faktanya, biasanya Anda dapat melatih hanya 2% parameter asli dengan LoRA dan masih melihat perubahan yang signifikan pada output.
Mengapa cara ini berhasil? Banyak perilaku (seperti gaya, tugas, atau pengetahuan baru) dapat digabungkan tanpa mengubah setiap parameter model. Perubahan ini dapat dinyatakan sebagai pola atau arah kecil dalam pengetahuan model yang ada. LoRA menangkap pola ini secara efisien tanpa menyentuh model aslinya.
Lihat beberapa contoh yang membandingkan model dasar Gemini Nano dengan hasil setelah menambahkan LoRA.
Kami meminta Gemini Nano untuk membuat judul singkat yang "menarik perhatian dan menyampaikan inti konten" dalam artikel Wikipedia Joshua Tree National Park.
Gemini Nano | Gemini Nano dengan LoRA |
Lanskap dan Sejarah Unik Taman Nasional Joshua Tree | Joshua Tree: Taman Nasional di California, Terletak di Antara Gurun & Rumah bagi Pohon Ikonik |
Selanjutnya, kita meminta Gemini Nano untuk menampilkan teaser singkat untuk artikel Ratatouille. "Tulis satu kalimat menarik yang mendorong pengguna untuk membaca teks lengkapnya".
Gemini Nano | Gemini Nano dengan LoRA |
Ratatouille adalah hidangan Provençal Prancis yang populer, yang menampilkan sayuran rebus, sering kali termasuk tomat dan bawang putih. Asalnya dapat ditelusuri hingga abad ke-18, dan persiapannya telah berkembang dari waktu ke waktu, dengan beberapa koki menekankan rasa setiap sayuran, sementara yang lain lebih menyukai tekstur yang lebih halus dan lebih terpadu. Selain berasal dari Prancis, ratatouille telah menginspirasi hidangan serupa di berbagai masakan di seluruh dunia, termasuk piperade dari Spanyol dan tian dari Mediterania. Film "Ratatouille" (2007) lebih jauh mempopulerkan hidangan ini, yang menampilkan fleksibilitas kuliner dan resonansi emosionalnya. | Ratatouille, hidangan sayuran rebus Provençal Prancis, memiliki sejarah kuliner yang kaya, yang berkembang dari rebusan sederhana menjadi mahakarya kuliner modern yang telah memikat penonton di seluruh dunia. |
Demo inferensi real-time
Kami membuat antarmuka yang menunjukkan perbandingan output antara Gemini Nano dan Gemini Nano dengan LoRA.
Kami meminta Gemini Nano untuk membuat ringkasan tldr
dengan panjang short
untuk artikel
Ocean Sunfish. Ingat
bahwa tldr
dan short
memerlukan respons dalam 1 kalimat yang merupakan "bacaan cepat".
Dengan menerapkan penyesuaian, Gemini Nano dapat menghasilkan ringkasan yang lebih baik yang mengikuti petunjuk tertentu.
Berinteraksi dan memberikan masukan
Kami ingin mendengar masukan Anda tentang pengaruh Gemini Nano yang telah ditingkatkan kualitasnya terhadap ringkasan Anda.
- Lakukan eksperimen dengan model yang diperbarui di Chrome Canary.
- Pelajari Summarizer API lebih lanjut.
- Jika Anda memiliki masukan tentang penerapan Chrome, ajukan laporan bug atau permintaan fitur.
Temukan semua API AI bawaan yang menggunakan model, termasuk model bahasa besar, di browser.
-
Chin-Yew Lin. 2004. ROUGE: Paket untuk Evaluasi Ringkasan Otomatis. Dalam Text Summarization Branches Out, halaman 74–81, Barcelona, Spanyol. Association for Computational Linguistics. ↩
-
Kishore Papineni, Salim Roukos, Todd Ward, dan Wei-Jing Zhu. 2002. BLEU: metode untuk evaluasi otomatis terjemahan mesin. Dalam Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter, Naman Bansal, dan Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. Dalam Findings of the Association for Computational Linguistics: ACL 2022, halaman 1547–1560, Dublin, Irlandia. Association for Computational Linguistics. ↩
-
Daniel Deutsch dan Dan Roth. 2021. Memahami Tingkat Pengukuran Metrik Kualitas Konten terhadap Kualitas Informasi Ringkasan. Dalam Proceedings of the 25th Conference on Computational Natural Language Learning, halaman 300–309, Online. Association for Computational Linguistics. ↩