ZeroSearch: Revolusi Alibaba untuk melatih AI secara cekap dan autonomi

Kemaskini terakhir: 12 Mei 2025
Pengarang TecnoDigital
  • ZeroSearch secara mendadak mengurangkan kos melatih model AI melalui carian simulasi, menghapuskan pergantungan pada enjin carian luaran.
  • Ia menggunakan sistem pembelajaran pengukuhan yang diselia yang meningkatkan keupayaan mengingat dan menaakul LLM.
  • Ia membolehkan syarikat dan pembangun melatih model termaju pada kos rendah, memperoleh autonomi dan kawalan ke atas proses tersebut.

Apakah ZeroSearch, kecerdasan buatan?

Inovasi dalam bidang kecerdasan buatan telah meletup sejak beberapa tahun kebelakangan ini, terutamanya berkaitan model bahasa besar (LLM). Salah satu kejayaan paling ketara pada tahun 2025 ialah ZeroSearch, teknologi yang dibangunkan oleh Alibaba yang menggoncang asas bagaimana model ini dilatih. Apakah sebenarnya ZeroSearch, dan mengapa ia menjana begitu banyak buzz dalam industri? Dalam artikel ini, kami melihat dengan lebih dekat metodologi baharu ini, termasuk cara ia berfungsi, kelebihan yang ditawarkannya berbanding kaedah tradisional, dan cara ia boleh mengubah pembangunan AI di semua peringkat.

Dalam kalangan teknologi, perbincangan adalah mengenainya: ZeroSearch berjanji untuk mengurangkan kos latihan model kecerdasan buatan tidak kurang daripada 88%.. Lonjakan dalam kecekapan ini, jauh daripada gimik pemasaran semata-mata, mempunyai implikasi yang mendalam untuk perniagaan besar dan kecil, pembangun, dan, sudah tentu, untuk kemajuan kecerdasan buatan am.

Apakah itu ZeroSearch dan dari mana asalnya?

ZeroSearch ialah teknik berasaskan pembelajaran pengukuhan baharu yang direka untuk melatih model bahasa tanpa bergantung pada enjin carian luaran sebenar semasa proses latihan. Inovasi ini datang daripada makmal Tongyi Alibaba, dengan tujuan untuk menyelesaikan dua masalah biasa dalam melatih model AI yang menggunakan carian web: kos ekonomi yang tinggi untuk penggunaan API dan ketidakpastian dalam kualiti dokumen yang dipulihkan.

Sehingga kini, membangunkan pembantu lanjutan, chatbot atau enjin pengesyoran memerlukan penghantaran puluhan ribu pertanyaan ke enjin carian seperti Google melalui perkhidmatan berbayar, meningkatkan kos dan mengehadkan kebolehskalaan, terutamanya untuk syarikat yang mempunyai belanjawan yang ketat.

ZeroSearch mengubah peraturan permainan dengan bertaruh pada sistem di mana LLM sendiri belajar untuk mensimulasikan operasi enjin carian, menghasilkan dokumen yang berkaitan atau bising (tidak relevan) sebagai tindak balas kepada pertanyaan dan dengan itu membenarkan latihan tanpa interaksi luaran.

Cara ZeroSearch Berfungsi dalam AI

Bagaimanakah ZeroSearch berfungsi? Penerangan teknikal terperinci

Di tengah-tengah ZeroSearch ialah rangka kerja pembelajaran pengukuhan (RL) yang menghapuskan keperluan untuk carian web sebenar semasa latihan. Mari kita lihat proses ini langkah demi langkah, berdasarkan pendekatan Alibaba dan analisis teknik yang diterbitkan secara meluas.

  Semua tentang Kepintaran Buatan Generatif: cara ia berfungsi, kegunaan dan risiko

1. Penalaan ringan di bawah seliaan untuk mensimulasikan carian

Semuanya bermula dari satu penalaan halus diselia (SFT) di mana LLM dilatih untuk berkelakuan sebagai modul pencarian maklumat. Melalui pelarasan ini, ia belajar untuk menjana dokumen respons untuk pertanyaan, meniru gaya teks dan jenis kandungan yang akan ditawarkan oleh enjin carian sebenar. Semasa fasa awal ini, trajektori interaksi antara model dan enjin carian dikumpul, mewujudkan rekod pertanyaan dan dokumen yang diambil.

Laluan yang berjaya, iaitu yang membawa kepada jawapan yang betul, dilabelkan sebagai positif (dokumen berguna), manakala laluan yang menghasilkan ralat atau jawapan yang salah ditandakan sebagai negatif (dokumen bising). Pembezaan ini kemudiannya akan membantu model memahami dan menghasilkan semula dinamik carian realistik, termasuk hasil yang berkaitan dan hasil yang kurang berguna.

2. Peranan pembelajaran pengukuhan dengan simulasi kurikulum

Selepas penalaan diselia, model bergerak ke fasa latihan pengukuhan, di mana amalan baik diperkukuh dan kesilapan dikenakan penalti. Di sini, LLM simulasi itu sendiri bertindak sebagai enjin carian, menjawab pertanyaan yang dijana oleh model dasar dan memulangkan dokumen yang mungkin berguna atau bising.

Kesukaran untuk model meningkat secara progresif, berikutan strategi kurikulum yang perlahan-lahan merendahkan kualiti dokumen yang dihasilkan, supaya Sistem ini mula-mula belajar dalam persekitaran terkawal dan, semasa ia berkembang, berhadapan dengan contoh yang semakin bising atau kompleks.. Pendekatan ini membantu model membangunkan keupayaan carian dan penaakulan yang mantap di bawah keadaan yang realistik.

3. Reka bentuk ganjaran dan metrik penilaian

Untuk membimbing pembelajaran, ZeroSearch menggunakan fungsi ganjaran berdasarkan skor F1, yang mengimbangi ketepatan dan mengingat semula dengan mengambil kira padanan perkataan antara ramalan dan jawapan yang betul. Matlamatnya adalah untuk memaksimumkan ketepatan jawapan akhir yang model mampu hasilkan, tanpa perlu terlalu risau tentang pemformatan, kerana LLM biasanya menghasilkan teks yang diformat dengan baik secara semula jadi.

4. Interaksi berbilang pusingan dan templat penaakulan

Semasa latihan, templat interaksi digunakan yang membahagikan proses kepada tiga peringkat: penaakulan dalaman (dibataskan antara tag seperti <think>...</think>), menjalankan perundingan (<search>...</search>dan penjanaan tindak balas (<answer>...</answer>). Ini membolehkan model meningkatkan keupayaannya untuk merumuskan pertanyaan yang berkaitan dan memberikan jawapan yang berasas.

5. Keserasian dan kebolehskalaan

ZeroSearch menyokong model bahasa utama, seperti keluarga Qwen-2.5, Qwen-2.5, LLaMA-3.2 dan varian asas atau disesuaikan arahan. Tambahan pula, ia boleh dilaksanakan dengan algoritma pengukuhan yang berbeza (PPO, GRPO, antara lain), yang memudahkan penggunaannya dalam pelbagai persekitaran pembangunan.

  Gemini untuk Android: Revolusi dalam kecerdasan buatan dan produktiviti mudah alih

Aplikasi dan Keputusan ZeroSearch

Data dunia sebenar: Berapa banyak yang dijimatkan oleh ZeroSearch dan bagaimana prestasinya?

Eksperimen yang dijalankan oleh Alibaba dan dilaporkan dalam penerbitan dan repositori khusus menunjukkan bahawa ZeroSearch mencapai prestasi yang setanding, malah lebih baik daripada, yang diperoleh melalui enjin carian komersial sebenar.. Penjimatan kos amat ketara:

  • Melakukan 64.000 pertanyaan menggunakan API Carian Google boleh menelan kos sekitar Dolar AS 586,70 (lebih kurang €540).
  • Jumlah pertanyaan yang sama, dijana dan diuruskan dengan 14.000 bilion parameter LLM menggunakan ZeroSearch, mengurangkan kos kepada hanya Dolar AS 70,80 (kira-kira € 65).
  • Perbezaan ini membayangkan a 88% penjimatan kos latihan, menghapuskan pergantungan pada API luaran dan membolehkan skalabiliti yang lebih besar.

Sebaliknya, hasil kualiti mengagumkan: eksperimen menunjukkan bahawa modul perolehan parameter 7B sepadan dengan prestasi sistem berdasarkan Carian Google, manakala dengan parameter 14B, model malah mengatasinya dalam tugasan soal jawab, menggunakan set data inferens tunggal dan kompleks.

Kelebihan utama dan kesan ke atas industri kecerdasan buatan

Ketibaan ZeroSearch mewakili anjakan radikal dalam cara syarikat dan pembangun boleh mendekati latihan model lanjutan.:

  • Pengurangan drastik halangan ekonomi: Memudahkan akses kepada teknik AI lanjutan untuk PKS, syarikat permulaan dan pembangun bebas yang sebelum ini ditahan oleh kos API komersial.
  • Kawalan yang lebih besar ke atas latihanDengan menjana dokumen simulasi, pasukan boleh menentukan dengan tepat maklumat yang diterima oleh model, melaraskan kesukaran dan kualiti agar sesuai dengan keperluan mereka.
  • Meningkatkan autonomi teknikal: Meminimumkan pergantungan pada platform teknologi asing yang besar, mempromosikan pembangunan tempatan bagi penyelesaian AI tersuai.
  • Kebolehsuaian dan modularitiZeroSearch boleh digunakan pada pelbagai model dan disesuaikan dengan aliran kerja dan keperluan perniagaan yang berbeza.

Perbezaan daripada strategi sebelumnya: RAG, carian sebenar dan simulasi

Sebelum ZeroSearch, penyelesaian yang paling biasa untuk menyediakan maklumat terkini dan tepat kepada LLM ialah penggunaan RAG (Retrieval-Augmented Generation), di mana model menanyakan sumber luaran menggunakan carian dunia sebenar. Walau bagaimanapun, ini memberikan beberapa masalah yang jelas:

  • Kos yang tinggi: Penggunaan API yang berterusan boleh meningkatkan belanjawan.
  • Kualiti boleh ubah: Dokumen yang diambil boleh menjadi sangat tidak konsisten bergantung pada carian dan API itu sendiri.
  • Had undang-undang dan privasi: Bergantung pada perkhidmatan pihak ketiga melibatkan risiko undang-undang dan politik, terutamanya jika anda berlatih dengan maklumat sensitif.

ZeroSearch menghapuskan keperluan untuk terus merujuk kepada sumber luaran, membolehkan model belajar mencari "dalam dirinya sendiri" kerana ia mensimulasikan pengalaman berinteraksi dengan enjin carian.

  Pembelajaran Mesin: Konsep Asas dan Lanjutan

Kesan dan aplikasi kehidupan sebenar: daripada Quark kepada pendemokrasian AI

Alibaba telah pun menyepadukan ZeroSearch ke dalam produk komersial. Aplikasi Quark mereka, yang dikuasakan oleh model Qwen, telah menyaksikan peningkatan yang ketara dalam penaakulan dan respons yang tepat kepada pertanyaan yang kompleks berkat teknik ini. Tetapi mungkin perkara yang paling relevan ialah itu ZeroSearch membuka pintu kepada syarikat yang lebih kecil untuk mereka bentuk model termaju mereka sendiri tanpa memerlukan infrastruktur luaran yang mahal..

manus ia-0
artikel berkaitan:
Semua yang anda perlu tahu tentang Manus, ejen AI yang ingin melakukan tugas anda

Komuniti penyelidikan mempunyai akses kepada repositori kod, set data dan model pra-latihan pada kedua-dua GitHub dan Hugging Face, yang memupuk penerimaan dan percubaan global.

Apakah rupa masa depan latihan AI terima kasih kepada ZeroSearch?

Apabila teknik ini matang, kita akan melihat percambahan pembantu pintar dengan keupayaan carian lanjutan tanpa bergantung pada Google, Bing atau sebagainya. Ini membuka peluang baharu dalam pendidikan, perniagaan dan penyelidikan, sambil berpotensi menghakis penguasaan enjin carian utama dalam sektor kecerdasan buatan.

Bagi Sepanyol dan Eropah, ini mewakili kemungkinan pertumbuhan autonomi, pergantungan dan kos teknologi yang berkurangan, dan kawalan strategik yang lebih besar ke atas sistem maklumat kritikal.

Kebangkitan ZeroSearch menandakan permulaan era baharu yang melatih model AI tidak lagi menjadi kemewahan yang tersedia untuk segelintir orang terpilih dan menjadi alat yang boleh diakses, berskala dan semakin canggih. Dengan mengajar AI untuk mencari tanpa meninggalkan persekitarannya sendiri, Alibaba telah mengambil langkah besar ke arah membangunkan sistem cekap diri dan cekap yang menyesuaikan diri dengan sebarang keperluan.. Ia bukan lagi hanya tentang mengurangkan kos, tetapi mengenai mencipta semula peraturan permainan untuk keseluruhan industri kecerdasan buatan.

Apa itu e-dagang
artikel berkaitan:
Apakah itu e-dagang: 10 Kunci Memahami Perdagangan Elektronik