ZeroSearch: Ang rebolusyon ng Alibaba para sa pagsasanay ng AI nang mahusay at awtonomiya

Huling pag-update: Mayo 12 2025
May-akda: TecnoDigital
  • Kapansin-pansing binabawasan ng ZeroSearch ang gastos ng pagsasanay sa mga modelo ng AI sa pamamagitan ng mga simulate na paghahanap, na inaalis ang pag-asa sa mga panlabas na search engine.
  • Gumagamit ito ng pinangangasiwaang reinforcement learning system na nagpapahusay sa recall at mga kakayahan sa pangangatwiran ng mga LLM.
  • Nagbibigay-daan ito sa mga kumpanya at developer na sanayin ang mga advanced na modelo sa mababang halaga, pagkakaroon ng awtonomiya at kontrol sa proseso.

Ano ang ZeroSearch, artificial intelligence?

Ang inobasyon sa larangan ng artificial intelligence ay sumabog sa mga nakaraang taon, lalo na kaugnay ng malalaking modelo ng wika (LLMs). Ang isa sa mga pinakamahalagang tagumpay ng 2025 ay ang ZeroSearch, isang teknolohiyang binuo ng Alibaba na nanginginig sa mga pundasyon kung paano sinasanay ang mga modelong ito. Ano nga ba ang ZeroSearch, at bakit ito nagdudulot ng napakaraming buzz sa industriya? Sa artikulong ito, tinitingnan namin nang detalyado ang bagong pamamaraang ito, kabilang ang kung paano ito gumagana, anong mga bentahe ang inaalok nito sa mga tradisyonal na pamamaraan, at kung paano nito mababago ang pagbuo ng AI sa lahat ng antas.

Sa mga tech circle, ang usapan ay tungkol dito: Nangangako ang ZeroSearch na bawasan ang mga gastos sa pagsasanay ng mga modelo ng artificial intelligence ng hindi bababa sa 88%.. Ang luksong ito sa kahusayan, malayo sa pagiging isang gimmick lamang sa marketing, ay may malalim na implikasyon para sa mga negosyo malaki at maliit, mga developer, at, siyempre, para sa pagsulong ng pangkalahatang artificial intelligence.

Ano ang ZeroSearch at saan ito nanggaling?

Ang ZeroSearch ay isang bagong reinforcement learning-based technique na idinisenyo upang sanayin ang mga modelo ng wika nang hindi umaasa sa mga tunay na external na search engine sa panahon ng proseso ng pagsasanay. Ang inobasyong ito ay nagmula sa Tongyi laboratory ng Alibaba, na may layuning malutas ang dalawang karaniwang problema sa pagsasanay ng mga modelo ng AI na gumagamit ng mga paghahanap sa web: ang mataas na gastos sa ekonomiya para sa paggamit ng mga API at ang unpredictability sa kalidad ng mga nakuhang dokumento.

Hanggang ngayon, ang pagbuo ng mga advanced na assistant, chatbots, o recommendation engine ay nangangailangan ng pagpapadala ng libu-libong query sa mga search engine tulad ng Google sa pamamagitan ng mga bayad na serbisyo, pagtaas ng gastos at paglilimita sa scalability, lalo na para sa mga kumpanyang may mahigpit na badyet.

Binabago ng ZeroSearch ang mga panuntunan ng laro sa pamamagitan ng pagtaya sa isang system kung saan Ang LLM mismo ay natututo na gayahin ang pagpapatakbo ng isang search engine, pagbuo ng may-katuturan o kahit maingay (walang kaugnayan) na mga dokumento bilang tugon sa mga query at sa gayon ay nagpapahintulot sa pagsasanay nang walang panlabas na pakikipag-ugnayan.

Paano Gumagana ang ZeroSearch sa AI

Paano gumagana ang ZeroSearch? Detalyadong teknikal na paliwanag

Sa gitna ng ZeroSearch ay isang reinforcement learning (RL) framework na nag-aalis ng pangangailangan para sa mga aktwal na paghahanap sa web sa panahon ng pagsasanay. Tingnan natin ang prosesong ito nang hakbang-hakbang, batay sa diskarte ng Alibaba at ang malawak na nai-publish na pagsusuri ng pamamaraan.

  Lahat tungkol sa Generative Artificial Intelligence: kung paano ito gumagana, ginagamit, at mga panganib

1. Magaan na pinangangasiwaang pag-tune para gayahin ang mga paghahanap

Ang lahat ay nagsisimula sa isa pinangangasiwaan na fine-tuning (SFT) kung saan ang LLM ay sinanay na kumilos bilang isang module ng pagkuha ng impormasyon. Sa pamamagitan ng pagsasaayos na ito, natututo itong bumuo ng mga dokumento ng tugon para sa mga query, na ginagaya ang istilo ng teksto at uri ng nilalaman na iaalok ng isang tunay na search engine. Sa unang yugtong ito, ang mga trajectory ng pakikipag-ugnayan sa pagitan ng modelo at isang search engine ay kinokolekta, na nagtatatag ng mga talaan ng mga query at mga dokumentong nakuha.

Ang mga matagumpay na landas, iyon ay, ang mga humahantong sa tamang sagot, ay may label na positibo (mga kapaki-pakinabang na dokumento), habang ang mga nagreresulta sa mga error o maling sagot ay minarkahan bilang negatibo (maingay na mga dokumento). Ang pagkakaiba-iba na ito ay tutulong sa modelo na maunawaan at muling gawin ang dynamics ng isang makatotohanang paghahanap, kabilang ang mga nauugnay na resulta at hindi gaanong kapaki-pakinabang.

2. Tungkulin ng reinforcement learning na may curricular simulation

Pagkatapos ng pinangangasiwaang pag-tune, ang modelo ay lilipat sa yugto ng pagsasanay sa pagpapatibay, kung saan ang mabubuting kasanayan ay pinalalakas at ang mga pagkakamali ay pinarurusahan. Dito, ang simulate na LLM mismo ay gumaganap bilang isang search engine, tumutugon sa mga query na nabuo ng modelo ng patakaran at nagbabalik ng mga dokumento na maaaring maging kapaki-pakinabang o maingay.

Ang kahirapan para sa modelo ay unti-unting tumataas, kasunod ng isang curricular na diskarte na dahan-dahang nagpapababa sa kalidad ng mga dokumentong nabuo, upang Ang system ay unang natututo sa mga kinokontrol na kapaligiran at, habang ito ay umuunlad, ay nahaharap sa lalong maingay o kumplikadong mga halimbawa.. Tinutulungan ng diskarteng ito ang modelo na bumuo ng matatag na kakayahan sa paghahanap at pangangatwiran sa ilalim ng makatotohanang mga kondisyon.

3. Disenyo ng mga gantimpala at mga sukatan ng pagsusuri

Upang gabayan ang pag-aaral, ang ZeroSearch ay gumagamit ng isang function ng gantimpala batay sa marka ng F1, na nagbabalanse sa katumpakan at paggunita sa pamamagitan ng pagsasaalang-alang sa tugma ng salita sa pagitan ng hula at tamang sagot. Ang layunin ay i-maximize ang katumpakan ng mga huling sagot na nagagawa ng modelo, nang hindi labis na nababahala tungkol sa pag-format, dahil ang mga LLM ay karaniwang gumagawa ng mga text na na-format nang maayos.

4. Multi-turn na pakikipag-ugnayan at mga template ng pangangatwiran

Sa panahon ng pagsasanay, ginagamit ang mga template ng pakikipag-ugnayan na naghahati sa proseso sa tatlong yugto: panloob na pangangatwiran (tinatanggal sa pagitan ng mga tag tulad ng <think>...</think>), pagsasagawa ng konsultasyon (<search>...</search>) At pagbuo ng tugon (<answer>...</answer>). Nagbibigay-daan ito sa modelo na pahusayin ang kakayahan nitong magbalangkas ng mga nauugnay na query at magbigay ng mga sagot na may batayan.

5. Pagkakatugma at scalability

Sinusuportahan ng ZeroSearch ang mga pangunahing modelo ng wika, tulad ng pamilyang Qwen-2.5, Qwen-2.5, LLaMA-3.2 at base o mga variant na nakatutok sa pagtuturo. Higit pa rito, maaari itong ipatupad sa iba't ibang mga algorithm ng reinforcement (PPO, GRPO, bukod sa iba pa), na nagpapadali sa pag-aampon nito sa iba't ibang mga kapaligiran sa pag-unlad.

  Gemini para sa Android: Isang rebolusyon sa artificial intelligence at mobile productivity

Mga Aplikasyon at Resulta ng ZeroSearch

Real-world data: Magkano ang nai-save ng ZeroSearch at paano ito gumaganap?

Ang mga eksperimento na isinagawa ng Alibaba at iniulat sa mga espesyal na publikasyon at mga repositoryo ay nagpapakita na ang ZeroSearch ay nakakamit ng pagganap na maihahambing sa, at mas mataas pa sa, sa mga nakuha sa pamamagitan ng mga tunay na komersyal na search engine.. Ang mga pagtitipid sa gastos ay partikular na kapansin-pansin:

  • Ang pagsasagawa ng 64.000 query gamit ang Google Search API ay maaaring magastos US dollar 586,70 (tinatayang €540).
  • Ang parehong dami ng query, nabuo at pinamamahalaan na may 14.000 bilyong parameter na LLM gamit ang ZeroSearch, ay binabawasan ang gastos sa US dollar 70,80 (mga € 65).
  • Ang pagkakaibang ito ay nagpapahiwatig ng a 88% na matitipid sa mga gastos sa pagsasanay, inaalis ang dependency sa mga panlabas na API at nagbibigay-daan para sa mas malaking scalability.

Sa kabilang banda, ang mga resulta ng kalidad ay kahanga-hanga: ipinapakita ng mga eksperimento na ang isang 7B-parameter retrieval module ay tumutugma sa performance ng mga system batay sa Google Search, habang may 14B na mga parameter, nahihigitan pa ito ng modelo sa mga question-and-answer na gawain, gamit ang parehong single-hop at kumplikadong mga dataset ng inference.

Mga pangunahing bentahe at epekto sa industriya ng artificial intelligence

Ang pagdating ng ZeroSearch ay kumakatawan sa isang radikal na pagbabago sa paraan na maaaring lapitan ng mga kumpanya at developer ang pagsasanay ng mga advanced na modelo.:

  • Matinding pagbabawas ng hadlang sa ekonomiya: Pinapadali ang pag-access sa mga advanced na diskarte sa AI para sa mga SME, startup, at independiyenteng developer na dating pinigilan ng gastos ng mga komersyal na API.
  • Higit na kontrol sa pagsasanaySa pamamagitan ng pagbuo ng mga simulate na dokumento, maaaring tukuyin ng mga koponan kung anong impormasyon ang natatanggap ng modelo, pagsasaayos ng kahirapan at kalidad upang umangkop sa kanilang mga pangangailangan.
  • Pagpapalakas ng teknikal na awtonomiya: Binabawasan ang pag-asa sa malalaking dayuhang platform ng teknolohiya, na nagpo-promote ng lokal na pag-unlad ng mga naka-customize na solusyon sa AI.
  • Kakayahang umangkop at modularityMaaaring i-deploy ang ZeroSearch sa iba't ibang modelo at iayon sa iba't ibang daloy ng trabaho at mga kinakailangan sa negosyo.

Mga pagkakaiba mula sa mga nakaraang diskarte: RAG, totoong paghahanap at simulation

Bago ang ZeroSearch, ang pinakakaraniwang solusyon para sa pagbibigay ng up-to-date at tumpak na impormasyon sa mga LLM ay ang paggamit ng RAG (Retrieval-Augmented Generation), kung saan nagtatanong ang modelo ng mga panlabas na mapagkukunan gamit ang mga paghahanap sa totoong mundo. Gayunpaman, nagpapakita ito ng ilang malinaw na problema:

  • Mataas na gastos: Ang patuloy na paggamit ng mga API ay maaaring tumaas ang mga badyet.
  • Kalidad ng variable: Ang mga nakuhang dokumento ay maaaring maging napaka-inconsistent depende sa mga paghahanap at sa API mismo.
  • Mga limitasyon sa legal at privacy: Ang pag-asa sa mga serbisyo ng third-party ay nagsasangkot ng mga legal at pampulitikang panganib, lalo na kung nagsasanay ka gamit ang sensitibong impormasyon.

Tinatanggal ng ZeroSearch ang pangangailangan na patuloy na sumangguni sa mga panlabas na mapagkukunan, na nagbibigay-daan sa modelo na matutong maghanap "sa loob mismo" habang ginagaya nito ang karanasan ng pakikipag-ugnayan sa isang search engine.

  Machine Learning: Basic at Advanced na Mga Konsepto

Epekto at totoong buhay na mga aplikasyon: mula Quark hanggang sa demokratisasyon ng AI

Isinama na ng Alibaba ang ZeroSearch sa mga komersyal na produkto. Ang kanilang Quark application, na pinalakas ng mga modelong Qwen, ay nakakita ng makabuluhang mga pagpapabuti sa pangangatwiran at tumpak na mga tugon sa mga kumplikadong query salamat sa diskarteng ito. Ngunit marahil ang pinaka-kaugnay na bagay ay iyon Binuksan ng ZeroSearch ang pinto para sa mas maliliit na kumpanya na magdisenyo ng sarili nilang mga advanced na modelo nang hindi nangangailangan ng mamahaling panlabas na imprastraktura..

manus ia-0
Kaugnay na artikulo:
Lahat ng kailangan mong malaman tungkol kay Manus, ang AI agent na gustong gawin ang iyong trabaho

Ang komunidad ng pananaliksik ay may access sa code repository, mga dataset, at pre-trained na mga modelo sa parehong GitHub at Hugging Face, na nagsusulong ng global adoption at experimentation.

Ano ang magiging hitsura ng hinaharap ng pagsasanay sa AI salamat sa ZeroSearch?

Habang tumatanda ang mga diskarteng ito, makikita natin ang pagdami ng matatalinong katulong na may mga advanced na kakayahan sa paghahanap nang hindi umaasa sa Google, Bing, o katulad nito. Nagbubukas ito ng mga bagong pagkakataon sa edukasyon, negosyo, at pananaliksik, habang potensyal na pinapawi ang pangingibabaw ng mga pangunahing search engine sa sektor ng artificial intelligence.

Para sa Spain at Europe, kinakatawan nito ang posibilidad ng autonomous na paglago, nabawasan ang pagdepende sa teknolohiya at mga gastos, at higit na estratehikong kontrol sa mga kritikal na sistema ng impormasyon.

Ang pagtaas ng ZeroSearch ay nagmamarka ng simula ng isang bagong panahon kung saan ang pagsasanay sa mga modelo ng AI ay titigil na maging isang luxury na available sa ilang piling at magiging isang accessible, scalable, at lalong sopistikadong tool. Sa pamamagitan ng pagtuturo sa AI na maghanap nang hindi umaalis sa sarili nitong kapaligiran, gumawa ang Alibaba ng isang malaking hakbang tungo sa pagbuo ng self-sufficient, mahusay na mga sistema na umaangkop sa anumang pangangailangan.. Hindi na ito tungkol lamang sa pagbabawas ng mga gastos, ngunit tungkol sa muling pag-imbento ng mga panuntunan ng laro para sa buong industriya ng artificial intelligence.

Ano ang e-commerce
Kaugnay na artikulo:
Ano ang e-commerce: 10 Susi sa Pag-unawa sa Electronic Commerce