- જટિલ અવલોકનક્ષમતા સમસ્યાઓ સાથે વાસ્તવિક દુનિયાના પરીક્ષણોમાં, GPT-5 અને GPT-5.1 કોડેક્સ એકમાત્ર એવા મોડેલ હતા જેમણે ઉત્પાદનમાં જમાવટ માટે તૈયાર સંકલિત, કમ્પાઇલેબલ કોડ પહોંચાડ્યો.
- ક્લાઉડ કોડ આર્કિટેક્ચર અને વ્યાપક દસ્તાવેજીકરણમાં ઉત્કૃષ્ટ હતો, પરંતુ તેના ઉકેલોમાં મહત્વપૂર્ણ ભૂલો શામેલ હતી અને તે હાલની પાઇપલાઇનમાં એકીકૃત થઈ ન હતી, જેના કારણે અનુગામી મેન્યુઅલ કાર્યની જરૂર પડી.
- GPT-5.1 કોડેક્સે GPT-5 કરતાં ઝડપ, સ્થાપત્ય સ્વચ્છતા અને ટોકન કાર્યક્ષમતામાં સુધારો કર્યો, જેના પરિણામે સમાન કાર્ય માટે ક્લાઉડ કરતાં નોંધપાત્ર રીતે સસ્તું સોલ્યુશન મળ્યું.
- GPT-5.1-કોડેક્સ-મેક્સ કોમ્પેક્શન અને ડીપ રિઝનિંગ મોડ્સ ઉમેરે છે, જે તેને એક એજન્ટ એન્જિન બનાવે છે જે ટ્રેક ગુમાવ્યા વિના મોટા ભંડારો પર કલાકો સુધી કામ કરવા સક્ષમ છે.
જો તમે કોડ લખવામાં તમારા દિવસો વિતાવશો, તો તમે નોંધ્યું હશે કે તાજેતરમાં ત્યાં છે પ્રોગ્રામિંગ માટે AI મોડેલોનો વાસ્તવિક હિમપ્રપાતGPT-5.1 કોડેક્સ, GPT-5 કોડેક્સ, ક્લાઉડ કોડ, કિમી K2 થિંકિંગ, સોનેટ 4.5, હૈકુ... યાદી લગભગ દર અઠવાડિયે વધતી જાય છે, અને દરેક વિક્રેતા શ્રેષ્ઠ વિકાસ સહાયક હોવાનો દાવો કરે છે. પરંતુ જ્યારે તમે વાસ્તવિક પ્રોજેક્ટ્સ પર તેનો ઉપયોગ કરો છો, ત્યારે તફાવતો ખૂબ જ સ્પષ્ટ થઈ જાય છે.
તાજેતરના અઠવાડિયામાં ઘણી ટીમો સરખામણી કરી રહી છે GPT-5.1 કોડેક્સ, GPT-5 કોડેક્સ, ક્લાઉડ કોડ અને કિમી K2 થિંકિંગ ઘણી મુશ્કેલ પરિસ્થિતિઓમાં: મોટા ભંડારો, વાસ્તવિક પાઇપલાઇન્સ સાથે એકીકરણ, લોડ પરીક્ષણ અને જટિલ અવલોકનક્ષમતા સમસ્યાઓ. અહીં કોઈ સરળ પ્રોગ્રામિંગ કાટા નથી, પરંતુ બગ્સ અને સુવિધાઓ છે જે ખોટી પડે તો ઉત્પાદનને વિક્ષેપિત કરી શકે છે. આ બધી સામગ્રીમાંથી એક આકર્ષક સંદેશ ઉભરી આવે છે: OpenAI ના કોડેક્સ, અને ખાસ કરીને GPT-5.1 કોડેક્સ, સૌથી વધુ "ખરેખર ડિપ્લોયેબલ કોડ" પહોંચાડી રહ્યા છે.
GPT-5.1 કોડેક્સ વિરુદ્ધ ક્લાઉડ કોડ: દ્વંદ્વયુદ્ધની એક ઝડપી ઝાંખી
જ્યારે કોઈ "GPT-5.1 કોડેક્સ વિરુદ્ધ ક્લાઉડ કોડ બેન્ચમાર્ક" વિશે વાત કરે છે, ત્યારે તેઓ ખરેખર સરખામણી કરી રહ્યા હોય છે કોડ સહાયકના બે તદ્દન અલગ ફિલોસોફીGPT-5.1 કોડેક્સ (અને તેનું ઉત્ક્રાંતિ GPT-5.1-કોડેક્સ-મેક્સ) શરૂઆતથી જ એક જ રીપોઝીટરી પર ઘણા કલાકો કામ કરતા એજન્ટો માટે એક એન્જિન તરીકે ડિઝાઇન કરવામાં આવ્યું છે: તે સંદર્ભ સમજે છે, ફાઇલોને સંપાદિત કરે છે, પરીક્ષણો ચલાવે છે અને તેની પોતાની ભૂલો સુધારે છે. બીજી બાજુ, ક્લાઉડ કોડ કોડ સમજાવવામાં, આર્કિટેક્ચર ડિઝાઇન કરવામાં અને દસ્તાવેજીકરણ જનરેટ કરવામાં શ્રેષ્ઠ છે, પરંતુ જ્યારે હાલના કોડબેઝમાં ફેરફારોને ખરેખર એકીકૃત કરવાની વાત આવે છે ત્યારે તે ઘણીવાર ઓછું પડે છે.
નિરીક્ષણ પ્રોજેક્ટ્સ સાથે વાસ્તવિક દુનિયાના પરીક્ષણોમાં, આ તફાવત સ્પષ્ટપણે જોવા મળ્યો હતો: કોડેક્સ મોડેલો જ એવા હતા જે સંકલિત, ઉત્પાદન-તૈયાર કોડ જનરેટ કરતા હતા.જ્યારે ક્લાઉડ અને કિમીએ આકર્ષક સ્થાપત્ય, સર્જનાત્મક વિચારો અને ઘણી બધી લાઇનો બનાવી... પરંતુ મહત્વપૂર્ણ ભૂલો, એકીકરણ નિષ્ફળતાઓ અથવા ફક્ત કોડ જે કમ્પાઇલ પણ ન કરી શકે તેની સાથે.
બેન્ચમાર્ક કેવી રીતે કરવામાં આવ્યો: વાસ્તવિક સમસ્યાઓ, રમકડાં નહીં
બેન્ચમાર્કને અર્થપૂર્ણ બનાવવા માટે, લાક્ષણિક "એક ફંક્શન લખો જે સ્ટ્રિંગને ઉલટાવે છે" કસરત સંપૂર્ણપણે ટાળવામાં આવી હતી. તેના બદલે, નીચેના પસંદ કરવામાં આવ્યા હતા: અવલોકનક્ષમતા પ્લેટફોર્મની અંદર બે જટિલ પડકારોખૂબ જ ચોક્કસ કામગીરી અને વિશ્વસનીયતા આવશ્યકતાઓ સાથે, અને શ્રેષ્ઠ પ્રથાઓનું પાલન કરીને સોફ્ટવેર એન્જિનિયરિંગમાં પરીક્ષણ અને અમલીકરણ:
પહેલો પડકાર: ની સિસ્ટમ ડિઝાઇન અને અમલમાં મૂકવી વિસંગતતાઓની આંકડાકીય શોધ બેઝલાઇન એરર રેટ શીખવા, z-સ્કોર્સ અને મૂવિંગ એવરેજની ગણતરી કરવા, ફેરફારના દરમાં સ્પાઇક્સ શોધવા અને 10 ms કરતા ઓછા લેટન્સી સાથે પ્રતિ મિનિટ 100.000 થી વધુ લોગ હેન્ડલ કરવામાં સક્ષમ. આ બધું હાલની પાઇપલાઇનમાં સંકલિત છે.
બીજો પડકાર: ઉકેલો વિતરિત ચેતવણીનું ડુપ્લિકેશન જ્યારે બહુવિધ પ્રોસેસરો લગભગ એકસાથે સમાન વિસંગતતા શોધે છે, ત્યારે તેમની વચ્ચે 5 સેકન્ડથી ઓછા સમયના ડુપ્લિકેટ્સને ટાળવા, 3 સેકન્ડ સુધીના ઘડિયાળના વિલંબને સહન કરવા અને સિસ્ટમને સ્થિર રાખ્યા વિના પ્રોસેસર ક્રેશને હેન્ડલ કરવા જરૂરી હતું.
પરીક્ષણ કરાયેલા ચાર મોડેલો -GPT-5 કોડેક્સ, GPT-5.1 કોડેક્સ, ક્લાઉડ કોડ અને કિમી K2 થિંકિંગતેમને સમાન IDE (કર્સર) માં અને સમાન ભંડારમાંથી સમાન પ્રોમ્પ્ટ મળ્યા. માપ લેવામાં આવ્યા. વિતાવેલો સમય, ટોકન્સનો વપરાશ, ડોલરમાં કિંમત, કોડ ગુણવત્તા, મહત્વપૂર્ણ ભૂલોની સંખ્યા અને, ખૂબ જ મહત્વપૂર્ણ, શું પરિણામ ખરેખર હાલના કોડબેઝ સાથે જોડાયેલું હતું કે "સમાંતર પ્રોટોટાઇપ" રહ્યું.
ટેસ્ટ ૧ ના પરિણામો: વિસંગતતાઓની આંકડાકીય શોધ
પ્રથમ પરીક્ષણમાં, દરેક મોડેલનું લક્ષ્ય એ હતું કે તે ઉત્પાદન-તૈયાર આંકડાકીય વિસંગતતા ડિટેક્ટર: દર ગણતરીઓ, સ્લાઇડિંગ વિંડોઝ, z-સ્કોર્સ, સ્પાઇક્સ બદલો, શૂન્ય દ્વારા ભાગાકારનું કાળજીપૂર્વક સંચાલન, અને વર્ગમાં એકીકરણ AnomalyDetector અને વાસ્તવિક પાઇપલાઇનમાં.
ક્લાઉડ કોડ તે ધમાકેદાર રીતે લોન્ચ કરવામાં આવ્યું હતું: કોડની હજારો નવી લાઇનો, વ્યાપક દસ્તાવેજીકરણ, અનેક આંકડાકીય પદ્ધતિઓ (z-સ્કોર, EWMA, વિનિમય દર તપાસ), અને કૃત્રિમ બેન્ચમાર્ક પણ. કાગળ પર, તે પાઠ્યપુસ્તક એન્જિનિયરિંગ જેવું લાગતું હતું. પરંતુ જ્યારે કોડ ચલાવવામાં આવ્યો, ત્યારે ફ્લિપ બાજુ દેખાઈ: એક વિનિમય દર કાર્ય જે પાછું આવ્યું Infinity જ્યારે પાછલી વિન્ડો શૂન્ય હતી, અને પછી a toFixed() તે મૂલ્ય વિશે જેના કારણે તાત્કાલિક રેન્જએરરવધુમાં, બેઝલાઇન સિસ્ટમ ખરેખર કાર્યરત ન હતી, અને પરીક્ષણો બિન-નિર્ધારણવાદી હતા (ઉપયોગ કરીને Math.random()અને તે બધાની ટોચ પર, આમાંથી કંઈ પણ વાસ્તવિક પાઇપલાઇન સાથે જોડાયેલું નહોતું.પરિણામ: એક આકર્ષક પ્રોટોટાઇપ, પરંતુ ઉત્પાદનમાં હાલ મૂકવું અશક્ય છે.
કરવાનો પ્રયાસ GPT-5 કોડેક્સ તે ઘણું વ્યવહારિક હતું. લગભગ 18 મિનિટમાં તે ઉત્પન્ન થયું સારી રીતે સંકલિત કોડ, ફક્ત થોડીક સો લાઇનોના ચોખ્ખા ફેરફારો સાથે, સીધા વર્ગમાં AnomalyDetector અને વાસ્તવિક પ્રવેશ બિંદુઓ. તેઓએ એજ કેસોને હેન્ડલ કરવાની કાળજી લીધી (ઉદાહરણ તરીકે, Number.POSITIVE_INFINITY ફોન કરતા પહેલા toFixed()), O(1) જટિલતા સાથે રોલિંગ વિન્ડોમાં વૃદ્ધિગત આંકડા અમલમાં મૂક્યા અને આગાહી માટે સમય બકેટ્સને દિવાલ ઘડિયાળ સાથે ગોઠવ્યા. એકમ પરીક્ષણો તેઓ નિર્ણાયક હતા અને પરિણામ લગભગ કંઈપણ સ્પર્શ્યા વિના સિસ્ટમમાં ચાલ્યું.
માટે GPT-5.1 કોડેક્સતેમણે વધુ સ્વચ્છ સ્થાપત્ય અભિગમ અપનાવ્યો. કામચલાઉ ડોલને બદલે, તેમણે હેડ/ટેલ પોઇન્ટર અને સમર્પિત વર્ગ સાથે નમૂના-આધારિત રોલિંગ વિન્ડોનો ઉપયોગ કર્યો. RollingWindowStats વર્ગોના સરવાળા કરવા માટે. તેમણે શૂન્ય દ્વારા ભાગાકારને કાળજીપૂર્વક નિયંત્રિત કર્યો જેમ કે સ્થિરાંકોનો ઉપયોગ કરીને MIN_RATE_CHANGE_BASE_RATEતેમણે સંસાધનો બચાવવા માટે બેઝલાઇન અપડેટ ફ્રીક્વન્સી મર્યાદિત કરી અને નિયંત્રિત ટાઇમસ્ટેમ્પ સાથે નિર્ણાયક પરીક્ષણો લખ્યા. ૧૧ મિનિટમાં તેણે GPT-5 કરતાં વધુ નેટ લાઇન્સ ઉત્પન્ન કરી, પરંતુ સરળ આર્કિટેક્ચર, વધુ સારી મેમરી મેનેજમેન્ટ અને સમાન "ડિપ્લોય-રેડી" ગુણવત્તા સાથે..
ચોથો ખેલાડી, કિમી K2 વિચારશીલતાતેઓએ એક સર્જનાત્મક ઉકેલ પસંદ કર્યો જેમાં સ્ટ્રીમિંગ લોગ સપોર્ટ અને બેચ મેટ્રિક્સને જોડવામાં આવ્યા, જેમાં MAD અને EMA પર આધારિત શોધ ઉમેરવામાં આવી. કાગળ પર, તે ખરાબ દેખાતું ન હતું, પરંતુ કોર તૂટી ગયો હતો: તેણે દરેક મૂલ્યનું મૂલ્યાંકન કરતા પહેલા બેઝલાઇન અપડેટ કરી, જેના કારણે z-સ્કોર શૂન્યની નજીક ગયો અને વિસંગતતાઓ વ્યવહારીક રીતે ક્યારેય દેખાશે નહીં.વધુમાં, તેણે ટાઇપસ્ક્રિપ્ટમાં એક સંકલન ભૂલ રજૂ કરી અને ક્લાઉડ જેવી જ વિભાજન-બાય-શૂન્ય સમસ્યાનું પુનરાવર્તન કર્યું. તેનાથી પણ ખરાબ, કોડ કમ્પાઇલ પણ કરતો ન હતો અને સિસ્ટમ સાથે યોગ્ય રીતે જોડાયેલો ન હતો.
આ પ્રથમ રાઉન્ડનો નિષ્કર્ષ એકદમ સ્પષ્ટ છે: બે કોડેક્સ (GPT-5 અને GPT-5.1) જ એવા હતા જેમણે કાર્યાત્મક, સંકલિત અને વ્યાજબી રીતે મજબૂત કોડ પહોંચાડ્યો.GPT-5.1 ક્લાઉડની કિંમત (આ પરીક્ષણમાં લગભગ $0,39) સાથે મેળ ખાય છે, પરંતુ ઓછો સમય લે છે અને વધુ સ્વચ્છ આર્કિટેક્ચર ધરાવે છે.
ટેસ્ટ 2 પરિણામો: વિતરિત ચેતવણી ડીડુપ્લિકેશન
બીજા પડકારે એક સમસ્યા ઉભી કરી વિતરિત સંકલન ક્લાસિક: બહુવિધ પ્રોસેસર્સ લગભગ એકસાથે સમાન વિસંગતતા શોધી શકતા હતા. 5-સેકન્ડની વિંડોમાં શોધાયેલ ડુપ્લિકેટ ચેતવણીઓને ટ્રિગર થવાથી અટકાવવા માટે તે જરૂરી હતું, આ બધું ઘડિયાળના ડિસિંક્રોનાઇઝેશન અને સંભવિત પ્રક્રિયા ક્રેશને સહન કરતી વખતે.
ક્લાઉડ ફરી એકવાર ડિઝાઇન પાસામાં ચમક્યો. તેણે પ્રસ્તાવ મૂક્યો કે ત્રણ સ્તરો પર સ્થાપત્ય: L1 કેશ, ડેટાબેઝ પર L2 તરીકે સલાહકારી તાળાઓ, અને L3 તરીકે અનન્ય અવરોધો. તેમાં NOW() ડેટાબેઝમાંથી પ્રોસેસર ઘડિયાળો પર આધાર રાખવાનું ટાળવા માટે, કનેક્શન ખોવાઈ જવાના કિસ્સામાં તે લોક રિલીઝને સારી રીતે હેન્ડલ કરે છે અને સંઘર્ષ, ઘડિયાળની ત્રાંસી અને નિષ્ફળતાના દૃશ્યોને આવરી લેતી લગભગ 500 લાઇન પરીક્ષણો સાથે આવે છે. જોકે, પહેલા પરીક્ષણની જેમ જ, વાસ્તવિક પ્રોસેસરમાં કંઈપણ પ્લગ થયેલ નહોતું., અને કેટલીક અમલીકરણ વિગતો (જેમ કે વધુ પડતી જાડી લોક કી અથવા બધા સક્રિય ચેતવણીઓ પર લાગુ કરાયેલ સમય વિન્ડો) એ વ્યવહારુ ઉપયોગીતા ઘટાડી.
સમાંતરે, GPT-5 કોડેક્સ તેમણે રિઝર્વેશન અને સમાપ્તિ સાથે ડીડુપ્લિકેશન ટેબલ પર આધારિત ઉકેલ પસંદ કર્યો, વ્યવહારો દ્વારા સંકલિત અને FOR UPDATE. કોડ તે સીધા જ સંકલિત કરવામાં આવ્યું હતું processAlertતેણે સર્વર સમયનો ઉપયોગ કર્યો અને અથડામણોને વાજબી રીતે સારી રીતે હેન્ડલ કરી, જોકે કલમમાં એક નાની રેસ હતી ON CONFLICT જે, આત્યંતિક પરિસ્થિતિઓમાં, બે પ્રોસેસરોને પ્રતિબદ્ધ કરતા પહેલા એક જ ચકાસણી પસાર કરવાની મંજૂરી આપી શકે છે. તે સંપૂર્ણ નહોતું, પરંતુ તે એવી વસ્તુની ખૂબ નજીક હતું જેને તમે નાના ફેરફાર સાથે ઉપયોગમાં લઈ શકો છો.
ની ચાલ GPT-5.1 કોડેક્સ તે વધુ ન્યૂનતમ અને અસરકારક હતું: વધારાના બોર્ડને બદલે, તે તેના પર આધાર રાખતો હતો PostgreSQL કન્સલ્ટિંગ લોક્સ ફંક્શન સાથે acquireAdvisoryLock જેણે જોડી પર SHA-256 નો ઉપયોગ કરીને કી જનરેટ કરી service:alertTypeતે લોક હેઠળ, તે 5-સેકન્ડની વિંડોમાં કોઈ તાજેતરના સક્રિય ચેતવણીઓ છે કે કેમ તે તપાસતું હતું અને જો ન હોય તો, નવી ચેતવણી દાખલ કરતું હતું. જો સમાન ચેતવણી પહેલાથી જ અસ્તિત્વમાં હોય, તો તે નવી ચેતવણી વધુ હોય તો તેની ગંભીરતાને અપડેટ કરતી હતી. આ બધું સાથે સ્ક્યુ મેનેજ કરવા માટે સર્વર ટાઇમસ્ટેમ્પનો સતત ઉપયોગ અને યોગ્ય રીતે સાફ કરેલા બ્લોક્સ finallyપરિણામ: સરળ તર્ક, સહાયક કોષ્ટકો વિના અને GPT-5 દ્વારા ખેંચાયેલી દોડ વિના.
આ પરીક્ષણમાં, કિમિ હા, તે પોતાના તર્કને એકીકૃત કરવામાં સફળ રહ્યો processAlert અને અણુ અપસર્ટ સાથે ડિસ્ક્રીટ 5-સેકન્ડ બકેટ્સ અને બેકઓફ સાથે રીટ્રીઝનો ઉપયોગ કરો. આ વિચાર પોતે જ ખરાબ નહોતો, પરંતુ અમલીકરણ ફરીથી મુખ્ય વિગતોમાં નિષ્ફળ ગયું: જ્યારે બે એક સાથે દાખલ કરવામાં સમાન હતું createdAtધ્વજ ગણતરી isDuplicate તેને ઉલટાવી દેવામાં આવી રહ્યું હતું અને ચેતવણીઓ ખોટી રીતે ફ્લેગ કરવામાં આવી રહી હતી; વધુમાં, બેકઓફ પર બકેટ રિકલ્ક્યુલેશન ક્વેરીમાં પણ લાગુ કરવામાં આવી રહ્યું ન હતું, તેથી તેઓ એ જ સંઘર્ષ પર ફરીથી પ્રયાસ કરતા રહ્યા.ટૂંકમાં, સારી અંતર્જ્ઞાન, નબળી અમલીકરણ.
ફરીથી, આ બીજા રાઉન્ડમાં, જેમણે ડ્રોપડાઉન કોડ બનાવ્યો હતો તેઓ હતા GPT-5 અને GPT-5.1 કોડેક્સ, GPT-5.1 માટે સ્વચ્છતા અને જાતિની સ્થિતિની ગેરહાજરીમાં સ્પષ્ટ ફાયદો સાથે, આ બધું GPT-5 માટે $0,60 ની સરખામણીમાં લગભગ $0,37 ની કિંમતે.
ખર્ચ: કોડેક્સ ક્લાઉડ કરતાં સસ્તું કેમ બને છે?
જો તમે ફક્ત મિલિયન ટોકન્સ દીઠ કિંમત જુઓ, તો તમને લાગશે કે ક્લાઉડ સોનેટ 4.5 અને GPT-5.1 એક જ લીગમાં છે. જો કે, જ્યારે તમે આ બેન્ચમાર્ક્સની બારીકાઈથી સંખ્યાઓમાં ઊંડાણપૂર્વક તપાસ કરો છો, ત્યારે તમે જોશો કે કોડેક્સ ઓછા માટે વધુ આપે છેબે સંયુક્ત પરીક્ષણોમાં, ખર્ચ લગભગ નીચે મુજબ હતો:
- ક્લાઉડ: કુલ મળીને લગભગ $1,68.
- GPT-5 કોડેક્સ: લગભગ $0,95 (ક્લાઉડ કરતાં 43% સસ્તું).
- GPT-5.1 કોડેક્સ: આશરે $0,76 (ક્લાઉડ કરતાં લગભગ 55% ઓછું).
- કિમી: અંદાજિત $0,51, પરંતુ ખર્ચના વિશ્લેષણના અભાવે ઘણી અનિશ્ચિતતા સાથે.
મુખ્ય વાત એ છે કે ક્લાઉડ પ્રતિ એક્ઝિટ ટોકન વધુ ચાર્જ કરે છે (GPT-5.1 માટે $15/M વિરુદ્ધ $10/M) અને વધુમાં, તેની "મોટેથી વિચારો" શૈલી અને સંપૂર્ણ દસ્તાવેજીકરણને કારણે ઘણું વધારાનું ટેક્સ્ટ જનરેટ કરે છે. બીજી બાજુ, કોડેક્સ તેના CLI માં સંદર્ભ કેશીંગનો લાભ મેળવે છે, ઇનપુટ ટોકન્સના મોટા જથ્થાનો ફરીથી ઉપયોગ કરીને તેમને સંપૂર્ણ ચાર્જ કર્યા વિના ફરીથી ઉપયોગ કરે છે. આ ઉપરાંત, GPT-5.1 GPT-5 કરતાં ઉપયોગમાં લેવાતા ટોકન્સની સંખ્યાના સંદર્ભમાં વધુ કાર્યક્ષમ હતું, અને પરિણામ એક વિઝાર્ડ છે જે તે ફક્ત વધુ ઉપયોગી કોડ જનરેટ કરતું નથી, પરંતુ તે તમારા પૈસા પણ બચાવે છે..
"20 યુરો પ્રતિ મહિને" જેવી ફિક્સ્ડ-પ્રાઈસ યોજનાઓની દુનિયામાં, આ ખૂબ જ મૂર્ત વસ્તુમાં અનુવાદ કરે છે: કોડેક્સ વડે તમે મર્યાદા પાર કરતા પહેલા ઘણા કલાકો સુધી કોડ કામ કરી શકો છો.તેનાથી વિપરીત, ક્લાઉડની યોજનાઓ સાથે, સૌથી મોંઘા સબ્સ્ક્રિપ્શન્સ પર પણ અદ્યતન વપરાશકર્તાઓ માટે મર્યાદા સુધી પહોંચવું એકદમ સામાન્ય છે, જ્યારે કોડેક્સ પ્રો સાથે, અતિશય ઉપયોગ સિવાય કોઈ વ્યક્તિ માટે તેને ઓળંગવું દુર્લભ છે.
GPT-5.1-કોડેક્સ-મેક્સ શું ઓફર કરે છે: આખો દિવસ કામ કરતા એજન્ટો
GPT-5.1 કોડેક્સ ઉપર એક પ્રકાર ખાસ કરીને માટે રચાયેલ છે કોડ પર ખૂબ લાંબા અને વિગતવાર કાર્યોGPT-5.1-કોડેક્સ-મેક્સ. આ મોડેલ "જેનેરિક ચેટ" તરફ ધ્યાન કેન્દ્રિત કરતું નથી, પરંતુ કોડેક્સ ઇકોસિસ્ટમમાં એજન્ટ એન્જિન તરીકે કાર્ય કરવા માટે છે અને ઓપનએઆઈ કોડેક્સ સીએલઆઈવિશાળ ભંડારો વાંચવા, ઘણી ફાઇલોમાં ફેરફાર કરવા, ટેસ્ટ સ્યુટ ચલાવવા અને કલાકો સુધી કોર્સમાં રહેવું એ તેના ડીએનએનો ભાગ છે.
મુખ્ય તફાવત એ છે કે કોમ્પેક્શનફક્ત એક વિશાળ સંદર્ભ વિંડો પર આધાર રાખવાને બદલે, મોડેલ સક્ષમ છે સારાંશ અને ઘનીકરણ તે સત્રના જૂના ભાગોને સાચવે છે અને મહત્વપૂર્ણ વિગતો જાળવી રાખે છે. તે મહત્વપૂર્ણ નિર્ણયો ભૂલ્યા વિના, નવા આદેશો માટે જગ્યા બનાવવા માટે તમે પહેલાથી જ લીધેલા પગલાંને "ઝિપ" કરવા જેવું છે. આનો આભાર, તમે વિશાળ મોનોરેપો પર કામ કરી શકો છો, એકસાથે બહુવિધ સેવાઓ સાથે ક્રિયાપ્રતિક્રિયા કરી શકો છો અને કલાકો પહેલા કરેલી ડિઝાઇન પસંદગીઓને હજુ પણ યાદ રાખી શકો છો.
બીજો રસપ્રદ મુદ્દો એ છે કે તર્કના સ્તરો"મધ્યમ" મોડ રોજિંદા કાર્યો (સામાન્ય ટિકિટો, નાની સુવિધાઓ, સામાન્ય રિફેક્ટર્સ) માટે સારી લેટન્સી સાથે યોગ્ય છે. "xHigh" મોડ મોડેલને વધુ આંતરિક ગણતરી સમય અને લાંબી વિચાર પ્રક્રિયાઓ આપે છે, જટિલ સમસ્યાઓમાં વધુ વિશ્વસનીયતા માટે ગતિનું બલિદાન આપે છે: વિશાળ રિફેક્ટર્સ, મુશ્કેલીઓથી ભરેલી લેગસી પાઇપલાઇન્સ, પુનઃઉત્પાદન કરવામાં મુશ્કેલ રેસ, વગેરે. એવા કાર્યો માટે જે સામાન્ય રીતે વરિષ્ઠ વિકાસકર્તા માટે આખી બપોરનો સમય લે છે, આ મોડ એક યોગ્ય રોકાણ છે.
એજન્ટ-વિશિષ્ટ બેન્ચમાર્કમાં, GPT-5.1-કોડેક્સ-મેક્સ પ્રમાણભૂત GPT-5.1 કોડેક્સ કરતાં નોંધપાત્ર સુધારો દર્શાવે છે: SWE-બેન્ચ વેરિફાઇડ અને લેન્સરમાં વધુ કાર્યો પૂર્ણ થયા, ટર્મિનલ બેન્ચમાં વધુ સારું પ્રદર્શન અને, સૌથી ઉપર, લાંબા સત્રો દરમિયાન કોઈ પણ રીતે ધ્યાન ભંગ થયા વિના શાંત રહેવાની વધુ ક્ષમતા. ઘણી ટીમો માટે, આ તફાવતનો અર્થ એ છે કે એજન્ટ ફક્ત એક-વાર પેચ જનરેટ કરવાને બદલે એન્ડ-ટુ-એન્ડ ટિકિટ સંભાળી શકે છે.
સુરક્ષા, સેન્ડબોક્સિંગ અને મોડેલનો જવાબદાર ઉપયોગ
જ્યારે તમે એજન્ટને તમારા ટર્મિનલ અને તમારા રિપોઝીટરીમાં પ્રવેશ આપો છો, ત્યારે તમારા બધા સુરક્ષા એલાર્મ બંધ થઈ જાય તે સામાન્ય છે. કોડેક્સ અને GPT-5.1-કોડેક્સ-મેક્સ હંમેશા એક અંદર કામ કરવા માટે રચાયેલ છે અલગ વાતાવરણ (સેન્ડબોક્સ)ક્લાઉડમાં, એજન્ટ ડિફૉલ્ટ રૂપે નેટવર્ક અક્ષમ કરેલા કન્ટેનરમાં ચાલે છે, અને આઉટબાઉન્ડ ટ્રાફિક ફક્ત ત્યારે જ માન્ય છે જો તમે તેને સ્પષ્ટ રીતે સક્ષમ કરો છો. ઓન-પ્રિમાઇસિસમાં, તે કઈ ફાઇલોને ઍક્સેસ કરી શકે છે તે મર્યાદિત કરવા માટે macOS, Linux, અથવા Windows સેન્ડબોક્સિંગ મિકેનિઝમ્સ (અથવા WSL) પર આધાર રાખે છે.
કોડેક્સની બધી સપાટીઓ પર બે નિયમોનું પુનરાવર્તન થાય છે: જ્યાં સુધી તમે કહો નહીં ત્યાં સુધી નેટવર્ક ખુલશે નહીં.અને એજન્ટ રૂપરેખાંકિત કાર્યસ્થળની બહાર ફાઇલોને સંપાદિત કરી શકતો નથી. આ, વિનાશક આદેશોને ટાળવા માટે ચોક્કસ તાલીમ સાથે જોડાયેલું છે, તે વધુ શક્યતા બનાવે છે કે મોડેલ "આ સાફ કરો" જેવા વાક્યનું ખોટું અર્થઘટન કરીને અડધા પ્રોજેક્ટને કાઢી નાખવા કરતાં સમજદારીપૂર્વક ડિરેક્ટરીને સાફ કરશે.
તરફથી થયેલા હુમલાઓ અંગે પ્રોમ્પ્ટ ઈન્જેક્શન (દુર્ભાવનાપૂર્ણ લખાણો જે AI ને તેના નિયમોને અવગણવા અને રહસ્યો લીક કરવા માટે છેતરવાનો પ્રયાસ કરે છે, ઉદાહરણ તરીકે), કોડેક્સ તાલીમ તમામ બાહ્ય લખાણોને અવિશ્વસનીય ગણવાનો આગ્રહ રાખે છે, જે શ્રેષ્ઠ પ્રથાઓ દ્વારા સમર્થિત છે. AI મોડેલ્સ માટે સ્વચાલિત પરીક્ષણવ્યવહારમાં, આનો અર્થ ડેટા લીક વિનંતીઓનો અસ્વીકાર, બાહ્ય વેબસાઇટ્સ પર ખાનગી કોડ અપલોડ કરવાનો ઇનકાર અને દસ્તાવેજોમાં અથવા વેબ પૃષ્ઠો પર મળેલી કોઈપણ વસ્તુ કરતાં સિસ્ટમ અને વિકાસકર્તા સૂચનાઓનું પાલન કરવાની મજબૂત પસંદગી થાય છે.
GPT-5.1 કોડેક્સ વિરુદ્ધ ક્લાઉડ અને રોજિંદા ઉપયોગમાં લેવાતા અન્ય મોડેલો
એકવાર કોડેક્સ-મેક્સના ચોક્કસ બેન્ચમાર્ક અને ક્ષમતાઓની તપાસ થઈ જાય, પછી એકંદર ચિત્ર એકદમ સ્પષ્ટ થઈ જાય છે: દરેક મોડેલનું પોતાનું આદર્શ માળખું હોય છે.અને સમજદારી એ છે કે દરેક વસ્તુ માટે ફક્ત એક જ સાધનનો ઉપયોગ ન કરવો, પરંતુ દરેક સાધનનો ઉપયોગ ક્યારે કરવો તે જાણવું.
GPT-5.1 કોડેક્સ (અને તેનો મેક્સ વેરિઅન્ટ) ખાસ કરીને જ્યારે તમને જરૂર હોય ત્યારે સારી રીતે ફિટ થાય છે સંકલિત કોડ, ધાર પર ધ્યાન અને ભૂલ માટે ઓછી જગ્યા સાથેબંને અવલોકનક્ષમતા પરીક્ષણોમાં, તે GPT-5 સાથે, એકમાત્ર અમલીકરણ હતું જે અડધા ફાઇલને ફરીથી લખ્યા વિના ઉત્પાદનમાં જમાવી શકાય છે. વધુમાં, કાર્ય દીઠ ખર્ચ સૌથી ઓછો હતો, GPT-5 કરતાં કાર્યક્ષમતામાં સુધારો અને ભાવ-પ્રદર્શન ગુણોત્તર જેને હરાવવા મુશ્કેલ હતો.
ક્લાઉડ સોનેટ 4.5 / ક્લાઉડ કોડ જ્યારે તમને જે જોઈએ છે તે હોય ત્યારે તે ચમકે છે સ્થાપત્ય ડિઝાઇન, ઊંડાણપૂર્વકનું દસ્તાવેજીકરણ અને સમજૂતીઓઆર્કિટેક્ચર સમીક્ષાઓ, વ્યાપક ટેકનિકલ દસ્તાવેજો, સ્થળાંતર માર્ગદર્શિકાઓ વિશે વિચારો... તેમના ઉકેલો ખૂબ જ સારી રીતે તર્કસંગત અને સારી રીતે સમજાવેલા હોય છે, જેમાં સંરક્ષણ અને ટ્રેડ-ઓફ વિશ્લેષણના સ્તરો વાંચવાનો આનંદ મળે છે. ચૂકવવાની કિંમત: પ્રોટોટાઇપ્સ જેને પછી મેન્યુઅલી વાયર કરવાની જરૂર પડે છે, શરૂઆતમાં દેખાતા કરતાં વધુ જટિલ ભૂલો, અને પ્રતિ ટોકન નોંધપાત્ર રીતે વધારે કિંમત.
કિમી K2 વિચારશીલતા ફાળો આપે છે ઘણી બધી સર્જનાત્મકતા અને વૈકલ્પિક અભિગમોતેમના પ્રયોગોમાં, તેમણે કેટલાક રસપ્રદ વિચારોનું પરીક્ષણ કર્યું, જેમ કે ડિડુપ્લિકેશન માટે કામચલાઉ બકેટ વિન્ડો અને વિસંગતતા શોધ માટે MAD અને EMA ના સંયોજનો. વધુમાં, તેમનો CLI સસ્તો છે, જોકે કંઈક અંશે અવિકસિત છે. સમસ્યા એ છે કે તે ઘણીવાર મુખ્ય તર્ક વિગતોમાં ક્ષતિગ્રસ્ત રહે છે: આંકડા કયા ક્રમમાં અપડેટ કરવામાં આવે છે, શૂન્ય દ્વારા ભાગાકાર, ઊંધી ધ્વજ, વગેરે. તે પ્રેરણા માટે ઉત્તમ છે, પરંતુ તમારે તેના આઉટપુટને શુદ્ધ કરવા અને પરીક્ષણ કરવા માટે નોંધપાત્ર સમય ફાળવવાની જરૂર છે.
છેલ્લે, સામાન્ય GPT-5.1 મોડેલો (ઇન્સ્ટન્ટ અને થિંકિંગ) અને જેમિની અથવા લામા જેવા મોડેલો માટે આધાર તરીકે સેવા આપે છે મિશ્ર કાર્યો (દસ્તાવેજીકરણ, ડેટા વિશ્લેષણ, વપરાશકર્તા ક્રિયાપ્રતિક્રિયા), પરંતુ જ્યારે કાર્ય સંપૂર્ણપણે કોડ અને એજન્ટ-આધારિત હોય છે, ત્યારે કોડેક્સ પેકેજ હાલમાં ઊંડાઈ, કિંમત અને સાધનો મેચ કરવી ખૂબ મુશ્કેલ છે.
બે અવલોકનક્ષમતા બેન્ચમાર્ક, VS કોડ અને કર્સર જેવા IDE માં વિસ્તૃત ઉપયોગ, કોડેક્સ-મેક્સનું કોમ્પેક્શન, તર્ક મોડ્સ અને ખર્ચ તફાવત - બધું એકસાથે જોતાં એકંદર છાપ એકદમ સ્પષ્ટ છે: "AI જે ખરેખર યોગ્ય પુલ રિક્વેસ્ટ પ્રોગ્રામ કરે છે અને પહોંચાડે છે" ના ક્ષેત્રમાં, GPT-5.1 કોડેક્સે એક અગ્રણી સાધનની ભૂમિકા પ્રાપ્ત કરી છે.ક્લાઉડ કોડ આર્કિટેક્ચરલ વિચારસરણી અને ઉત્તમ દસ્તાવેજીકરણના નિર્માણ માટે એક ઉત્તમ સાથી રહે છે, અને કિમી અથવા તેના જેવા મોડેલો સ્પાર્ક અને વિકલ્પો પૂરા પાડે છે, પરંતુ જ્યારે એવા કોડનું નિર્માણ કરવાની વાત આવે છે જે કમ્પાઇલ કરે છે, એકીકૃત કરે છે અને પ્રથમ પ્રયાસમાં ક્રેશ થતો નથી, ત્યારે કોડેક્સ બાજુ સામાન્ય રીતે માસ્ટરને આગળ ધપાવતી હોય છે.
સમાવિષ્ટોનું કોષ્ટક
- GPT-5.1 કોડેક્સ વિરુદ્ધ ક્લાઉડ કોડ: દ્વંદ્વયુદ્ધની એક ઝડપી ઝાંખી
- બેન્ચમાર્ક કેવી રીતે કરવામાં આવ્યો: વાસ્તવિક સમસ્યાઓ, રમકડાં નહીં
- ટેસ્ટ ૧ ના પરિણામો: વિસંગતતાઓની આંકડાકીય શોધ
- ટેસ્ટ 2 પરિણામો: વિતરિત ચેતવણી ડીડુપ્લિકેશન
- ખર્ચ: કોડેક્સ ક્લાઉડ કરતાં સસ્તું કેમ બને છે?
- GPT-5.1-કોડેક્સ-મેક્સ શું ઓફર કરે છે: આખો દિવસ કામ કરતા એજન્ટો
- સુરક્ષા, સેન્ડબોક્સિંગ અને મોડેલનો જવાબદાર ઉપયોગ
- GPT-5.1 કોડેક્સ વિરુદ્ધ ક્લાઉડ અને રોજિંદા ઉપયોગમાં લેવાતા અન્ય મોડેલો