“दुनिया के सबसे होशियार” ग्रोक3 का परीक्षण

एआईपीयू वॉटन ग्रुप (1)

परिचय

क्या आपको लगता है कि ग्रोक3 पूर्व-प्रशिक्षित मॉडलों का "अंतिम बिंदु" होगा?

एलन मस्क और xAI टीम ने लाइवस्ट्रीम के दौरान आधिकारिक तौर पर Grok का नवीनतम संस्करण, Grok3 लॉन्च किया। इस इवेंट से पहले, संबंधित जानकारी की एक महत्वपूर्ण मात्रा, मस्क के 24/7 प्रचार प्रचार के साथ मिलकर, Grok3 के लिए वैश्विक उम्मीदों को अभूतपूर्व स्तर तक बढ़ा दिया। एक हफ़्ते पहले ही, मस्क ने DeepSeek R1 पर टिप्पणी करते हुए लाइवस्ट्रीम के दौरान आत्मविश्वास से कहा, "xAI एक बेहतर AI मॉडल लॉन्च करने वाला है।" लाइव प्रस्तुत किए गए डेटा से, Grok3 ने कथित तौर पर गणित, विज्ञान और प्रोग्रामिंग के लिए बेंचमार्क में सभी मौजूदा मुख्यधारा के मॉडलों को पीछे छोड़ दिया है, मस्क ने यहां तक ​​दावा किया कि Grok3 का उपयोग SpaceX के मंगल मिशन से संबंधित कम्प्यूटेशनल कार्यों के लिए किया जाएगा, "तीन साल के भीतर नोबेल पुरस्कार स्तर पर सफलताएं" की भविष्यवाणी करते हुए। हालाँकि, ये वर्तमान में केवल मस्क के दावे हैं। लॉन्च के बाद, मैंने Grok3 के नवीनतम बीटा संस्करण का परीक्षण किया और बड़े मॉडलों के लिए क्लासिक ट्रिक प्रश्न पूछा: "कौन बड़ा है, 9.11 या 9.9?" अफ़सोस की बात है कि बिना किसी योग्यता या अंकन के, तथाकथित सबसे चतुर ग्रोक3 भी इस सवाल का सही जवाब नहीं दे सका। ग्रोक3 सवाल का सही मतलब पहचानने में विफल रहा।

 

इस परीक्षण ने बहुत जल्दी ही कई मित्रों का ध्यान आकर्षित किया, और संयोगवश, विदेशों में इसी प्रकार के कई परीक्षणों में ग्रोक3 को बुनियादी भौतिकी/गणित के प्रश्नों से जूझते हुए पाया गया, जैसे "पीसा की झुकी हुई मीनार से सबसे पहले कौन सी गेंद गिरेगी?" इस प्रकार, इसे मज़ाकिया तौर पर "सरल प्रश्नों का उत्तर देने में अनिच्छुक प्रतिभा" के रूप में लेबल किया गया।

640

ग्रोक3 अच्छा है, लेकिन यह आर1 या ओ1-प्रो से बेहतर नहीं है।

ग्रोक3 ने व्यवहार में कई सामान्य ज्ञान परीक्षणों में "विफलता" का अनुभव किया। xAI लॉन्च इवेंट के दौरान, मस्क ने गेम पाथ ऑफ़ एक्साइल 2 के चरित्र वर्गों और प्रभावों का विश्लेषण करने के लिए ग्रोक3 का उपयोग करके प्रदर्शन किया, जिसे उन्होंने अक्सर खेलने का दावा किया था, लेकिन ग्रोक3 द्वारा दिए गए अधिकांश उत्तर गलत थे। लाइवस्ट्रीम के दौरान मस्क ने इस स्पष्ट मुद्दे पर ध्यान नहीं दिया।

 

इस गलती ने न केवल विदेशी नेटिज़न्स को गेमिंग में "विकल्प खोजने" के लिए मस्क का मज़ाक उड़ाने के लिए और सबूत दिए, बल्कि व्यावहारिक अनुप्रयोगों में ग्रोक3 की विश्वसनीयता के बारे में भी महत्वपूर्ण चिंताएँ पैदा कीं। इस तरह के "प्रतिभाशाली" के लिए, इसकी वास्तविक क्षमताओं के बावजूद, मंगल अन्वेषण कार्यों जैसे अत्यंत जटिल अनुप्रयोग परिदृश्यों में इसकी विश्वसनीयता संदेह में है।

 

वर्तमान में, कई परीक्षक जिन्हें कुछ सप्ताह पहले Grok3 तक पहुंच प्राप्त हुई थी, और जिन्होंने कल ही कुछ घंटों के लिए मॉडल क्षमताओं का परीक्षण किया था, वे सभी एक ही निष्कर्ष पर पहुंचे हैं: "Grok3 अच्छा है, लेकिन यह R1 या o1-Pro से बेहतर नहीं है।"

640 (1)

"एनवीडिया को बाधित करने" पर एक महत्वपूर्ण परिप्रेक्ष्य

रिलीज के दौरान आधिकारिक रूप से प्रस्तुत पीपीटी में, ग्रोक 3 को चैटबॉट एरिना में "काफी आगे" दिखाया गया था, लेकिन इसमें चतुराई से ग्राफिक तकनीकों का इस्तेमाल किया गया था: लीडरबोर्ड पर ऊर्ध्वाधर अक्ष ने केवल 1400-1300 स्कोर रेंज में परिणाम सूचीबद्ध किए थे, जिससे परीक्षण परिणामों में मूल 1% का अंतर इस प्रस्तुति में असाधारण रूप से महत्वपूर्ण दिखाई देता है।

640

वास्तविक मॉडल स्कोरिंग परिणामों में, ग्रोक3 डीपसीक आर1 और जीपीटी-4.0 से केवल 1-2% आगे है, जो व्यावहारिक परीक्षणों में कई उपयोगकर्ताओं के अनुभवों से मेल खाता है, जिसमें "कोई उल्लेखनीय अंतर नहीं पाया गया।" ग्रोक3 अपने उत्तराधिकारियों से केवल 1% -2% आगे है।

640

हालाँकि ग्रोक3 ने वर्तमान में सार्वजनिक रूप से परीक्षण किए गए सभी मॉडलों की तुलना में अधिक स्कोर किया है, लेकिन कई लोग इसे गंभीरता से नहीं लेते हैं: आखिरकार, ग्रोक2 युग में "स्कोर हेरफेर" के लिए xAI की पहले भी आलोचना की जा चुकी है। जैसे-जैसे लीडरबोर्ड ने उत्तर की लंबाई शैली को दंडित किया, स्कोर में बहुत कमी आई, जिससे उद्योग के अंदरूनी लोगों ने अक्सर "उच्च स्कोरिंग लेकिन कम क्षमता" की घटना की आलोचना की।

 

चाहे लीडरबोर्ड "हेरफेर" के माध्यम से हो या चित्रण में डिज़ाइन ट्रिक्स के माध्यम से, वे xAI और मॉडल क्षमताओं में "पैक का नेतृत्व" करने की धारणा के साथ मस्क के जुनून को प्रकट करते हैं। मस्क ने इन मार्जिन के लिए भारी कीमत चुकाई: लॉन्च के दौरान, उन्होंने 200,000 H100 GPU (लाइवस्ट्रीम के दौरान "100,000 से अधिक" का दावा करते हुए) का उपयोग करने और 200 मिलियन घंटे का कुल प्रशिक्षण समय प्राप्त करने का दावा किया। इससे कुछ लोगों का मानना ​​​​था कि यह GPU उद्योग के लिए एक और महत्वपूर्ण वरदान है और इस क्षेत्र पर DeepSeek के प्रभाव को "मूर्खतापूर्ण" माना जाता है। विशेष रूप से, कुछ का मानना ​​​​है कि शुद्ध कम्प्यूटेशनल शक्ति मॉडल प्रशिक्षण का भविष्य होगी।

 

हालांकि, कुछ नेटिज़न्स ने डीपसीक वी3 के उत्पादन के लिए दो महीनों में 2000 एच800 जीपीयू की खपत की तुलना की, और गणना की कि ग्रोक3 की वास्तविक प्रशिक्षण शक्ति खपत वी3 की तुलना में 263 गुना है। डीपसीक वी3, जिसने 1402 अंक बनाए, और ग्रोक3 के बीच का अंतर 100 अंकों से थोड़ा कम है। इस डेटा के जारी होने के बाद, कई लोगों को जल्दी से एहसास हुआ कि ग्रोक3 के "दुनिया के सबसे मजबूत" शीर्षक के पीछे एक स्पष्ट सीमांत उपयोगिता प्रभाव छिपा है - मजबूत प्रदर्शन उत्पन्न करने वाले बड़े मॉडलों का तर्क कम रिटर्न दिखाना शुरू कर दिया है।

640 (2)

"उच्च स्कोरिंग लेकिन कम क्षमता" के साथ भी, ग्रोक2 के पास उपयोग का समर्थन करने के लिए एक्स (ट्विटर) प्लेटफ़ॉर्म से उच्च-गुणवत्ता वाले प्रथम-पक्ष डेटा की विशाल मात्रा थी। हालाँकि, ग्रोक3 के प्रशिक्षण में, xAI को स्वाभाविक रूप से उस "सीलिंग" का सामना करना पड़ा जिसका सामना वर्तमान में ओपनएआई कर रहा है - प्रीमियम प्रशिक्षण डेटा की कमी मॉडल की क्षमताओं की सीमांत उपयोगिता को तेजी से उजागर करती है।

 

ग्रोक3 और मस्क के डेवलपर्स संभवतः इन तथ्यों को गहराई से समझने और पहचानने वाले पहले व्यक्ति हैं, यही वजह है कि मस्क ने सोशल मीडिया पर लगातार उल्लेख किया है कि उपयोगकर्ता अभी जो संस्करण देख रहे हैं वह "अभी भी बीटा है" और "पूर्ण संस्करण आने वाले महीनों में जारी किया जाएगा।" मस्क ने ग्रोक3 के उत्पाद प्रबंधक की भूमिका निभाई है, जिसमें उपयोगकर्ताओं को टिप्पणी अनुभाग में आने वाले विभिन्न मुद्दों पर प्रतिक्रिया देने का सुझाव दिया गया है। वह पृथ्वी पर सबसे अधिक फॉलो किए जाने वाले उत्पाद प्रबंधक हो सकते हैं।

 

फिर भी, एक दिन के भीतर, ग्रोक3 के प्रदर्शन ने निस्संदेह उन लोगों के लिए अलार्म बजा दिया जो मजबूत बड़े मॉडलों को प्रशिक्षित करने के लिए "विशाल कम्प्यूटेशनल ताकत" पर भरोसा करने की उम्मीद कर रहे थे: सार्वजनिक रूप से उपलब्ध Microsoft जानकारी के आधार पर, OpenAI के GPT-4 का पैरामीटर आकार 1.8 ट्रिलियन पैरामीटर है, जो GPT-3 से दस गुना अधिक है। अफवाहों से पता चलता है कि GPT-4.5 का पैरामीटर आकार और भी बड़ा हो सकता है।

 

जैसे-जैसे मॉडल पैरामीटर का आकार बढ़ता जा रहा है, प्रशिक्षण लागत भी आसमान छू रही है। ग्रोक3 की मौजूदगी के साथ, GPT-4.5 और अन्य प्रतियोगी जो पैरामीटर आकार के माध्यम से बेहतर मॉडल प्रदर्शन प्राप्त करने के लिए "पैसा जलाना" जारी रखना चाहते हैं, उन्हें अब स्पष्ट रूप से दिखाई देने वाली सीमा पर विचार करना चाहिए और इस पर विचार करना चाहिए कि इसे कैसे पार किया जाए। इस समय, ओपनएआई के पूर्व मुख्य वैज्ञानिक इल्या सुत्सकेवर ने पिछले दिसंबर में कहा था, "जिस प्री-ट्रेनिंग से हम परिचित हैं, वह समाप्त हो जाएगी," जो चर्चाओं में फिर से सामने आया है, जिससे बड़े मॉडलों को प्रशिक्षित करने के लिए सही रास्ता खोजने के प्रयासों को बढ़ावा मिला है।

640 (3)

इल्या के दृष्टिकोण ने उद्योग जगत में खतरे की घंटी बजा दी है। उन्होंने सटीक रूप से सुलभ नए डेटा की आसन्न समाप्ति का पूर्वानुमान लगाया, जिससे ऐसी स्थिति पैदा हो सकती है जहाँ डेटा अधिग्रहण के माध्यम से प्रदर्शन को बढ़ाया नहीं जा सकता है, इसे जीवाश्म ईंधन की समाप्ति के समान बताया। उन्होंने संकेत दिया कि "तेल की तरह, इंटरनेट पर मानव-निर्मित सामग्री एक सीमित संसाधन है।" सुत्सकेवर की भविष्यवाणियों में, अगली पीढ़ी के मॉडल, पोस्ट-प्री-ट्रेनिंग के बाद, "मानव मस्तिष्क के समान" "सच्ची स्वायत्तता" और तर्क क्षमताएँ रखेंगे।

 

आज के पूर्व-प्रशिक्षित मॉडल के विपरीत जो मुख्य रूप से सामग्री मिलान (पहले से सीखी गई मॉडल सामग्री के आधार पर) पर निर्भर करते हैं, भविष्य की AI प्रणालियाँ मानव मस्तिष्क की "सोच" के समान तरीके से समस्याओं को हल करने के लिए कार्यप्रणाली सीखने और स्थापित करने में सक्षम होंगी। एक इंसान केवल बुनियादी पेशेवर साहित्य के साथ किसी विषय में मौलिक दक्षता प्राप्त कर सकता है, जबकि एक AI बड़े मॉडल को केवल सबसे बुनियादी प्रवेश-स्तर की प्रभावकारिता प्राप्त करने के लिए लाखों डेटा बिंदुओं की आवश्यकता होती है। यहां तक ​​​​कि जब शब्दों को थोड़ा बदल दिया जाता है, तो ये मौलिक प्रश्न सही ढंग से नहीं समझे जा सकते हैं, यह दर्शाता है कि मॉडल में वास्तव में बुद्धिमत्ता में सुधार नहीं हुआ है: लेख की शुरुआत में उल्लिखित बुनियादी लेकिन अनसुलझे प्रश्न इस घटना का एक स्पष्ट उदाहरण प्रस्तुत करते हैं।

微信图तस्वीरें_20240614024031.jpg1

निष्कर्ष

हालांकि, बल प्रयोग से परे, यदि ग्रोक3 वास्तव में उद्योग को यह बताने में सफल हो जाता है कि "पूर्व प्रशिक्षित मॉडल अपने अंत के करीब पहुंच रहे हैं," तो यह इस क्षेत्र के लिए महत्वपूर्ण निहितार्थ लेकर आएगा।

शायद जब ग्रोक3 के इर्द-गिर्द का उन्माद धीरे-धीरे कम हो जाएगा, तो हम फेई-फेई ली के उदाहरण जैसे और अधिक मामले देखेंगे, जिसमें "केवल 50 डॉलर में एक विशिष्ट डेटासेट पर उच्च-प्रदर्शन मॉडल को ट्यून किया जा सकता है," और अंततः एजीआई के लिए सही रास्ता खोज लिया जाएगा।

ELV केबल समाधान खोजें

नियंत्रण केबल

बीएमएस, बस, औद्योगिक, इंस्ट्रूमेंटेशन केबल के लिए।

संरचित केबलिंग प्रणाली

नेटवर्क और डेटा, फाइबर-ऑप्टिक केबल, पैच कॉर्ड, मॉड्यूल, फेसप्लेट

2024 प्रदर्शनियों और कार्यक्रमों की समीक्षा

अप्रैल 16-18, 2024 मध्य-पूर्व-ऊर्जा दुबई में

16-18 अप्रैल, 2024 मॉस्को में सेकुरिका

9 मई, 2024 शंघाई में नए उत्पादों और प्रौद्योगिकियों का लॉन्च कार्यक्रम

22-25 अक्टूबर, 2024 सुरक्षा चीन बीजिंग में

19-20 नवंबर, 2024 कनेक्टेड वर्ल्ड KSA


पोस्ट करने का समय: फरवरी-19-2025