चैटजीपीटी वास्तव में क्या है? क्या यह तकनीक की दुनिया का नया फ्रेंकस्टीन है?
By : madhukar dubey, Last Updated : January 15, 2023 | 7:14 am
नई दिल्ली | दुनिया (artifical Intelligence) आर्टिफिशियल इंटेलिजेंस (एआई) से चलने वाले चैटबॉट चैटजीपीटी के लिए पागल हो रही है – जो कविताएं और निबंध लिखता है और आपके दोस्ताना दोस्त की तरह हास्यपूर्ण टिप्पणियां करता है। संवादी एआई ने वास्तविक के लिए कई सीमाएं खोल दी हैं- जीवन उपयोग के मामले आगे बढ़ते हैं केवल तभी, जब इन्हें सावधानी से संभाला जाए। (chatgpt) चैटजीपीटी के पीछे कंपनी ओपनएआई के अनुसार, उन्होंने एक एआई मॉडल को प्रशिक्षित किया है जो संवादात्मक तरीके से बातचीत करता है।
संवाद प्रारूप चैटजीपीटी के लिए अनुवर्ती प्रश्नों का उत्तर देना, अपनी गलतियों को स्वीकार करना, गलत परिसरों को चुनौती देना और अनुचित अनुरोधों को अस्वीकार करना संभव बनाता है।
चैटजीपीटी ‘इंस्ट्रक्टजीपीटी’ का ही एक मॉडल है, जिसे ओपेनएआई के अनुसार निर्देश का पालन करने और एक विस्तृत प्रतिक्रिया प्रदान करने के लिए प्रशिक्षित किया जाता है, जिसे माइक्रोसॉफ्ट द्वारा 1 अरब डॉलर में अधिग्रहित किया गया था।
यह इस तरह काम करता है :
कंपनी ने इंस्ट्रक्टजीपीटी के समान तरीकों का उपयोग करते हुए ‘इंफोर्समेंट लर्निग फ्रॉम ह्यूमन फीडबैक’ (आरएलएचएफ) का उपयोग करते हुए मॉडल को प्रशिक्षित किया, लेकिन डेटा संग्रह सेटअप में मामूली अंतर के साथ।
ओपेनएआई कहता है, “हमने पर्यवेक्षित फाइन-ट्यूनिंग का उपयोग करके एक प्रारंभिक मॉडल को प्रशिक्षित किया: मानव एआई प्रशिक्षकों ने बातचीत प्रदान की, जिसमें उन्होंने दोनों पक्षों – उपयोगकर्ता और एक एआई सहायक की भूमिका निभाई।”
टीमों ने प्रशिक्षकों को उनकी प्रतिक्रियाओं को लिखने में मदद करने के लिए मॉडल लिखित सुझावों तक पहुंच प्रदान की।
कंपनी ने बताया, “हमने इस नए डायलॉग डेटासेट को इंस्ट्रक्ट जीपीटी डेटासेट के साथ मिलाया, जिसे हमने एक डायलॉग फॉर्मेट में बदल दिया।”
सुदृढ़ीकरण सीखने के लिए और एक इनाम मॉडल बनाने के लिए एआई प्रशिक्षकों ने चैटबॉट के साथ बातचीत की।
ओपनएआई ने कहा, “हमने बेतरतीब ढंग से एक मॉडल-लिखित संदेश का चयन किया, कई वैकल्पिक पूर्णता का नमूना लिया, और एआई प्रशिक्षकों ने उन्हें रैंक दिया। इन इनाम मॉडल का उपयोग करके, हम ‘समीपस्थ नीति अनुकूलन’ का उपयोग करके मॉडल को ठीक कर सकते हैं। हमने इस प्रक्रिया के कई पुनरावृत्तियों का प्रदर्शन किया।”
इसकी सीमाएं क्या हैं?
चैटजीपीटी कभी-कभी विश्वसनीय लगने वाले, लेकिन गलत या निर्थक उत्तर लिखता है।
कंपनी के अनुसार, इस गड़बड़ी को ठीक करना चुनौतीपूर्ण है, क्योंकि आरएल प्रशिक्षण के दौरान, सच्चाई का कोई स्रोत नहीं होता और मॉडल को अधिक सतर्क रहने के लिए प्रशिक्षित करने से यह उन प्रश्नों को अस्वीकार कर देता है, जिनका यह सही उत्तर दे सकता है।
इसके अलावा, पर्यवेक्षित प्रशिक्षण मॉडल को गुमराह करता है, क्योंकि ‘आदर्श उत्तर इस बात पर निर्भर करता है कि मानव प्रदर्शनकारी क्या जानता है, इसके बजाय मॉडल क्या जानता है’।
चैटजीपीटी इनपुट वाक्यांशों में बदलाव या एक ही संकेत को कई बार प्रयास करने के प्रति संवेदनशील है। उदाहरण के लिए, किसी प्रश्न का एक वाक्यांश दिए जाने पर मॉडल उत्तर नहीं जानने का दावा कर सकता है, लेकिन ओपेनएआई के अनुसार, एक मामूली रीफ्रेज दिए जाने पर सही उत्तर दे सकता है।
मॉडल अक्सर अत्यधिक वर्बोज होता है और कुछ वाक्यांशों का अत्यधिक उपयोग करता है, जैसे कि यह दोहराना कि यह ओपेनएआई द्वारा प्रशिक्षित एक भाषा मॉडल है।
कंपनी ने स्वीकार किया, “ये मुद्दे प्रशिक्षण डेटा में पक्षपात से उत्पन्न होते हैं (प्रशिक्षक लंबे उत्तर पसंद करते हैं जो अधिक व्यापक दिखते हैं) और प्रसिद्ध अति-अनुकूलन मुद्दे होते हैं।
आगे कहा गया है, “जबकि हमने मॉडल को अनुपयुक्त अनुरोधों को अस्वीकार करने के लिए प्रयास किए हैं, यह कभी-कभी हानिकारक निर्देशों का जवाब देगा या पक्षपातपूर्ण व्यवहार प्रदर्शित करेगा। हम कुछ प्रकार की असुरक्षित सामग्री को चेतावनी देने या अवरुद्ध करने के लिए मॉडरेशन एपीआई का उपयोग कर रहे हैं, लेकिन हम उम्मीद करते हैं कि यह होगा। कंपनी फिलहाल यूजर्स का फीडबैक कलेक्ट कर रही है।