माइक्रोसॉफ्ट के OpenAI ने इंडस्ट्री के दूसरे प्रतिस्पर्धियों को पीछे छोड़ते हुए अपना लेटेस्ट इनोवेशन – Sora नाम का एक नया टेक्स्ट-टू-वीडियो मॉडल पेश किया है। यह कदम आर्टिफ़िशियल इंटेलिजेंस (AI) की तेजी से विकसित होती हुई फील्ड में प्रतिस्पर्धी तौर पर बढ़त को बनाए रखने के लिए ओपनएआई की कमिटमेंट को दिखाता है, जो एक ऐसा लैंडस्केप है जहाँ टेक्स्ट-टू वीडियो टूल्स लगातार महत्वपूर्ण होते जा रहे हैं।
Sora, जिसका जापानी में मतलब है आसमान, एक टेक्स्ट-टू-वीडियो डिफ्यूशन मॉडल है जो एक मिनट के वीडियोज़ बनाने में सक्षम है जो बिल्कुल असली जैसे लगते हैं। कम्पनी का कहना है कि यह नया मॉडल यूजर द्वारा प्रदान की गई स्थिर इमेजेस या मौजूदा फुटेज का इस्तेमाल करके असली दिखने वाले वीडियोज़ बना सकता है।
यह भी पढ़ें: Poco के दो तगड़े 5G फोन्स नए खूबसूरत कलर ऑप्शन में लॉन्च, कम कीमत में चौंका देने वाले फीचर्स
हममे से अधिकतर लोगों को इस नए AI मॉडल का इस्तेमाल करने के लिए इंतज़ार करना होगा। हालांकि, कम्पनी ने इसकी घोषणा 15 फरवरी को ही कर दी थी, लेकिन यह अब भी रेड-टीमिंग फेज़ में है। बता दें कि रेड टीमिंग एक अभ्यास है जिसमें रेड टीम नाम से जानी जाने वाली एक्सपर्ट्स की एक टीम वास्तविक दुनिया में इसके इस्तेमाल की जांच करती है जिससे सिस्टम में कमजोरियों की पहचान की जा सके।
कम्पनी ने अपने ब्लॉग पोस्ट में कई सारे डेमो शेयर किए हैं और साथ ही OpenAI के CEO ने X पर यूजर्स द्वारा रिक्वेस्ट किए गए प्रॉम्प्ट्स के भी वीडियोज़ शेयर किए हैं।
कल्पना करें कि टीवी पर एक स्थिर, शोर भरी तस्वीर है जिसकी अस्पष्टता धीरे-धीरे हट रही है जब तक कि आपको एक साफ, चलती हुई वीडियो दिखाई न दे। ठीक यही सोरा करता है। यह एक खास प्रोग्राम है जो धीरे-धीरे शोर को हटाने और वीडियोज़ बनाने के लिए’ट्रांसफॉर्मर आर्किटेक्चर’ का इस्तेमाल करता है।
यह भी पढ़ें: Vivo ला रहा नया धुरंधर 5G फोन, इसका स्टाइलिश लुक बना देगा दीवाना! इस दिन है इंडिया लॉन्चिंग
यह केवल फ्रेम बाय फ्रेम नहीं, बल्कि एक ही बार में पूरी वीडियोज़ जनरेट कर सकता है। मॉडल टेक्स्ट डिस्क्रिप्शन्स को फ़ीड करके यूजर्स वीडियो के कॉन्टेन्ट को गाइड कर सकते हैं जैसे कि कोई व्यक्ति एक पल के लिए स्क्रीन से हट जाने पर भी दिखाई देता रहे।
GPT मॉडल्स को याद करें जो टेक्स्ट पर आधारित शब्दों को जनरेट करता है। सोरा भी कुछ ऐसा ही करता है लेकिन इमेजेस और वीडियोज़ के साथ। यह वीडियोज़ को पैच नाम के छोटे टुकड़ों में तोड़ देता है।
कम्पनी ने एक ब्लॉग पोस्ट में कहा, ” सोर DALL·E और GPT में पिछली रिसर्च पर आधारित है। यह DALL·E 3 की रीकैप्शनिंग तकनीक का इस्तेमाल करता है जिसमें विजुअल ट्रेनिंग डेटा के लिए बेहद डिस्क्रिप्टिव कैप्शन्स जनरेट करना शामिल है। नतीजे के तौर यह मॉडल पर जनरेट की गई वीडियो में और भी विश्वास के साथ यूजर के टेक्स्ट निर्देशों को फॉलो करने में सक्षम है।”
हालांकि, कम्पनी ने इस बारे में कोई जानकारी नहीं दी है कि इस मॉडल को किस तरह के डेटा पर ट्रेन किया गया है।
यह भी पढ़ें: RBI का नया फैसला: 29 फरवरी के बाद भी जारी रहेंगी Paytm Payments Bank की सेवाएं, RBI ने दी नई डेडलाइन
ब्लॉग पोस्ट में कम्पनी ने यह भी बताया कि वर्तमान मॉडल में “कमजोरियाँ” हैं। कहा गया है कि “इस मॉडल को एक जटिल दृश्य की चीजों को सटीक तौर पर बदलने में चुनौतियों का सामना करना पड़ सकता है, और हो सकता है कि यह कारण और प्रभाव के विशेष उदाहरणों को न समझे।”
उदाहरण के लिए, एक व्यक्ति एक बिस्किट को एक बार काटता है, लेकिन बाद में बिस्किट पर काटने का कोई निशान नहीं रहता।
इसके अलावा यह भी कहा गया है कि यह प्रॉम्प्ट में स्थान की डिटेल्स को लेकर भी कन्फ्यूज हो सकता है, जैसे कि दाएं और बाएं को मिला देना, और समय के साथ होने वाली घटनाओं के सटीक डिस्क्रिप्शन्स के साथ भी इसे स्ट्रगल करना पड़ सकता है।