Sora: OpenAI का नया कमाल! अब चंद शब्द लिखकर बना सकेंगे मनचाहे वीडियोज़, ऐसे काम करेगा नया AI मॉडल

Updated on 18-Feb-2024
HIGHLIGHTS

OpenAI ने अपना लेटेस्ट इनोवेशन - Sora नाम का एक नया टेक्स्ट-टू-वीडियो मॉडल पेश किया है।

Sora एक मिनट के वीडियोज़ बनाने में सक्षम है जो बिल्कुल असली जैसे लगते हैं।

हममे से अधिकतर लोगों को इस नए AI मॉडल का इस्तेमाल करने के लिए इंतज़ार करना होगा।

माइक्रोसॉफ्ट के OpenAI ने इंडस्ट्री के दूसरे प्रतिस्पर्धियों को पीछे छोड़ते हुए अपना लेटेस्ट इनोवेशन – Sora नाम का एक नया टेक्स्ट-टू-वीडियो मॉडल पेश किया है। यह कदम आर्टिफ़िशियल इंटेलिजेंस (AI) की तेजी से विकसित होती हुई फील्ड में प्रतिस्पर्धी तौर पर बढ़त को बनाए रखने के लिए ओपनएआई की कमिटमेंट को दिखाता है, जो एक ऐसा लैंडस्केप है जहाँ टेक्स्ट-टू वीडियो टूल्स लगातार महत्वपूर्ण होते जा रहे हैं।

Sora क्या है?

Sora, जिसका जापानी में मतलब है आसमान, एक टेक्स्ट-टू-वीडियो डिफ्यूशन मॉडल है जो एक मिनट के वीडियोज़ बनाने में सक्षम है जो बिल्कुल असली जैसे लगते हैं। कम्पनी का कहना है कि यह नया मॉडल यूजर द्वारा प्रदान की गई स्थिर इमेजेस या मौजूदा फुटेज का इस्तेमाल करके असली दिखने वाले वीडियोज़ बना सकता है।

यह भी पढ़ें: Poco के दो तगड़े 5G फोन्स नए खूबसूरत कलर ऑप्शन में लॉन्च, कम कीमत में चौंका देने वाले फीचर्स

आप इसे कैसे इस्तेमाल कर सकते हैं?

हममे से अधिकतर लोगों को इस नए AI मॉडल का इस्तेमाल करने के लिए इंतज़ार करना होगा। हालांकि, कम्पनी ने इसकी घोषणा 15 फरवरी को ही कर दी थी, लेकिन यह अब भी रेड-टीमिंग फेज़ में है। बता दें कि रेड टीमिंग एक अभ्यास है जिसमें रेड टीम नाम से जानी जाने वाली एक्सपर्ट्स की एक टीम वास्तविक दुनिया में इसके इस्तेमाल की जांच करती है जिससे सिस्टम में कमजोरियों की पहचान की जा सके।

कम्पनी ने अपने ब्लॉग पोस्ट में कई सारे डेमो शेयर किए हैं और साथ ही OpenAI के CEO ने X पर यूजर्स द्वारा रिक्वेस्ट किए गए प्रॉम्प्ट्स के भी वीडियोज़ शेयर किए हैं।

Sora कैसे काम करता है?

कल्पना करें कि टीवी पर एक स्थिर, शोर भरी तस्वीर है जिसकी अस्पष्टता धीरे-धीरे हट रही है जब तक कि आपको एक साफ, चलती हुई वीडियो दिखाई न दे। ठीक यही सोरा करता है। यह एक खास प्रोग्राम है जो धीरे-धीरे शोर को हटाने और वीडियोज़ बनाने के लिए’ट्रांसफॉर्मर आर्किटेक्चर’ का इस्तेमाल करता है।

यह भी पढ़ें: Vivo ला रहा नया धुरंधर 5G फोन, इसका स्टाइलिश लुक बना देगा दीवाना! इस दिन है इंडिया लॉन्चिंग

यह केवल फ्रेम बाय फ्रेम नहीं, बल्कि एक ही बार में पूरी वीडियोज़ जनरेट कर सकता है। मॉडल टेक्स्ट डिस्क्रिप्शन्स को फ़ीड करके यूजर्स वीडियो के कॉन्टेन्ट को गाइड कर सकते हैं जैसे कि कोई व्यक्ति एक पल के लिए स्क्रीन से हट जाने पर भी दिखाई देता रहे।

GPT मॉडल्स को याद करें जो टेक्स्ट पर आधारित शब्दों को जनरेट करता है। सोरा भी कुछ ऐसा ही करता है लेकिन इमेजेस और वीडियोज़ के साथ। यह वीडियोज़ को पैच नाम के छोटे टुकड़ों में तोड़ देता है।

कम्पनी ने एक ब्लॉग पोस्ट में कहा, ” सोर DALL·E और GPT में पिछली रिसर्च पर आधारित है। यह DALL·E 3 की रीकैप्शनिंग तकनीक का इस्तेमाल करता है जिसमें विजुअल ट्रेनिंग डेटा के लिए बेहद डिस्क्रिप्टिव कैप्शन्स जनरेट करना शामिल है। नतीजे के तौर यह मॉडल पर जनरेट की गई वीडियो में और भी विश्वास के साथ यूजर के टेक्स्ट निर्देशों को फॉलो करने में सक्षम है।”

हालांकि, कम्पनी ने इस बारे में कोई जानकारी नहीं दी है कि इस मॉडल को किस तरह के डेटा पर ट्रेन किया गया है।

यह भी पढ़ें: RBI का नया फैसला: 29 फरवरी के बाद भी जारी रहेंगी Paytm Payments Bank की सेवाएं, RBI ने दी नई डेडलाइन

इस मॉडल में कमजोरियाँ क्या हैं?

ब्लॉग पोस्ट में कम्पनी ने यह भी बताया कि वर्तमान मॉडल में “कमजोरियाँ” हैं। कहा गया है कि “इस मॉडल को एक जटिल दृश्य की चीजों को सटीक तौर पर बदलने में चुनौतियों का सामना करना पड़ सकता है, और हो सकता है कि यह कारण और प्रभाव के विशेष उदाहरणों को न समझे।”

उदाहरण के लिए, एक व्यक्ति एक बिस्किट को एक बार काटता है, लेकिन बाद में बिस्किट पर काटने का कोई निशान नहीं रहता।

इसके अलावा यह भी कहा गया है कि यह प्रॉम्प्ट में स्थान की डिटेल्स को लेकर भी कन्फ्यूज हो सकता है, जैसे कि दाएं और बाएं को मिला देना, और समय के साथ होने वाली घटनाओं के सटीक डिस्क्रिप्शन्स के साथ भी इसे स्ट्रगल करना पड़ सकता है।

Faiza Parveen

फाईज़ा परवीन डिजिट हिंदी में एक कॉन्टेन्ट राइटर हैं। वह 2023 से डिजिट में काम कर रही हैं और इससे पहले वह 6 महीने डिजिट में फ्रीलांसर जर्नलिस्ट के तौर पर भी काम कर चुकी हैं। वह दिल्ली विश्वविद्यालय से स्नातक स्तर की पढ़ाई कर रही हैं, और उनके पसंदीदा तकनीकी विषयों में स्मार्टफोन, टेलिकॉम और मोबाइल ऐप शामिल हैं। उन्हें हमारे हिंदी पाठकों को वेब पर किसी डिवाइस या सेवा का उपयोग करने का तरीका सीखने में मदद करने के लिए लेख लिखने में आनंद आता है। सोशल मीडिया की दीवानी फाईज़ा को अक्सर अपने छोटे वीडियो की लत के कारण स्क्रॉलिंग करते हुए देखा जाता है। वह थ्रिलर फ्लिक्स देखना भी काफी पसंद करती हैं।

Connect On :