Sora: OpenAI का नया कमाल! अब चंद शब्द लिखकर बना सकेंगे मनचाहे वीडियोज़, ऐसे काम करेगा नया AI मॉडल
OpenAI ने अपना लेटेस्ट इनोवेशन - Sora नाम का एक नया टेक्स्ट-टू-वीडियो मॉडल पेश किया है।
Sora एक मिनट के वीडियोज़ बनाने में सक्षम है जो बिल्कुल असली जैसे लगते हैं।
हममे से अधिकतर लोगों को इस नए AI मॉडल का इस्तेमाल करने के लिए इंतज़ार करना होगा।
माइक्रोसॉफ्ट के OpenAI ने इंडस्ट्री के दूसरे प्रतिस्पर्धियों को पीछे छोड़ते हुए अपना लेटेस्ट इनोवेशन – Sora नाम का एक नया टेक्स्ट-टू-वीडियो मॉडल पेश किया है। यह कदम आर्टिफ़िशियल इंटेलिजेंस (AI) की तेजी से विकसित होती हुई फील्ड में प्रतिस्पर्धी तौर पर बढ़त को बनाए रखने के लिए ओपनएआई की कमिटमेंट को दिखाता है, जो एक ऐसा लैंडस्केप है जहाँ टेक्स्ट-टू वीडियो टूल्स लगातार महत्वपूर्ण होते जा रहे हैं।
Sora क्या है?
Sora, जिसका जापानी में मतलब है आसमान, एक टेक्स्ट-टू-वीडियो डिफ्यूशन मॉडल है जो एक मिनट के वीडियोज़ बनाने में सक्षम है जो बिल्कुल असली जैसे लगते हैं। कम्पनी का कहना है कि यह नया मॉडल यूजर द्वारा प्रदान की गई स्थिर इमेजेस या मौजूदा फुटेज का इस्तेमाल करके असली दिखने वाले वीडियोज़ बना सकता है।
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
यह भी पढ़ें: Poco के दो तगड़े 5G फोन्स नए खूबसूरत कलर ऑप्शन में लॉन्च, कम कीमत में चौंका देने वाले फीचर्स
आप इसे कैसे इस्तेमाल कर सकते हैं?
हममे से अधिकतर लोगों को इस नए AI मॉडल का इस्तेमाल करने के लिए इंतज़ार करना होगा। हालांकि, कम्पनी ने इसकी घोषणा 15 फरवरी को ही कर दी थी, लेकिन यह अब भी रेड-टीमिंग फेज़ में है। बता दें कि रेड टीमिंग एक अभ्यास है जिसमें रेड टीम नाम से जानी जाने वाली एक्सपर्ट्स की एक टीम वास्तविक दुनिया में इसके इस्तेमाल की जांच करती है जिससे सिस्टम में कमजोरियों की पहचान की जा सके।
कम्पनी ने अपने ब्लॉग पोस्ट में कई सारे डेमो शेयर किए हैं और साथ ही OpenAI के CEO ने X पर यूजर्स द्वारा रिक्वेस्ट किए गए प्रॉम्प्ट्स के भी वीडियोज़ शेयर किए हैं।
Sora कैसे काम करता है?
कल्पना करें कि टीवी पर एक स्थिर, शोर भरी तस्वीर है जिसकी अस्पष्टता धीरे-धीरे हट रही है जब तक कि आपको एक साफ, चलती हुई वीडियो दिखाई न दे। ठीक यही सोरा करता है। यह एक खास प्रोग्राम है जो धीरे-धीरे शोर को हटाने और वीडियोज़ बनाने के लिए’ट्रांसफॉर्मर आर्किटेक्चर’ का इस्तेमाल करता है।
यह भी पढ़ें: Vivo ला रहा नया धुरंधर 5G फोन, इसका स्टाइलिश लुक बना देगा दीवाना! इस दिन है इंडिया लॉन्चिंग
यह केवल फ्रेम बाय फ्रेम नहीं, बल्कि एक ही बार में पूरी वीडियोज़ जनरेट कर सकता है। मॉडल टेक्स्ट डिस्क्रिप्शन्स को फ़ीड करके यूजर्स वीडियो के कॉन्टेन्ट को गाइड कर सकते हैं जैसे कि कोई व्यक्ति एक पल के लिए स्क्रीन से हट जाने पर भी दिखाई देता रहे।
GPT मॉडल्स को याद करें जो टेक्स्ट पर आधारित शब्दों को जनरेट करता है। सोरा भी कुछ ऐसा ही करता है लेकिन इमेजेस और वीडियोज़ के साथ। यह वीडियोज़ को पैच नाम के छोटे टुकड़ों में तोड़ देता है।
कम्पनी ने एक ब्लॉग पोस्ट में कहा, ” सोर DALL·E और GPT में पिछली रिसर्च पर आधारित है। यह DALL·E 3 की रीकैप्शनिंग तकनीक का इस्तेमाल करता है जिसमें विजुअल ट्रेनिंग डेटा के लिए बेहद डिस्क्रिप्टिव कैप्शन्स जनरेट करना शामिल है। नतीजे के तौर यह मॉडल पर जनरेट की गई वीडियो में और भी विश्वास के साथ यूजर के टेक्स्ट निर्देशों को फॉलो करने में सक्षम है।”
हालांकि, कम्पनी ने इस बारे में कोई जानकारी नहीं दी है कि इस मॉडल को किस तरह के डेटा पर ट्रेन किया गया है।
यह भी पढ़ें: RBI का नया फैसला: 29 फरवरी के बाद भी जारी रहेंगी Paytm Payments Bank की सेवाएं, RBI ने दी नई डेडलाइन
इस मॉडल में कमजोरियाँ क्या हैं?
ब्लॉग पोस्ट में कम्पनी ने यह भी बताया कि वर्तमान मॉडल में “कमजोरियाँ” हैं। कहा गया है कि “इस मॉडल को एक जटिल दृश्य की चीजों को सटीक तौर पर बदलने में चुनौतियों का सामना करना पड़ सकता है, और हो सकता है कि यह कारण और प्रभाव के विशेष उदाहरणों को न समझे।”
उदाहरण के लिए, एक व्यक्ति एक बिस्किट को एक बार काटता है, लेकिन बाद में बिस्किट पर काटने का कोई निशान नहीं रहता।
इसके अलावा यह भी कहा गया है कि यह प्रॉम्प्ट में स्थान की डिटेल्स को लेकर भी कन्फ्यूज हो सकता है, जैसे कि दाएं और बाएं को मिला देना, और समय के साथ होने वाली घटनाओं के सटीक डिस्क्रिप्शन्स के साथ भी इसे स्ट्रगल करना पड़ सकता है।
Faiza Parveen
फाईज़ा परवीन डिजिट हिंदी में एक कॉन्टेन्ट राइटर हैं। वह 2023 से डिजिट में काम कर रही हैं और इससे पहले वह 6 महीने डिजिट में फ्रीलांसर जर्नलिस्ट के तौर पर भी काम कर चुकी हैं। वह दिल्ली विश्वविद्यालय से स्नातक स्तर की पढ़ाई कर रही हैं, और उनके पसंदीदा तकनीकी विषयों में स्मार्टफोन, टेलिकॉम और मोबाइल ऐप शामिल हैं। उन्हें हमारे हिंदी पाठकों को वेब पर किसी डिवाइस या सेवा का उपयोग करने का तरीका सीखने में मदद करने के लिए लेख लिखने में आनंद आता है। सोशल मीडिया की दीवानी फाईज़ा को अक्सर अपने छोटे वीडियो की लत के कारण स्क्रॉलिंग करते हुए देखा जाता है। वह थ्रिलर फ्लिक्स देखना भी काफी पसंद करती हैं। View Full Profile