नई दिल्ली: चैटजीपीटी निर्माता ओपनएआई ने सोरा का अनावरण करके जेनरेटिव एआई में एक और कदम आगे बढ़ाया है – एक एआई मॉडल जो पाठ निर्देशों से यथार्थवादी और कल्पनाशील दृश्य बना सकता है।
ओपनएआई ने ट्वीट किया, “हमारे टेक्स्ट-टू-वीडियो मॉडल सोरा का परिचय। सोरा अत्यधिक विस्तृत दृश्यों, जटिल कैमरा गति और जीवंत भावनाओं के साथ कई पात्रों की विशेषता वाले 60 सेकंड तक के वीडियो बना सकता है।”
ट्वीट वीडियो में, ओपन एआई एक लघु वीडियो प्रदर्शित करता है जिसे एआई द्वारा “प्रॉम्प्ट” का उपयोग करके तैयार किया गया है: “सुंदर, बर्फीला टोक्यो शहर हलचल भरा है। कैमरा शहर की हलचल भरी सड़क से गुजरता है, जिसमें कई लोग सुंदर बर्फीले मौसम का आनंद ले रहे हैं और खरीदारी कर रहे हैं। पास के स्टालों पर। खूबसूरत सकुरा पंखुड़ियाँ बर्फ के टुकड़ों के साथ हवा में उड़ रही हैं।”
पेश है सोरा, हमारा टेक्स्ट-टू-वीडियो मॉडल।
सोरा अत्यधिक विस्तृत दृश्यों, जटिल कैमरा गति और जीवंत भावनाओं वाले कई पात्रों को प्रदर्शित करते हुए 60 सेकंड तक के वीडियो बना सकता है। https://t.co/7j2JN27M3W
संकेत: “सुंदर, बर्फीला… pic.twitter.com/ruTEWn87vf
– ओपनएआई (@OpenAI) 15 फरवरी, 2024
ओपनएआई ने कहा है कि सोरा – टेक्स्ट-टू-वीडियो मॉडल – दृश्य गुणवत्ता और उपयोगकर्ता के संकेत का पालन करते हुए एक मिनट तक के वीडियो तैयार कर सकता है।
“केवल पाठ निर्देशों से एक वीडियो उत्पन्न करने में सक्षम होने के अलावा, मॉडल एक मौजूदा स्थिर छवि लेने और उससे एक वीडियो उत्पन्न करने में सक्षम है, छवि की सामग्री को सटीकता और छोटे विवरणों पर ध्यान देने के साथ एनिमेट करता है। मॉडल एक भी ले सकता है मौजूदा वीडियो और इसे विस्तारित करें या लापता फ़्रेम को भरें, “ओपनएआई ने कहा।
सोरा फिलहाल सार्वजनिक रूप से उपलब्ध नहीं है। यह अब केवल रेड टीमर्स के लिए उपलब्ध है। सोरा DALL·E 3 से रीकैप्शनिंग तकनीक का उपयोग करके DALL·E और GPT मॉडल में पिछले शोध का निर्माण करता है, जिसमें दृश्य प्रशिक्षण डेटा के लिए अत्यधिक वर्णनात्मक कैप्शन तैयार करना शामिल है।
ओपनएआई ने कहा, “सोरा को ओपनएआई के उत्पादों में उपलब्ध कराने से पहले हम कई महत्वपूर्ण सुरक्षा कदम उठाएंगे। हम रेड टीमर्स के साथ काम कर रहे हैं – गलत सूचना, घृणित सामग्री और पूर्वाग्रह जैसे क्षेत्रों में डोमेन विशेषज्ञ – जो मॉडल का प्रतिकूल परीक्षण करेंगे।” .