
DeepSeek के बाद एक और चीनी AI मॉडल ट्रेंड कर रहा है. ये है ByteDance का OmniHuman. Deepfake वीडियोज तेजी से बढ़ रहे हैं. सोशल मीडिया पर AI वीडियोज की बाढ़ है. असली और नकली वीडियो में फर्क कर पाना मुश्किल हो रहा है. इसी बीच, TikTok की पेरेंट कंपनी ByteDance ने कुछ ऐसा कर दिया जिससे दुनिया भर में लोग हैरान हैं.
ByteDance के कुछ रिसर्चर्स ने Omihuman-1 मॉडल तैयार किया है. ये सिर्फ एक फोटो से वीडियो बना सकता है और ये देखने में असली जैसा ही लगता है. पहचान करना मुश्किल है कि वीडियो नकली है या असली.
मौजूदा समय में Deepfake वीडियो बनाने के लिए काफी ज्यादा डेटा की ज़रूरत पड़ती है. जैसे- किसी शख्स का Deepfake वीडियो बनाना है तो उसकी दर्जनों फोटोज और ऑडियो सैंपल्स लगते हैं. लेकिन अब सिर्फ एक फोटो से ही ये काम हो जाएगा.
ByteDance के रिसरर्चर्स ने एक ऐसा AI सिस्टम तैयार किया है जो सिर्फ एक ही फोटो को असली जैसे दिखने वाले वीडियो में तब्दील कर सकता है. बोलने का तरीका हो, बॉडी मूवमेंट हो या फिर आवाज़ सबकुछ बिल्कुल असली जैसा ही लगता है.
Deepfake वीडियो बना कर लोगों को ब्लैकमेल किया जाता है. पैसे की तो ठगी होती ही है, लेकिन साथ ही लोगों की जिंदगी भी बर्बाद हो रही है. Deepfake से अश्लील वीडियोज बना कर किसी को भेज कर साइबर क्रिमिनल्स ब्लैकमेल करते रहते हैं.
ByteDance के नए OmiHuman मॉडल की बात करें तो ये सिर्फ चेहरे की नहीं, बल्कि फुल बॉडी वीडियो जेनेरेट करता है वो भी सिर्फ एक फोटो से. फुल बॉडी वीडियो में हैंड जेस्चर से लेकर बॉडी मूवमेंट और उनकी आवाज़ असली जैसी ही लगती है और कोई नॉर्मल इंसान इसे देख कर धोखा खा सकता है.
आपको बता दें अब तक जो भी Deepfake वीडियोज के मॉडल थे वो ज़्यादातर सिर्फ फेस और अपर बॉडी के ही वीडियोज बनाते हैं. लेकिन ByteDance का OpenHuman मॉडल फेस सहित पूरे बॉडी को मूव कराने में कैपेबल है.
ByteDacne रिसर्चर्स की टीम ने OmniHuman बनाने के लिए इसमें 18,700 घंटों की ह्यूमन वीडियो डेटा का यूज़ किया है. इस मॉडल को ट्रेन कराने के लिए टेक्स्ट, ऑडियो और बॉडी मूवमेंट का यूज़ किया गया है. कंपनी ने इसे Omi Condition से ट्रेन कराया है यानी हर 3D मॉडल की तरह सारे मूवमेंट्स कैप्चर किए गए हैं ताकि वीडियो बिल्कुल असली लगे.
ग़ौरतलब है दुनिया भर की तमाम बड़ी AI कंपनियां अब काफी तेजी से AI वीडियो जेनेरेशन टूल पर काम कर रहे हैं. Sora जैसे कई टूल आ चुके हैं जहां आप प्रॉम्ट दे कर असली जैसे दिखने वाले वीडियो जेनेरेट कर सकते हैं. हालांकि ये मॉडल उससे अलग है, लेकिन काम वैसा ही कर रहा है.
OmniHuman डेवेलपर्स ने कहा है कि उन्होंने इस मॉडल को ट्रेन करने के लिए मल्टिपल कंडीशनिंग सिग्नल्स का यूज़ किया है. इसमे टेक्स्ट, ऑडियो और पोज़ शामिल हैं. ऐसा करके ट्रेनिंग में डेटा वेस्टेज से बचा जा सकता है.
ये मॉडल कुछ इंडस्ट्रीज़ के लिए फायदेमंद हो सकता है, लेकिन आम यूजर्स के लिए मुश्किल. क्योंकि साइबर क्रिमिनल्स इसका ग़लत इस्तेमाल करके लोगों को ब्लैकमेल भी कर सकते हैं. इसलिए अब आपको ये जानना बेहद जरूरी हो गया है कि असली और नकली वीडियो में फर्क कैसे करें.