मैं हमेशा टेक से मोहित रहा हूं। बायोटेक से लेकर फ्यूचर टेक और बीच में सब कुछ तक, मैं यह सब आज़माना चाहता हूं और फिर इसे तोड़ता हूं ताकि मैं समझता हूं कि यह कैसे काम करता है। फिर भी, यदि आपने मुझे 30 साल पहले बताया था कि एक दिन, एक छोटा हाथ में डिवाइस पतली हवा और एक पाठ प्रॉम्प्ट से एक छवि बनाने में सक्षम होगा, तो मुझे विश्वास नहीं होता।
फिर भी यहाँ हम हैं, और आपका फोन AI के माध्यम से एक तस्वीर में क्या कहता है। यह अक्सर एक महान तस्वीर नहीं है (और एक परेशान करने वाली गड़बड़ी भी हो सकती है), लेकिन यह अभी भी मशीनरी का एक टुकड़ा है जो कुछ कर रहा है इस्तेमाल किया गया एक मानव की आवश्यकता है। यह अभी भी करता है। तकनीकी रूप से, इसे बहुत समय बिताने के लिए बहुत सारे मनुष्यों की आवश्यकता होती है।
काम करने से पहले काम होता है
आधुनिक एआई एक तंत्रिका नेटवर्क का उपयोग करके काम करता है। आप पहचान सकते हैं कि तंत्रिका शब्द का अर्थ तंत्रिका तंत्र से संबंधित है, और यह आकस्मिक नहीं है। कंप्यूटर कार्बनिक नहीं हैं और उनके पास एक तंत्रिका तंत्र नहीं है, लेकिन वे प्रक्रिया और कार्य को अपने तरीके से नकल कर सकते हैं। यहीं सब कुछ शुरू होता है: एक दृढ़ तंत्रिका नेटवर्क के साथ।
ये पैटर्न और वस्तुओं को पहचानने की क्षमता के विशेषज्ञ हैं – उसी तरह से नहीं, जैसे हम करते हैं, लेकिन एक तरह से यह लगभग शांत है, भले ही मानव आंख और मस्तिष्क के रूप में लगभग जटिल न हो।
आपको वह सब कुछ याद नहीं है जो आपने कभी सीखा है या पहचान सकते हैं। आप जानते हैं कि एक शर्ट एक शर्ट है, चाहे वह किस रंग का हो, उदाहरण के लिए, क्योंकि आपका मस्तिष्क जानता है कि शर्ट क्या है; आपको एक को पहचानने के लिए दुनिया की हर शर्ट को देखने की ज़रूरत नहीं है।
AI कुछ ऐसा ही करता है। यह सैकड़ों करोड़ों छवियों को संसाधित करने से प्रशिक्षित है, प्रत्येक के साथ एक विवरण के साथ यह बताते हुए कि छवि क्या है। उदाहरण के लिए, इसे ले लो:
यह एक चीज़बर्गर और फ्राइज़ का एक पक्ष है। लेकिन इसे और अधिक विस्तार से वर्णित किया जा सकता है:
यह भोजन की तस्वीर है। इसमें बेकन और स्विस पनीर के दो टुकड़ों के साथ एक चीज़बर्गर है, और एक बन जो नम दिखता है। मीट पैटी पर ग्रिल लाइनें दिखाई देती हैं, और मीट के कुछ पैटी के रसों ने रोटी में भिगोया है। एक तार की टोकरी भी है जो एक गहरी फ्रायर टोकरी की प्रतिकृति है जो कम से कम 13 टुकड़ों को पकड़े हुए है जो कटा हुआ आलू है। वे तले हुए हैं, और उनमें से कम से कम एक को थोड़ा जला दिया गया है।
एक अलग, छोटी प्लेट केंद्र में अनमिल्ड बटर के एक छोटे से डिश के साथ एक अज्ञात क्षुधावर्धक के अवशेष हैं। उस पर एक कांटा और चाकू के साथ एक छोटी सी चौकोर प्लेट भी है और एक अज्ञात तरल के साथ आंशिक रूप से भरे हुए पक्ष में एक गोबल है। टेबलटॉप भूरे रंग की लकड़ी है और शीर्ष के पास लाल और पीले रंग की रोशनी के प्रतिबिंब हैं।
यह है कि कैसे छवियों को वर्णित किया जाना चाहिए क्योंकि उन्हें एआई प्रशिक्षण एल्गोरिथ्म में खिलाया जाता है। प्रत्येक विवरण का विश्लेषण किया जाता है, और कुछ भी महत्वहीन नहीं है क्योंकि “दिखने वाले” करने वाले कंप्यूटर फोटो के दृश्य शोर के अंदर एक पैटर्न की तलाश कर रहे हैं।
एआई को प्रशिक्षित करते समय, हर विवरण मायने रखता है, यहां तक कि प्रतीत होता है कि महत्वहीन।
आखिरकार मॉडल एक संकेत लेने और एक छवि बनाने के लिए सही शोर पैटर्न को फिर से बनाने में सक्षम होगा क्योंकि इसमें सही प्रकार के डेटा की सही मात्रा है। एक विश्लेषण की गई छवि में सब कुछ प्रासंगिक है, न कि केवल चीज़बर्गर जो आप और मैं नोटिस करेंगे।
पर्याप्त विश्लेषण किए गए डेटा के साथ, यह एक नई छवि बनाने के लिए एक पथ या निर्देश के सेट के रूप में काम कर सकता है जो उपयोगकर्ता अनुरोध को पूरा करता है। यह बिट्स और छवियों के टुकड़ों को नहीं ले रहा है जो इसे पहले से ही देखा गया है और उन्हें एक पहेली की तरह एक साथ जोड़ रहा है; यह केवल दृश्य शोर के पैटर्न बना रहा है। पर्याप्त प्रशिक्षण के साथ, वे पैटर्न एक छवि की तरह दिखते हैं।
यह भी बताता है कि कुछ मॉडलों को कुछ चीजें वास्तव में गलत क्यों मिलती हैं। एआई केवल इस आधार पर बना सकता है कि इसे किस पर प्रशिक्षित किया गया था; यदि आप काले कुत्तों की 100,000,000 तस्वीरों का उपयोग करके प्रशिक्षित करते हैं, लेकिन कभी भी एक भूरे रंग को शामिल नहीं करते हैं, तो एआई कभी भी एक भूरे रंग के कुत्ते की छवि नहीं बना सकता है, चाहे आप ऐसा करने के लिए यह बताने की कोशिश करें।
पूर्वाग्रह मौजूद है क्योंकि एआई को वेब डेटा पर प्रशिक्षित किया जाता है, और कुछ चीजों को ओवररप्रेस किया जाता है जबकि अन्य को कम करके आंका जाता है। यह परिणामों में अपना रास्ता बनाता है, क्योंकि जैसा कि हमने चर्चा की, एआई केवल उस पर प्रशिक्षित किया जा सकता है। एआई से क्रोएशियाई ध्वज और नीले स्नीकर्स के साथ शर्ट पहने एक वैज्ञानिक की छवि बनाने के लिए कहें, और डॉक्टर शायद कोकेशियान होंगे, क्योंकि प्रशिक्षण डेटा का प्रतिनिधित्व कैसे किया गया था।
आप एक काले वैज्ञानिक की छवि के लिए एक ही शर्ट और एक व्हीलचेयर में बैठे जूते के साथ पूछ सकते हैं, और आपको संभवतः एक के साथ प्रस्तुत किया जाएगा। प्रशिक्षण के दौरान, एक अच्छा विवरण बहुत मायने रखता है।
एआई बेहतर होता रहेगा, और छवि पीढ़ी इसका हिस्सा होगी। शोधकर्ताओं के पास बहुत सारी बाधाएं हैं, न केवल एक एल्गोरिथ्म को ठीक करने और प्रतिनिधि डेटा का उपयोग करने के साथ, बल्कि अंतर्निहित पूर्वाग्रह और अपूर्ण प्रशिक्षण डेटा के आसपास नैतिक रूप से काम करने की कोशिश कर रहे हैं।
हम कुछ वर्षों में एक लंबा सफर तय कर चुके हैं, और चीजें जल्द ही कभी भी धीमा नहीं दिखती हैं।