फरवरी 2024 में, Reddit ने Google के साथ $ 60 मिलियन का सौदा किया, ताकि उसके कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए मंच पर खोज विशालकाय डेटा का उपयोग किया जा सके। विशेष रूप से चर्चाओं से अनुपस्थित Reddit उपयोगकर्ता थे, जिनके डेटा बेचे जा रहे थे।
इस सौदे ने आधुनिक इंटरनेट की वास्तविकता को प्रतिबिंबित किया: बिग टेक कंपनियां लगभग हमारे सभी ऑनलाइन डेटा के मालिक हैं और यह तय करने के लिए हैं कि उस डेटा के साथ क्या करना है। अप्रत्याशित रूप से, कई प्लेटफ़ॉर्म अपने डेटा का मुद्रीकरण करते हैं, और यह पूरा करने के लिए सबसे तेजी से बढ़ने का तरीका है कि आज इसे एआई कंपनियों को बेचना है, जो कभी-कभी अधिक शक्तिशाली मॉडल को प्रशिक्षित करने के लिए डेटा का उपयोग करके बड़े पैमाने पर तकनीकी कंपनियों हैं।
विकेंद्रीकृत प्लेटफ़ॉर्म वाना, जो एमआईटी में एक वर्ग परियोजना के रूप में शुरू हुआ, उपयोगकर्ताओं को बिजली वापस देने के लिए एक मिशन पर है। कंपनी ने एक पूरी तरह से उपयोगकर्ता-स्वामित्व वाला नेटवर्क बनाया है जो व्यक्तियों को अपने डेटा को अपलोड करने और यह नियंत्रित करने की अनुमति देता है कि उनका उपयोग कैसे किया जाता है। एआई डेवलपर्स नए मॉडल के लिए विचारों पर उपयोगकर्ताओं को पिच कर सकते हैं, और यदि उपयोगकर्ता प्रशिक्षण के लिए अपने डेटा में योगदान करने के लिए सहमत होते हैं, तो उन्हें मॉडल में आनुपातिक स्वामित्व मिलता है।
यह विचार एआई सिस्टम में सभी को हिस्सेदारी देने का है जो प्रौद्योगिकी को आगे बढ़ाने के लिए डेटा के नए पूल को अनलॉक करते हुए हमारे समाज को तेजी से आकार देगा।
वाना के सह-संस्थापक अन्ना कज़लौस्कस ’19 कहते हैं, “इस डेटा को बेहतर एआई सिस्टम बनाने की आवश्यकता है।” “हमने बेहतर डेटा प्राप्त करने के लिए एक विकेन्द्रीकृत प्रणाली बनाई है – जो आज बड़ी टेक कंपनियों के अंदर बैठता है – जबकि अभी भी उपयोगकर्ताओं को अंतिम स्वामित्व बनाए रखने की अनुमति देता है।”
अर्थशास्त्र से लेकर ब्लॉकचेन तक
बहुत सारे हाई स्कूल के छात्रों के पास अपने बेडरूम की दीवारों पर पॉप सितारों या एथलीटों की तस्वीरें हैं। काज़लौस्क ने पूर्व अमेरिकी ट्रेजरी सचिव जेनेट येलेन की तस्वीर की थी।
कज़लौस्क ने यह सुनिश्चित करने के लिए कहा कि वह एक अर्थशास्त्री बन जाएगी, लेकिन वह 2015 में MIT बिटकॉइन क्लब में शामिल होने के लिए पांच छात्रों में से एक के रूप में समाप्त हो गई, और उस अनुभव ने उसे ब्लॉकचेन और क्रिप्टोक्यूरेंसी की दुनिया में ले जाया।
मैकग्रेगर हाउस में अपने डॉर्म रूम से, उसने क्रिप्टोक्यूरेंसी एथेरियम का खनन करना शुरू किया। यहां तक कि उसने कभी -कभार कंप्यूटर चिप्स की तलाश में कैंपस डंपस्टर्स को भी छोड़ा।
“यह मुझे कंप्यूटर विज्ञान और नेटवर्किंग के आसपास हर चीज में दिलचस्पी लेता है,” कज़लौस्कस कहते हैं। “यह शामिल है, एक ब्लॉकचेन के नजरिए से, वितरित सिस्टम और कैसे वे आर्थिक शक्ति को व्यक्तियों, साथ ही कृत्रिम बुद्धिमत्ता और अर्थमिति को स्थानांतरित कर सकते हैं।”
कज़लौस्क ने कला अबाल से मुलाकात की, जो तब हार्वर्ड विश्वविद्यालय में भाग ले रहे थे, पूर्व मीडिया लैब क्लास इमर्जेंट वेंचर्स में, और इस जोड़ी ने एआई सिस्टम को प्रशिक्षित करने के लिए डेटा प्राप्त करने के लिए नए तरीकों पर काम करने का फैसला किया।
“हमारा सवाल था: आप एक बड़ी संख्या में लोगों को इन एआई सिस्टम में एक वितरित नेटवर्क का उपयोग करके योगदान दे सकते हैं?” कज़लौस्क को याद किया जाता है।
कज़लौस्क और अबाल यथास्थिति को संबोधित करने की कोशिश कर रहे थे, जहां अधिकांश मॉडलों को इंटरनेट पर सार्वजनिक डेटा को स्क्रैप करके प्रशिक्षित किया जाता है। बड़ी टेक कंपनियां अक्सर अन्य कंपनियों से बड़े डेटासेट भी खरीदती हैं।
संस्थापकों का दृष्टिकोण वर्षों से विकसित हुआ और स्नातक स्तर की पढ़ाई के बाद वित्तीय ब्लॉकचेन कंपनी सेलो में काम करने वाले कज़लौस्कस के अनुभव द्वारा सूचित किया गया। लेकिन कज़लौस्कस ने एमआईटी में अपना समय इन समस्याओं के बारे में सोचने में मदद करने के लिए श्रेय दिया, और इमर्जेंट वेंचर्स के प्रशिक्षक, रमेश रस्कर, अभी भी वाना को एआई शोध प्रश्नों के बारे में सोचने में मदद करते हैं।
“यह बहुत अच्छा था कि केवल निर्माण, हैक करने और अन्वेषण करने का एक खुला अवसर मिला,” कज़लौस्कस कहते हैं। “मुझे लगता है कि एमआईटी में लोकाचार वास्तव में महत्वपूर्ण है। यह सिर्फ चीजों के निर्माण के बारे में है, जो काम करता है, और पुनरावृति के लिए जारी है।”
आज वाना एक छोटे से ज्ञात कानून का लाभ उठाता है जो अधिकांश बड़े तकनीकी प्लेटफार्मों के उपयोगकर्ताओं को सीधे अपने डेटा को निर्यात करने की अनुमति देता है। उपयोगकर्ता उस जानकारी को वाना में एन्क्रिप्ट किए गए डिजिटल वॉलेट में अपलोड कर सकते हैं और इसे फिट देखने के लिए मॉडल को प्रशिक्षित करने के लिए इसे हटा सकते हैं।
एआई इंजीनियर नए ओपन-सोर्स मॉडल के लिए विचारों का सुझाव दे सकते हैं, और लोग मॉडल को प्रशिक्षित करने में मदद करने के लिए अपने डेटा को पूल कर सकते हैं। ब्लॉकचेन दुनिया में, डेटा पूल को डेटा DAOS कहा जाता है, जो विकेंद्रीकृत स्वायत्त संगठन के लिए खड़ा है। डेटा का उपयोग व्यक्तिगत एआई मॉडल और एजेंट बनाने के लिए भी किया जा सकता है।
वाना में, डेटा का उपयोग इस तरह से किया जाता है जो उपयोगकर्ता गोपनीयता को संरक्षित करता है क्योंकि सिस्टम पहचान योग्य जानकारी को उजागर नहीं करता है। एक बार मॉडल बनाने के बाद, उपयोगकर्ता स्वामित्व बनाए रखते हैं ताकि हर बार इसका उपयोग किया जाए, उन्हें आनुपातिक रूप से पुरस्कृत किया जाता है कि उनके डेटा ने इसे प्रशिक्षित करने में कितना मदद की।
“एक डेवलपर के दृष्टिकोण से, अब आप इन हाइपर-पर्सनलाइज्ड स्वास्थ्य अनुप्रयोगों का निर्माण कर सकते हैं, जो कि आपने जो खाया था, उसे ध्यान में रखते हुए, आप कैसे सोते हैं, आप कैसे व्यायाम करते हैं,” काज़लौस्कस कहते हैं। “वे अनुप्रयोग आज बड़ी तकनीक कंपनियों के उन दीवारों वाले बगीचों के कारण संभव नहीं हैं।”
भीड़, उपयोगकर्ता के स्वामित्व वाली एआई
पिछले साल, एक मशीन-लर्निंग इंजीनियर ने एक एआई मॉडल को प्रशिक्षित करने के लिए वाना उपयोगकर्ता डेटा का उपयोग करके प्रस्तावित किया था जो Reddit पोस्ट उत्पन्न कर सकता है। 140,000 से अधिक VANA उपयोगकर्ताओं ने अपने Reddit डेटा में योगदान दिया, जिसमें पोस्ट, टिप्पणियां, संदेश और बहुत कुछ शामिल था। उपयोगकर्ताओं ने उन शर्तों पर फैसला किया जिसमें मॉडल का उपयोग किया जा सकता है, और उन्होंने इसे बनाए जाने के बाद मॉडल के स्वामित्व को बनाए रखा।
VANA ने सोशल मीडिया प्लेटफ़ॉर्म X से उपयोगकर्ता-नियंत्रित डेटा के साथ इसी तरह की पहल को सक्षम किया है; Oura के छल्ले जैसे स्रोतों से नींद डेटा; और अधिक। ऐसे सहयोग भी हैं जो व्यापक एआई अनुप्रयोगों को बनाने के लिए डेटा पूल को जोड़ते हैं।
“मान लीजिए कि उपयोगकर्ताओं ने डेटा, Reddit डेटा और फैशन डेटा को Spotify किया है,” कज़लौस्कस बताते हैं। “आमतौर पर, Spotify उन प्रकार की कंपनियों के साथ सहयोग करने के लिए नहीं जा रहा है, और वास्तव में उसके खिलाफ विनियमन है। लेकिन उपयोगकर्ता यह कर सकते हैं यदि वे पहुंच प्रदान करते हैं, तो इन क्रॉस-प्लेटफ़ॉर्म डेटासेट का उपयोग वास्तव में शक्तिशाली मॉडल बनाने के लिए किया जा सकता है।”
वाना के 1 मिलियन से अधिक उपयोगकर्ता हैं और 20 से अधिक लाइव डेटा DAOS हैं। वाना के सिस्टम पर उपयोगकर्ताओं द्वारा 300 से अधिक अतिरिक्त डेटा पूल प्रस्तावित किए गए हैं, और काज़लौस्कस का कहना है कि कई इस साल उत्पादन में जाएंगे।
“मुझे लगता है कि सामान्यीकृत एआई मॉडल, व्यक्तिगत दवा और नए उपभोक्ता अनुप्रयोगों में बहुत सारे वादा है, क्योंकि उस सभी डेटा को संयोजित करना या पहले स्थान पर इसे प्राप्त करना कठिन है,” काज़लौस्कस कहते हैं।
डेटा पूल उपयोगकर्ताओं के समूहों को आज के साथ संघर्ष करने वाली सबसे शक्तिशाली तकनीकी कंपनियों को भी पूरा करने की अनुमति दे रहे हैं।
“आज, बिग टेक कंपनियों ने इन डेटा मटों का निर्माण किया है, इसलिए सबसे अच्छा डेटासेट किसी के लिए भी उपलब्ध नहीं हैं,” कज़लौस्कस कहते हैं। “यह एक सामूहिक कार्रवाई की समस्या है, जहां मेरा खुद पर डेटा मूल्यवान नहीं है, लेकिन दसियों हजार या लाख लोगों के साथ एक डेटा पूल वास्तव में मूल्यवान है। वाना उन पूलों को बनाने की अनुमति देता है। यह एक जीत-जीत है: उपयोगकर्ताओं को एआई के उदय से लाभ मिलता है, लेकिन आप एक एकल कंपनी को नियंत्रित नहीं करते हैं, लेकिन आप एक ऑल-पॉवरन को नियंत्रित नहीं करते हैं।
।