यह हैंड्स-ऑन ट्यूटोरियल आपको CSV/Excel फ़ाइलों के साथ काम करने और पायथन में खोजपूर्ण डेटा विश्लेषण (EDA) का संचालन करने की पूरी प्रक्रिया के माध्यम से चलेगा। हम एक यथार्थवादी ई-कॉमर्स बिक्री डेटासेट का उपयोग करेंगे जिसमें लेनदेन, ग्राहक जानकारी, इन्वेंट्री डेटा, और बहुत कुछ शामिल है।
परिचय
डेटा विश्लेषण आज की डेटा-संचालित दुनिया में एक आवश्यक कौशल है। इस ट्यूटोरियल में, हम सीखेंगे कि कैसे:
- एक्सेल फ़ाइलों से डेटा आयात करें
- स्वच्छ और प्रीप्रोसेस डेटा
- आंकड़ों और विज़ुअलाइज़ेशन के माध्यम से डेटा का अन्वेषण और विश्लेषण करें
- व्यावसायिक डेटा से सार्थक अंतर्दृष्टि बनाएं
हम कई प्रमुख पायथन पुस्तकालयों का उपयोग करेंगे:
- पांडा: डेटा हेरफेर और विश्लेषण के लिए
- Numpy: संख्यात्मक संचालन के लिए
- मैटप्लोटलिब और सीबोर्न: डेटा विज़ुअलाइज़ेशन के लिए
अपना वातावरण स्थापित करना
सबसे पहले, आइए आवश्यक पुस्तकालयों को स्थापित करें:
- OpenPyxl और XLRD बैकएंड हैं जो पांडा एक्सेल फ़ाइलों को पढ़ने के लिए उपयोग करते हैं
- अपने पायथन स्क्रिप्ट में पुस्तकालयों को आयात करें:
हमारे डेटासेट को समझना
हमारा नमूना डेटासेट एक ई-कॉमर्स कंपनी के बिक्री डेटा का प्रतिनिधित्व करता है। इसमें पांच शीट शामिल हैं:
- विक्रय डेटा: 1,000 आदेशों के साथ मुख्य लेनदेन डेटा
- Customer_Data: ग्राहक जनसांख्यिकीय जानकारी
- भंडार: उत्पाद सूची विवरण
- मासिक_सुमरी: पूर्व-एकत्रित मासिक बिक्री डेटा
- Data_issues: अभ्यास के लिए जानबूझकर गुणवत्ता की समस्याओं के साथ डेटा का एक नमूना
आप यहां डेटासेट डाउनलोड कर सकते हैं
एक्सेल फाइलें पढ़ना
अब जब हमारे पास अपना डेटासेट है, तो आइए एक्सेल फ़ाइल को पढ़कर शुरू करें:
आपको उपलब्ध चादरों और उनके आयामों को दिखाते हुए आउटपुट देखना चाहिए।
विशिष्ट पंक्तियों या स्तंभों को पढ़ना
कभी -कभी आप केवल एक बड़ी एक्सेल फ़ाइल के विशिष्ट भागों को पढ़ना चाहते हैं:
मूल आंकड़ा अन्वेषण
आइए इसकी संरचना और सामग्री को समझने के लिए हमारे बिक्री डेटा का पता लगाएं:
आइए विभिन्न श्रेणियों और क्षेत्रों में आदेशों के वितरण को देखें:
डेटा सफाई और तैयारी
आइए “Data_issues” शीट का उपयोग करके डेटा सफाई का अभ्यास करें, जो विशेष रूप से सामान्य डेटा समस्याओं के साथ बनाया गया था:
अब डेटा को साफ करते हैं:
आइए हमारे मुख्य बिक्री डेटा को भी साफ करें:
विलय करना और डेटा में शामिल होना
अब समृद्ध अंतर्दृष्टि प्राप्त करने के लिए विभिन्न चादरों से डेटा को मिलाएं:
आइए उत्पाद-स्तरीय मेट्रिक्स का विश्लेषण करने के लिए इन्वेंट्री डेटा में भी शामिल हों:
अन्वेषणात्मक डेटा विश्लेषण
अब हमारे व्यवसाय को समझने के लिए कुछ सार्थक खोजपूर्ण डेटा विश्लेषण करते हैं:
बिक्री प्रदर्शन विश्लेषण
ग्राहक खंड विश्लेषण
भुगतान विधि विश्लेषण
वापसी दर विश्लेषण
पार-प्रतिभाशाली विश्लेषण
सहसंबंध विश्लेषण
आंकड़ा विज़ुअलाइज़ेशन
अब हमारे डेटा को बेहतर ढंग से समझने के लिए विज़ुअलाइज़ेशन बनाएं:
मूल विज़ुअलाइज़ेशन
समुद्र के साथ उन्नत विज़ुअलाइज़ेशन
जटिल विज़ुअलाइज़ेशन
निष्कर्ष
इस ट्यूटोरियल में, हमने पायथन में CSV और Excel फ़ाइलों को संभालने के पूर्ण वर्कफ़्लो की खोज की, जिसमें कच्चे डेटा को आयात करने और साफ करने से लेकर व्यावहारिक खोजपूर्ण डेटा विश्लेषण (EDA) का संचालन करने तक। एक यथार्थवादी ई-कॉमर्स डेटासेट का उपयोग करते हुए, हमने सीखा कि कैसे डेटासेट को मर्ज और शामिल किया जाए, सामान्य डेटा गुणवत्ता के मुद्दों को संभालें, और सांख्यिकीय विश्लेषण और विज़ुअलाइज़ेशन के माध्यम से प्रमुख व्यावसायिक अंतर्दृष्टि निकालें। हमने पांडा, न्यूमपी, मैटप्लोटलिब और सीबोर्न जैसे आवश्यक पायथन पुस्तकालयों को भी कवर किया। अंत तक, आपको वास्तविक दुनिया के अनुप्रयोगों के लिए कच्चे डेटा को कार्रवाई योग्य अंतर्दृष्टि में बदलने के लिए व्यावहारिक ईडीए कौशल से लैस होना चाहिए।

निखिल मार्कटेकपोस्ट में एक प्रशिक्षु सलाहकार है। वह भारतीय प्रौद्योगिकी संस्थान, खड़गपुर में सामग्रियों में एक एकीकृत दोहरी डिग्री का पीछा कर रहा है। निखिल एक एआई/एमएल उत्साही है जो हमेशा बायोमैटेरियल्स और बायोमेडिकल साइंस जैसे क्षेत्रों में अनुप्रयोगों पर शोध कर रहा है। भौतिक विज्ञान में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति की खोज कर रहा है और योगदान करने के अवसर पैदा कर रहा है।
