Skip to content
On this page

Chapter 4: डेटा समजून घेणे


4.1 डेटा मॉडेलपेक्षा जास्त महत्त्वाचा का आहे

🔹 संक्षिप्त सारांश:
Machine Learning डेटा वरून शिकते, त्यामुळे चांगला डेटा सर्वात महत्त्वाचा आहे.

🔹 सोपं स्पष्टीकरण:

  • ML code वर नाही तर डेटा वर शिकते
  • चांगला डेटा असेल तर साधं मॉडेलही चांगलं काम करतं
  • खराब डेटा असेल तर कोणतंही मॉडेल fail होतं
  • म्हणून अनुभवी लोक डेटा वर जास्त वेळ देतात

4.2 डेटा चे प्रकार

🔹 संक्षिप्त सारांश:
डेटा दोन प्रकारचा असतो — structured आणि unstructured.

🔹 सोपं स्पष्टीकरण:

  • डेटा चा प्रकार ठरवतो की आपण तो कसा वापरणार

Structured Data

🔹 संक्षिप्त सारांश:
rows आणि columns मध्ये व्यवस्थित असलेला डेटा.

🔹 सोपं स्पष्टीकरण:

  • टेबल स्वरूपात असतो
  • उदा. Excel, CSV, database
  • प्रत्येक row = एक नोंद
  • प्रत्येक column = एक वैशिष्ट्य
  • process करायला सोपा

Unstructured Data

🔹 संक्षिप्त सारांश:
ठराविक स्वरूप नसलेला डेटा.

🔹 सोपं स्पष्टीकरण:

  • उदा. text, images, audio
  • थेट वापरता येत नाही
  • आधी numbers मध्ये रूपांतर करावं लागतं
  • म्हणून process करायला कठीण

4.3 Features आणि Labels

🔹 संक्षिप्त सारांश:
Features = input, Labels = output.

🔹 सोपं स्पष्टीकरण:

  • Features म्हणजे मॉडेलला दिलेली माहिती
  • Label म्हणजे आपण काय predict करायचं आहे
  • मॉडेल features आणि label यांच्यात संबंध शिकते

उदाहरण

🔹 संक्षिप्त सारांश:
घराच्या किंमतीचा अंदाज.

🔹 सोपं स्पष्टीकरण:

  • Features:
    • घराचा आकार
    • खोल्यांची संख्या
    • location
  • Label:
    • घराची किंमत

समज

🔹 संक्षिप्त सारांश:
Features म्हणजे clues आणि label म्हणजे उत्तर.

🔹 सोपं स्पष्टीकरण:

  • मॉडेल clues पाहून उत्तर शिकते
  • चुकीचे features असतील तर मॉडेल गोंधळते
  • योग्य features निवडणे खूप महत्त्वाचे

4.4 Training Data vs Test Data

🔹 संक्षिप्त सारांश:
Training शिकण्यासाठी, Test तपासण्यासाठी वापरला जातो.

🔹 सोपं स्पष्टीकरण:

  • Training data वर मॉडेल शिकते
  • Test data नवीन असतो
  • दोन्ही कधीही mix करू नयेत
  • यामुळे खरी performance कळते

सोपं उदाहरण

🔹 संक्षिप्त सारांश:
Training = अभ्यास, Test = परीक्षा.

🔹 सोपं स्पष्टीकरण:

  • फक्त पाठांतर केलं तर परीक्षा कठीण जाते
  • मॉडेलनेही generalize करायला हवं

4.5 Data Leakage (खूप महत्त्वाचं)

🔹 संक्षिप्त सारांश:
जेव्हा मॉडेलला आधीच उत्तराची माहिती मिळते.

🔹 सोपं स्पष्टीकरण:

  • चुकीने extra माहिती training मध्ये जाते
  • त्यामुळे performance खूप चांगली दिसते
  • पण real-world मध्ये fail होते

उदाहरण

🔹 संक्षिप्त सारांश:
उत्तरच input मध्ये देणे.

🔹 सोपं स्पष्टीकरण:

  • student pass होईल का predict करताना
  • जर result feature मध्येच दिला
  • तर मॉडेल “cheat” करते
  • खरे शिकत नाही

4.6 डेटा ची गुणवत्ता

🔹 संक्षिप्त सारांश:
डेटा चांगला असेल तरच परिणाम चांगले येतात.

🔹 सोपं स्पष्टीकरण:

  • clean data → चांगले predictions
  • noisy data → चुकीचे patterns
  • errors असतील तर model चुकीचं शिकते
  • "Garbage in → Garbage out"

4.7 लक्षात ठेवण्यासारखी कल्पना

🔹 संक्षिप्त सारांश:
डेटा हा ML चा पाया आहे.

🔹 सोपं स्पष्टीकरण:

  • Data = पाया
  • Features = input
  • Label = output
  • मॉडेल data वरून patterns शिकते
  • चांगला डेटा = चांगलं learning

4.8 हे का महत्त्वाचं आहे

🔹 संक्षिप्त सारांश:
डेटा समजणे म्हणजे ML समजण्याची किल्ली आहे.

🔹 सोपं स्पष्टीकरण:

  • ML engineer सारखं विचार करायला मदत होते
  • beginner चुका टाळता येतात
  • model ची performance सुधारते

4.9 पुढे काय येणार?

🔹 संक्षिप्त सारांश:
पुढे डेटा numbers मध्ये कसा बदलायचा ते पाहू.

🔹 सोपं स्पष्टीकरण:

  • machine ला फक्त numbers समजतात
  • डेटा योग्य स्वरूपात कसा आणायचा ते शिकू
  • पुढील chapter: Representing Data

Chapter Summary

🔹 संक्षिप्त सारांश:
डेटा हा Machine Learning चा सर्वात महत्त्वाचा भाग आहे.

🔹 सोपं स्पष्टीकरण:

  • डेटा मॉडेलपेक्षा जास्त महत्त्वाचा
  • दोन प्रकार: structured आणि unstructured
  • Features = input, Labels = output
  • Training आणि Test वेगळे ठेवणे आवश्यक
  • Data leakage टाळणे महत्त्वाचे
  • डेटा ची गुणवत्ता थेट परिणामावर प्रभाव टाकते

Built with VitePress