Skip to content
On this page

Chapter 5: मशीनसाठी डेटा सादर करणे


5.1 Representation का महत्त्वाचं आहे

🔹 संक्षिप्त सारांश:
मशीनला फक्त संख्या समजतात, त्यामुळे प्रत्येक डेटा संख्या मध्ये बदलावा लागतो.

🔹 सोपं स्पष्टीकरण:

  • मशीनला text, image थेट समजत नाही
  • ती फक्त numbers वर काम करते
  • म्हणून प्रत्येक प्रकारचा डेटा संख्या मध्ये बदलावा लागतो
  • यालाच data representation म्हणतात

5.2 सर्व काही संख्या बनतं

🔹 संक्षिप्त सारांश:
कोणताही डेटा शेवटी संख्या मध्ये रूपांतरित होतो.

🔹 सोपं स्पष्टीकरण:

  • Text → numbers
  • Categories → numbers
  • Yes/No → 1/0
  • Images → pixel values
  • numeric नसलेला डेटा मशीन process करू शकत नाही

5.3 डेटा चे प्रकार (Encoding साठी महत्त्वाचे)

🔹 संक्षिप्त सारांश:
डेटा चा प्रकार समजून घेतल्याशिवाय योग्य रूपांतरण करता येत नाही.

🔹 सोपं स्पष्टीकरण:

  • दोन मुख्य प्रकार:
    • Numerical data
    • Categorical data
  • categorical मध्ये:
    • Nominal
    • Ordinal

Numerical Data

🔹 संक्षिप्त सारांश:
संख्या स्वरूपातील डेटा.

🔹 सोपं स्पष्टीकरण:

  • उदा. age, salary, temperature
  • थेट वापरता येतो
  • कधी कधी scaling करावी लागते

Categorical Data

🔹 संक्षिप्त सारांश:
गट किंवा प्रकार दाखवणारा डेटा.

🔹 सोपं स्पष्टीकरण:

  • उदा. color, city
  • थेट वापरता येत नाही
  • आधी संख्या मध्ये बदलावा लागतो

Nominal Data

🔹 संक्षिप्त सारांश:
ज्यात कोणताही क्रम (order) नसतो.

🔹 सोपं स्पष्टीकरण:

  • उदा. color: red, blue, green
  • कोणताही ranking नसतो
  • One-Hot Encoding वापरतात

Ordinal Data

🔹 संक्षिप्त सारांश:
ज्यात अर्थपूर्ण क्रम असतो.

🔹 सोपं स्पष्टीकरण:

  • उदा. small, medium, large
  • क्रम महत्त्वाचा असतो
  • Label Encoding वापरतात

5.4 Label Encoding

🔹 संक्षिप्त सारांश:
categories ला क्रमाने संख्या देणे.

🔹 सोपं स्पष्टीकरण:

  • प्रत्येक category ला number दिला जातो
  • उदा. small=0, medium=1, large=2
  • ordinal data साठी योग्य
  • चुकीच्या वापरामुळे चुकीचे patterns तयार होऊ शकतात

5.5 One-Hot Encoding

🔹 संक्षिप्त सारांश:
प्रत्येक category साठी वेगळा column तयार करणे.

🔹 सोपं स्पष्टीकरण:

  • प्रत्येक category साठी स्वतंत्र feature तयार होते
  • फक्त एकच column 1 असतो, बाकी 0
  • कोणताही order दाखवला जात नाही
  • nominal data साठी योग्य

5.6 Numerical Data (पुन्हा)

🔹 संक्षिप्त सारांश:
संख्या डेटा थेट वापरता येतो पण कधी बदल आवश्यक असतो.

🔹 सोपं स्पष्टीकरण:

  • उदा. age, income, distance
  • scale वेगळी असेल तर समस्या येते
  • पुढे scaling आणि normalization शिकू

5.7 Representation चा मॉडेलवर परिणाम

🔹 संक्षिप्त सारांश:
डेटा कसा सादर करतो यावर model चे learning अवलंबून असते.

🔹 सोपं स्पष्टीकरण:

  • चुकीचा encoding → चुकीचे patterns
  • योग्य encoding → चांगली performance
  • data representation थेट परिणाम करते

5.8 लक्षात ठेवण्यासारखी कल्पना

🔹 संक्षिप्त सारांश:
मशीनला फक्त संख्या समजतात.

🔹 सोपं स्पष्टीकरण:

  • सर्व डेटा संख्या मध्ये बदलतो
  • डेटा चा प्रकार encoding ठरवतो
  • योग्य representation = चांगलं learning

5.9 हे का महत्त्वाचं आहे

🔹 संक्षिप्त सारांश:
हा टप्पा model training साठी पाया तयार करतो.

🔹 सोपं स्पष्टीकरण:

  • डेटा योग्य बनवतो
  • योग्य encoding निवडायला मदत करतो
  • सामान्य चुका टाळतो
  • पुढील सर्व टप्प्यांसाठी आधार तयार करतो

5.10 पुढे काय येणार?

🔹 संक्षिप्त सारांश:
पुढे features कसे सुधारायचे ते पाहणार.

🔹 सोपं स्पष्टीकरण:

  • existing डेटा पासून नवीन features तयार करणे
  • model performance वाढवणे
  • पुढील chapter: Feature Engineering

Chapter Summary

🔹 संक्षिप्त सारांश:
मशीनसाठी डेटा संख्या मध्ये रूपांतरित करणे आवश्यक आहे.

🔹 सोपं स्पष्टीकरण:

  • मशीनला फक्त numbers समजतात
  • numerical data थेट वापरता येतो
  • categorical data encode करावा लागतो
  • nominal → One-Hot Encoding
  • ordinal → Label Encoding
  • योग्य representation performance सुधारते

Built with VitePress