Chapter 5: मशीनसाठी डेटा सादर करणे
5.1 Representation का महत्त्वाचं आहे
🔹 संक्षिप्त सारांश:
मशीनला फक्त संख्या समजतात, त्यामुळे प्रत्येक डेटा संख्या मध्ये बदलावा लागतो.
🔹 सोपं स्पष्टीकरण:
- मशीनला text, image थेट समजत नाही
- ती फक्त numbers वर काम करते
- म्हणून प्रत्येक प्रकारचा डेटा संख्या मध्ये बदलावा लागतो
- यालाच data representation म्हणतात
5.2 सर्व काही संख्या बनतं
🔹 संक्षिप्त सारांश:
कोणताही डेटा शेवटी संख्या मध्ये रूपांतरित होतो.
🔹 सोपं स्पष्टीकरण:
- Text → numbers
- Categories → numbers
- Yes/No → 1/0
- Images → pixel values
- numeric नसलेला डेटा मशीन process करू शकत नाही
5.3 डेटा चे प्रकार (Encoding साठी महत्त्वाचे)
🔹 संक्षिप्त सारांश:
डेटा चा प्रकार समजून घेतल्याशिवाय योग्य रूपांतरण करता येत नाही.
🔹 सोपं स्पष्टीकरण:
- दोन मुख्य प्रकार:
- Numerical data
- Categorical data
- categorical मध्ये:
- Nominal
- Ordinal
Numerical Data
🔹 संक्षिप्त सारांश:
संख्या स्वरूपातील डेटा.
🔹 सोपं स्पष्टीकरण:
- उदा. age, salary, temperature
- थेट वापरता येतो
- कधी कधी scaling करावी लागते
Categorical Data
🔹 संक्षिप्त सारांश:
गट किंवा प्रकार दाखवणारा डेटा.
🔹 सोपं स्पष्टीकरण:
- उदा. color, city
- थेट वापरता येत नाही
- आधी संख्या मध्ये बदलावा लागतो
Nominal Data
🔹 संक्षिप्त सारांश:
ज्यात कोणताही क्रम (order) नसतो.
🔹 सोपं स्पष्टीकरण:
- उदा. color: red, blue, green
- कोणताही ranking नसतो
- One-Hot Encoding वापरतात
Ordinal Data
🔹 संक्षिप्त सारांश:
ज्यात अर्थपूर्ण क्रम असतो.
🔹 सोपं स्पष्टीकरण:
- उदा. small, medium, large
- क्रम महत्त्वाचा असतो
- Label Encoding वापरतात
5.4 Label Encoding
🔹 संक्षिप्त सारांश:
categories ला क्रमाने संख्या देणे.
🔹 सोपं स्पष्टीकरण:
- प्रत्येक category ला number दिला जातो
- उदा. small=0, medium=1, large=2
- ordinal data साठी योग्य
- चुकीच्या वापरामुळे चुकीचे patterns तयार होऊ शकतात
5.5 One-Hot Encoding
🔹 संक्षिप्त सारांश:
प्रत्येक category साठी वेगळा column तयार करणे.
🔹 सोपं स्पष्टीकरण:
- प्रत्येक category साठी स्वतंत्र feature तयार होते
- फक्त एकच column 1 असतो, बाकी 0
- कोणताही order दाखवला जात नाही
- nominal data साठी योग्य
5.6 Numerical Data (पुन्हा)
🔹 संक्षिप्त सारांश:
संख्या डेटा थेट वापरता येतो पण कधी बदल आवश्यक असतो.
🔹 सोपं स्पष्टीकरण:
- उदा. age, income, distance
- scale वेगळी असेल तर समस्या येते
- पुढे scaling आणि normalization शिकू
5.7 Representation चा मॉडेलवर परिणाम
🔹 संक्षिप्त सारांश:
डेटा कसा सादर करतो यावर model चे learning अवलंबून असते.
🔹 सोपं स्पष्टीकरण:
- चुकीचा encoding → चुकीचे patterns
- योग्य encoding → चांगली performance
- data representation थेट परिणाम करते
5.8 लक्षात ठेवण्यासारखी कल्पना
🔹 संक्षिप्त सारांश:
मशीनला फक्त संख्या समजतात.
🔹 सोपं स्पष्टीकरण:
- सर्व डेटा संख्या मध्ये बदलतो
- डेटा चा प्रकार encoding ठरवतो
- योग्य representation = चांगलं learning
5.9 हे का महत्त्वाचं आहे
🔹 संक्षिप्त सारांश:
हा टप्पा model training साठी पाया तयार करतो.
🔹 सोपं स्पष्टीकरण:
- डेटा योग्य बनवतो
- योग्य encoding निवडायला मदत करतो
- सामान्य चुका टाळतो
- पुढील सर्व टप्प्यांसाठी आधार तयार करतो
5.10 पुढे काय येणार?
🔹 संक्षिप्त सारांश:
पुढे features कसे सुधारायचे ते पाहणार.
🔹 सोपं स्पष्टीकरण:
- existing डेटा पासून नवीन features तयार करणे
- model performance वाढवणे
- पुढील chapter: Feature Engineering
Chapter Summary
🔹 संक्षिप्त सारांश:
मशीनसाठी डेटा संख्या मध्ये रूपांतरित करणे आवश्यक आहे.
🔹 सोपं स्पष्टीकरण:
- मशीनला फक्त numbers समजतात
- numerical data थेट वापरता येतो
- categorical data encode करावा लागतो
- nominal → One-Hot Encoding
- ordinal → Label Encoding
- योग्य representation performance सुधारते
Docs