پروژه دیتا ساینس

علم داده (Data Science) به زبان ساده: دنیایی از داده تا بینش

علم داده چیست؟

علم داده ترکیبی از آمار، برنامه‌نویسی و دانش دامنه (Domain Knowledge) است که از داده‌ها بینش استخراج می‌کند تا تصمیم‌گیری آگاهانه ممکن شود.

چرخه حیات یک پروژه علم داده

1. درک مسئله (Problem Understanding)

  • اولین و مهم‌ترین گام!

  • سوالات کلیدی:

    • چه مشکلی قرار است حل شود؟

    • هدف کسب‌وکار چیست؟

    • معیار موفقیت چیست؟

  • مثال: یک فروشگاه آنلاین می‌خواهد مشتریانی که ممکن است خرید نکنند را شناسایی کند.

2. جمع‌آوری داده (Data Collection)

  • داده‌ها از کجا می‌آیند؟

    • داخلی: دیتابیس‌های شرکت، لاگ‌های سیستم

    • خارجی: APIها، وب‌سکرپینگ، داده‌های عمومی (Kaggle, UCI)

    • سنتورها: IoT، دستگاه‌های پزشکی

3. پاک‌سازی و پیش‌پردازش (Data Cleaning & Preprocessing)

  • “کار کثیف” علم داده! (۸۰٪ زمان پروژه)

  • کارهای اصلی:

    • مقادیر گمشده (Missing Values)

    • داده‌های پرت (Outliers)

    • ناسازگاری‌ها (Inconsistencies)

    • تغییر فرمت‌ها و مقیاس‌ها

4. کاوش داده (EDA – Exploratory Data Analysis)

  • داستان‌گویی با داده!

  • تکنیک‌ها:

    • آمار توصیفی (میانگین، میانه، انحراف معیار)

    • مصورسازی (Visualization)

    • کشف روابط و الگوها

5. مهندسی ویژگی (Feature Engineering)

  • جادوی واقعی علم داده!

  • ایجاد ویژگی‌های جدید از داده‌های موجود

  • مثال: از تاریخ تولد، سن را محاسبه کنیم

6. مدل‌سازی (Modeling)

  • انتخاب و آموزش الگوریتم

  • دسته‌بندی الگوریتم‌ها:

    • یادگیری نظارت‌شده: (داده دارای برچسب)

      • رگرسیون: پیش‌بینی مقدار پیوسته (مثلاً قیمت خانه)

      • دسته‌بندی: پیش‌بینی کلاس (مثلاً اسپم یا غیراسپم)

    • یادگیری بدون نظارت: (داده بدون برچسب)

      • خوشه‌بندی: گروه‌بندی داده‌های مشابه

      • کاهش ابعاد: ساده‌سازی داده‌ها

    • یادگیری تقویتی: یادگیری از طریق پاداش و تنبیه

7. ارزیابی مدل (Model Evaluation)

  • مدل ما چقدر خوب کار می‌کند؟

  • متریک‌های رایج:

    • دقت (Accuracy)

    • دقت طبقه‌بندی (Precision)

    • فراخوانی (Recall)

    • F1-Score

    • RMSE (برای رگرسیون)

8. استقرار (Deployment)

  • آوردن مدل به دنیای واقعی!

  • تبدیل مدل به API یا سرویس

  • مثال: یک API که قیمت خانه را پیش‌بینی می‌کند

9. نگهداری و نظارت (Maintenance & Monitoring)

  • علم داده هیچ‌وقت تمام نمی‌شود!

  • نظارت بر عملکرد مدل در دنیای واقعی

  • بازآموزی مدل با داده‌های جدید

الگوریتم‌های معروف

کلاسیک‌ها:

  1. رگرسیون خطی (Linear Regression) – پیش‌بینی قیمت

  2. لوجیستیک رگرسیون (Logistic Regression) – طبقه‌بندی باینری

  3. درخت تصمیم (Decision Tree) – قابل تفسیر

  4. تصادفی جنگل (Random Forest) – مجموعه‌ای از درختان

  5. XGBoost – قهرمان مسابقات!

هوش مصنوعی عمیق:

  1. شبکه‌های عصبی (Neural Networks)

  2. CNN – برای تصاویر

  3. RNN/LSTM – برای داده‌های دنباله‌ای (متن، سری زمانی)

  4. ترانسفورمرها – پایه GPT و مدل‌های زبانی

کاربردهای واقعی

در صنایع مختلف:

  • سلامت: تشخیص بیماری از روی تصاویر پزشکی

  • مالی: تشخیص تقلب در تراکنش‌ها

  • خرده‌فروشی: سیستم‌های توصیه‌گر (مثل Netflix)

  • تولید: پیش‌بینی خرابی دستگاه‌ها

  • کشاورزی: پیش‌بینی محصول بر اساس آب و هوا

مهارت‌های مورد نیاز

فنی:

  1. برنامه‌نویسی: پایتون (رایج‌ترین) یا R

  2. آمار و احتمال: پایه و اساس

  3. دیتابیس: SQL (حتماً!)

  4. ابزارهای مصورسازی: Tableau, Power BI

  5. پلتفرم‌های ابری: AWS, GCP, Azure

نرم:

  1. تفکر انتقادی

  2. داستان‌گویی با داده

  3. مهارت ارتباطی (توضیح پیچیدگی‌ها به ساده)

  4. کنجکاوی

چالش‌های علم داده

  1. کیفیت داده: “ورودی بی‌ارزش = خروجی بی‌ارزش”

  2. سوگیری در داده: مدل‌های biased نتایج biased می‌دهند

  3. قابل تفسیر بودن: مدل‌های پیچیده مثل جعبه سیاه

  4. حریم خصوصی: به خصوص در داده‌های حساس

  5. افزونگی: هیجان زودگذر حول “هوش مصنوعی”

آینده علم داده

روندهای جدید:

  1. هوش مصنوعی تولیدی (Generative AI): ChatGPT، تولید تصویر

  2. اتوماسیون: AutoML (یادگیری ماشین خودکار)

  3. علم داده مسئولانه: اخلاق، شفافیت، انصاف

  4. ادغام با IoT: داده‌های لحظه‌ای از سنسورها


چگونه شروع کنیم؟

مسیر یادگیری:

  1. پایه: آمار + پایتون

  2. کتابخانه‌ها: Pandas, NumPy, Matplotlib

  3. یادگیری ماشین: Scikit-learn

  4. یادگیری عمیق: TensorFlow/PyTorch

  5. پروژه‌های عملی: روی Kaggle شروع کن!

8. مفاهیم پیشرفته‌تر

الف) پردازش زبان طبیعی (NLP)

چگونه کامپیوترها زبان انسان را می‌فهمند؟

  1. پیش‌پردازش متن:

    • توکن‌سازی (Tokenization) – شکستن متن به کلمات

    • حذف ایست‌واژه‌ها (Stopword Removal) – حذف کلمات کم‌محتوا

    • ریشه‌یابی (Stemming/Lemmatization) – آوردن کلمات به ریشه

  2. نمایش متن:

    • Bag of Words (BoW) – ساده اما قدرتمند

    • TF-IDF – اهمیت کلمات در سند

    • Word Embeddings – کلمات به بردار (Word2Vec, GloVe)

    • ترانسفورمرها – انقلابی در NLP (BERT, GPT)

  3. کاربردها:

    • ترجمه ماشینی

    • چت‌بات‌های هوشمند

    • خلاصه‌سازی متن

    • تحلیل احساسات

ب) بینایی کامپیوتر (Computer Vision)

چگونه کامپیوترها تصاویر را می‌بینند؟

  1. مفاهیم کلیدی:

    • کانولوشن (Convolution) – استخراج ویژگی از تصویر

    • Pooling – کاهش ابعاد

    • CNN – شبکه عصبی کانولوشنی

  2. کاربردها:

    • تشخیص چهره

    • تشخیص اشیاء در خودروهای خودران

    • تحلیل تصاویر پزشکی

    • واقعیت افزوده

ج) یادگیری تقویتی (Reinforcement Learning)

یادگیری از طریق آزمون و خطا – مثل آموزش سگ!

  1. مفاهیم:

    • عامل (Agent)

    • محیط (Environment)

    • پاداش (Reward)

    • سیاست (Policy)

  2. کاربردهای جذاب:

    • AlphaGo (بازی Go)

    • آموزش ربات‌ها

    • بهینه‌سازی سیستم‌های توصیه‌گر

    • مدیریت انرژی


9. معماری‌های سیستم‌های علم داده در دنیای واقعی

معماری ساده:

text
داده‌های خام → پاک‌سازی → ویژگی‌سازی → مدل → API → کاربر

معماری پیشرفته (پایپلاین کامل):

text
1. جمع‌آوری داده (Kafka, Flume)
2. ذخیره‌سازی (HDFS, Data Lakes)
3. پردازش (Spark, Hadoop)
4. ذخیره‌سازی ویژگی‌ها (Feature Store)
5. آموزش مدل (MLflow, Kubeflow)
6. ثبت مدل (Model Registry)
7. استقرار (Docker, Kubernetes)
8. نظارت (Prometheus, Grafana)
9. بازخورد (Feedback Loop)

10. نقش‌های شغلی در اکوسیستم علم داده

1. دانشمند داده (Data Scientist):

  • تمرکز: ساخت مدل‌های پیچیده

  • مهارت‌ها: آمار پیشرفته، یادگیری ماشین

  • خروجی: مدل‌های پیش‌بینی

2. تحلیلگر داده (Data Analyst):

  • تمرکز: تحلیل گذشته و حال

  • مهارت‌ها: SQL، مصورسازی

  • خروجی: گزارش‌ها، داشبورد

3. مهندس داده (Data Engineer):

  • تمرکز: زیرساخت داده

  • مهارت‌ها: Big Data، ابر، پایپلاین

  • خروجی: پایپلاین‌های قابل اطمینان

4. مهندس یادگیری ماشین (ML Engineer):

  • تمرکز: استقرار و مقیاس مدل‌ها

  • مهارت‌ها: مهندسی نرم‌افزار، DevOps

  • خروجی: مدل‌های Production

5. تحلیلگر کسب‌وکار (Business Analyst):

  • تمرکز: نیازهای کسب‌وکار

  • مهارت‌ها: دامنه کسب‌وکار، ارتباطات

  • خروجی: مستندات نیازمندی


11. پروژه‌های انتهایی (Capstone Projects) – از ایده به محصول

ایده‌های عملی:

پروژه ۱: سیستم تشخیص بیماری از تصاویر پوست

text
مراحل:
1. جمع‌آوری داده‌های تصاویر پوست بیمار
2. برچسب‌گذاری توسط متخصص پوست
3. آموزش مدل CNN
4. ساخت اپلیکیشن موبایل
5. استقرار مدل روی ابر

پروژه ۲: پیش‌بینی قیمت سهام با LSTM + اخبار

text
مراحل:
1. جمع‌آوری داده‌های تاریخی قیمت
2. جمع‌آوری اخبار مرتبط (وب‌اسکرپینگ)
3. تحلیل احساسات اخبار (NLP)
4. ترکیب داده‌های عددی و متنی
5. ساخت مدل ترکیبی

پروژه ۳: سیستم توصیه‌گر هوشمند برای کتاب‌خانه

text
مراحل:
1. جمع‌آوری داده‌های کاربران (با حفظ حریم خصوصی)
2. پیاده‌سازی Collaborative Filtering
3. اضافه کردن Content-Based Filtering
4. ساخت API برای وب‌سایت
5. A/B تست برای ارزیابی

12. ملاحظات اخلاقی و اجتماعی

چالش‌های اخلاقی:

  1. سوگیری (Bias):

    • مدل‌هایی که علیه گروه‌های خاص تبعیض قائل می‌شوند

    • مثال: سیستم‌های استخدام هوشمند

  2. حریم خصوصی (Privacy):

    • GDPR در اروپا

    • دی‌شناسایی (De-identification) داده‌ها

    • یادگیری فدرال (Federated Learning)

  3. مسئولیت‌پذیری (Accountability):

    • اگر مدل اشتباه کند، مقصر کیست؟

    • نیاز به قابلیت تفسیر (Explainable AI)

  4. شفافیت (Transparency):

    • مدل‌های جعبه سیاه در مقابل جعبه سفید

    • LIME و SHAP برای تفسیر مدل‌ها


13. منابع یادگیری رایگان

پلتفرم‌های آموزشی:

  1. Coursera: تخصص‌های علم داده

  2. edX: دوره‌های MIT و Harvard

  3. Kaggle Learn: آموزش عملی و پروژه‌محور

  4. Fast.ai: یادگیری عمیق عملی

  5. YouTube: کانال‌های فارسی و انگلیسی

کتاب‌های ضروری:

  1. “Python for Data Analysis” – Wes McKinney (خالق Pandas)

  2. “Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow” – Aurélien Géron

  3. “The Elements of Statistical Learning” – کلاسیک آمار


14. بازار کار علم داده در ایران

وضعیت فعلی:

  • رشد سریع تقاضا

  • تمرکز روی: بانک‌داری، مخابرات، بازار سرمایه

  • چالش: کمبود متخصص ارشد

حقوق (تقریبی):

  • جونیور: ۸-۱۵ میلیون تومان

  • میدل: ۱۵-۲۵ میلیون تومان

  • سنیور: ۲۵+ میلیون تومان

مهارت‌های پرتقاضا:

  1. یادگیری عمیق (به خصوص برای بینایی کامپیوتر)

  2. پردازش زبان طبیعی فارسی

  3. مهندسی یادگیری ماشین (MLOps)

  4. کار با داده‌های بزرگ


۱۵. آینده علم داده – ۵ سال آینده

روندهای پیش‌رو:

  1. AutoML بیشتر: کاهش نیاز به کدنویسی دستی

  2. مدل‌های چندوجهی (Multimodal): ترکیب متن، تصویر، صدا

  3. علم داده کوچک (TinyML): مدل‌ها روی دستگاه‌های کوچک

  4. یادگیری خودنظارتی (Self-Supervised Learning): نیاز کمتر به داده برچسب‌دار

  5. شبکه‌های عصبی گرافی (GNN): برای داده‌های رابطه‌ای

توصیه‌های نهایی:

  1. عمیق شو: در یک حوزه تخصص پیدا کن (مثلاً NLP یا CV)

  2. مستندسازی کن: GitHub خودت را با پروژه‌ها پر کن

  3. مقاله بخوان: ArXiv، Medium، مقالات کنفرانس‌ها

  4. شبکه‌سازی کن: در LinkedIn فعال باش، در meetupها شرکت کن

  5. خلاق باش: فقط از آموزش‌ها کپی نکن، چیزی جدید خلق کن


سوال‌های متداول (FAQ)

Q: ریاضیات چقدر مهم است؟

A: بستگی دارد!

  • برای تحلیلگر: آمار توصیفی + احتمال پایه کافی است

  • برای دانشمند داده: جبر خطی + حسابان + احتمال پیشرفته ضروری است

Q: چه زمانی یادگیری عمیق لازم است؟

A: وقتی:

  1. داده‌های ساختارنایافته دارید (تصویر، متن، صوت)

  2. داده‌های بسیار زیادی دارید

  3. مسئله بسیار پیچیده است

Q: بهترین زبان چیست؟

A: پایتون برای ۹۵٪ موارد بهترین انتخاب است.

Q: چقدر زمان نیاز است؟

A: برای رسیدن به سطح اشتغال:

  • تمام‌وقت: ۶-۹ ماه

  • پاره‌وقت: ۱-۲ سال

علم داده: یک اقیانوس بی‌کران از داده تا خرد – ویرایش حجیم و جامع

فصل ۱: فلسفه علم داده – چرا وجود داریم؟

۱.۱ انقلاب داده‌ها: چهارمین پارادایم علم

علم طی چهار دوره تکامل یافته:

  1. تجربی: مشاهده و توصیف پدیده‌ها

  2. تئوریک: قوانین و مدل‌های ریاضی

  3. محاسباتی: شبیه‌سازی‌های کامپیوتری

  4. داده‌محور: استخراج دانش از داده‌های انبوه

علم داده درواقع پارادایم چهارم است – جایی که داده خود به منبع اصلی اکتشاف تبدیل می‌شود.

۱.۲ مثلث طلایی علم داده

text
     آمار
      /\
     /  \
    /____\
کدنویسی  دانش دامنه
  • آمار: فهم عدم قطعیت، استنباط

  • کدنویسی: اجرا در مقیاس بزرگ

  • دانش دامنه: پرسیدن سوال‌های درست

۱.۳ تفاوت با رشته‌های مشابه:

  • علم داده vs تحلیل داده: علم داده بیشتر پیش‌بینیکننده، تحلیل داده بیشتر توصیفی

  • علم داده vs یادگیری ماشین: علم داده چرخه کامل (از داده تا استقرار)، ML بیشتر روی الگوریتم‌ها

  • علم داده vs مهندسی داده: علم داده از داده ارزش می‌سازد، مهندسی داده زیرساخت می‌سازد


فصل ۲: آناتومی داده – شناخت ماده خام

۲.۱ انواع داده:

الف) از نظر ساختار:

  1. ساختاریافته (Structured):

    • جداول ردیف-ستون (SQL, CSV)

    • مثال: اطلاعات مشتریان، تراکنش‌ها

    • ۲۰٪ داده‌های دنیا

  2. نیمه‌ساختاریافته (Semi-structured):

    • JSON، XML، فایل‌های لاگ

    • ساختار انعطاف‌پذیر

    • مثال: داده‌های وب، API responses

  3. غیرساختاریافته (Unstructured):

    • متن، تصویر، ویدیو، صدا

    • ۸۰٪ داده‌های دنیا

    • مثال: ایمیل‌ها، تصاویر پزشکی

ب) از نظر ماهیت:

  1. عددی (Numerical):

    • گسسته (Discrete): تعداد فرزندان

    • پیوسته (Continuous): قد، وزن

  2. طبقه‌ای (Categorical):

    • اسمی (Nominal): جنسیت، رنگ

    • ترتیبی (Ordinal): سطح تحصیلات، رضایت

  3. زمانی (Temporal): تاریخ، زمان

  4. مکانی (Spatial): مختصات جغرافیایی

  5. متنی (Textual): نظرات، مقالات

۲.۲ کیفیت داده – ۷ گناه کبیره:

  1. مقادیر گمشده (Missing Values):

    • انواع: MCAR، MAR، MNAR

    • روش‌های درمان: حذف، پر کردن، پیش‌بینی

  2. داده‌های پرت (Outliers):

    • تشخیص: IQR، Z-score، Isolation Forest

    • برخورد: حذف، جایگزینی، نگهداری

  3. نویز (Noise):

    • خطاهای اندازه‌گیری

    • روش‌های کاهش: فیلترها، هموارسازی

  4. ناسازگاری (Inconsistency):

    • فرمت‌های مختلف تاریخ

    • واحدهای مختلف اندازه‌گیری

  5. تکرار (Duplication):

    • رکوردهای تکراری

    • تشخیص با Hashing

  6. تورش (Bias):

    • نمونه‌گیری نادرست

    • تاثیر بر مدل نهایی

  7. مقیاس ناسازگار (Scale Mismatch):

    • ویژگی‌ها در مقیاس‌های مختلف


فصل ۳: زرادخانه ریاضی – ابزارهای تحلیلی

۳.۱ آمار توصیفی (Descriptive Statistics):

معیارهای مرکزی:

  1. میانگین (Mean): حساس به outliers

    text
    μ = Σx_i / n
  2. میانه (Median): نقطه وسط – مقاوم به outliers

  3. مد (Mode): پرتکرارترین مقدار

معیارهای پراکندگی:

  1. دامنه (Range): Max – Min

  2. واریانس (Variance): متوسط مربع فاصله از میانگین

    text
    σ² = Σ(x_i - μ)² / n
  3. انحراف معیار (Standard Deviation): ریشه واریانس

  4. چارک‌ها (Quartiles): Q1 (25%)، Q2 (50% = میانه)، Q3 (75%)

  5. IQR: Q3 – Q1 (مقیاس پراکندگی)

شکل توزیع:

  1. چولگی (Skewness): عدم تقارن

    • مثبت: دم به سمت راست

    • منفی: دم به سمت چپ

  2. کشیدگی (Kurtosis): سنگینی دم‌ها

    • Leptokurtic: دم‌های سنگین

    • Platykurtic: دم‌های سبک

۳.۲ آمار استنباطی (Inferential Statistics):

توزیع‌های احتمال:

  1. نرمال (Gaussian):

    text
    f(x) = (1/σ√(2π)) * e^(-(x-μ)²/(2σ²))
    • قاعده 68-95-99.7

  2. دوجمله‌ای (Binomial): تعداد موفقیت در n آزمایش

  3. پواسون (Poisson): تعداد رویداد در بازه زمانی

  4. نمایی (Exponential): زمان بین رویدادها

آزمون فرضیه:

  1. فرض صفر (H0) و فرض جایگزین (H1)

  2. p-value: احتمال مشاهده داده‌ها اگر H0 درست باشد

  3. سطح معنی‌داری (α): معمولاً 0.05

  4. انواع خطا:

    • نوع اول: رد H0 وقتی درست است

    • نوع دوم: پذیرش H0 وقتی نادرست است

فاصله اطمینان:

text
CI = x̄ ± Z*(σ/√n)
  • 95% اطمینان که پارامتر واقعی در این بازه است

۳.۳ جبر خطی برای علم داده:

مفاهیم کلیدی:

  1. بردارها (Vectors): نقطه در فضای n بعدی

  2. ماتریس‌ها (Matrices): آرایش مستطیلی اعداد

  3. ضرب ماتریس: ترکیب تبدیل‌ها

  4. دترمینان (Determinant): عامل مقیاس تغییر حجم

  5. معکوس ماتریس: عمل معکوس

تجزیه ماتریس:

  1. SVD (Singular Value Decomposition):

    text
    A = U Σ V^T
    • کاهش ابعاد

    • سیستم‌های توصیه‌گر

  2. Eigen Decomposition:

    text
    A v = λ v
    • تحلیل مؤلفه‌های اصلی (PCA)

۳.۴ حسابان برای یادگیری ماشین:

مشتق‌گیری:

  1. مشتق جزئی: تغییر تابع نسبت به یک متغیر

  2. گرادیان (Gradient): بردار مشتقات جزئی

    text
    ∇f = [∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂x_n]
  3. نزول گرادیان (Gradient Descent):

    text
    θ_new = θ_old - η * ∇J(θ)
    • η: نرخ یادگیری

    • J: تابع هزینه

  4. هسین (Hessian): ماتریس مشتقات مرتبه دوم

    • تشخیص saddle points

انتگرال:

  • محاسبه مساحت زیر منحنی

  • در احتمالات: PDF به CDF


فصل ۴: پردازش و پالایش داده – از خام به پالوده

۴.۱ چرخه پردازش داده:

text
داده خام 
    ↓
استخراج (Extraction) 
    ↓
تبدیل (Transformation) 
    ↓
بارگذاری (Loading) 
    ↓
داده پاک‌شده

۴.۲ تکنیک‌های پیش‌پردازش:

الف) مدیریت مقادیر گمشده:

  1. حذف (Deletion):

    • حذف سطر (Listwise)

    • حذف جفت‌ها (Pairwise)

  2. پر کردن (Imputation):

    • میانگین/میانه/مد

    • K-Nearest Neighbors

    • مدل‌های پیش‌بینی

    • Multiple Imputation

  3. پرچم‌گذاری (Flagging): ایجاد متغیر نشانگر

ب) نرمال‌سازی (Normalization):

  1. Min-Max Scaling:

    text
    X_scaled = (X - X_min) / (X_max - X_min)
    • بازه [0, 1]

  2. Standardization (Z-score):

    text
    z = (X - μ) / σ
    • میانگین 0، انحراف معیار 1

  3. Robust Scaling: با میانه و IQR – مقاوم به outliers

ج) رمزگذاری متغیرهای کیفی:

  1. One-Hot Encoding: ایجاد ستون‌های باینری

  2. Label Encoding: تبدیل به اعداد

  3. Target Encoding: میانگین هدف برای هر دسته

  4. Embedding: یادگیری نمایش فشرده

۴.۳ کاهش ابعاد:

الف) انتخاب ویژگی (Feature Selection):

  1. فیلتر (Filter): بر اساس آمار

    • همبستگی (Correlation)

    • آزمون کای-دو (Chi-square)

    • آنالیز واریانس (ANOVA)

  2. پوشش (Wrapper): جستجوی زیرمجموعه‌ها

    • Forward Selection

    • Backward Elimination

    • Recursive Feature Elimination (RFE)

  3. جاسازی (Embedded): درون الگوریتم

    • Lasso Regression (L1)

    • Random Forest Importance

ب) استخراج ویژگی (Feature Extraction):

  1. PCA (Principal Component Analysis):

    • یافتن جهت‌های با بیشترین واریانس

    • Eigenvectors از ماتریس کوواریانس

  2. t-SNE (t-Distributed Stochastic Neighbor Embedding):

    • مصورسازی داده‌های چندبعدی

    • حفظ ساختار محلی

  3. Autoencoders: شبکه‌های عصبی برای فشرده‌سازی

۴.۴ مهندسی ویژگی – هنر خلاقیت:

روش‌های ایجاد ویژگی جدید:

  1. ترکیب ویژگی‌ها:

    • جمع، تفاضل، ضرب، تقسیم

    • میانگین متحرک (Moving Average)

  2. استخراج از تاریخ/زمان:

    • ساعت روز، روز هفته، فصل

    • تعطیلات، رویدادهای خاص

  3. گروه‌بندی و تجمیع:

    • میانگین خریدهای قبلی کاربر

    • تعداد تراکنش‌های ۷ روز اخیر

  4. تعامل (Interaction):

    • ضرب متغیرها

    • ترکیب چندجمله‌ای

  5. تبدیل‌های غیرخطی:

    • لگاریتم، جذر، مربع

    • Box-Cox Transformation


فصل ۵: الگوریتم‌های یادگیری ماشین – قلب تپنده

۵.۱ طبقه‌بندی الگوریتم‌ها:

text
یادگیری ماشین
├── نظارت‌شده (Supervised)
│   ├── رگرسیون (Regression)
│   │   ├── خطی (Linear)
│   │   ├── چندجمله‌ای (Polynomial)
│   │   ├── ریدج (Ridge)
│   │   ├── لاسو (Lasso)
│   │   ├── الاستیک‌نت (ElasticNet)
│   │   ├── درخت تصمیم (Decision Tree)
│   │   ├── جنگل تصادفی (Random Forest)
│   │   ├── XGBoost
│   │   ├── LightGBM
│   │   └── SVR
│   │
│   └── طبقه‌بندی (Classification)
│       ├── لجستیک (Logistic)
│       ├── SVM
│       ├── بیز ساده (Naive Bayes)
│       ├── KNN
│       ├── درخت تصمیم
│       ├── جنگل تصادفی
│       ├── گرادیان بوستینگ
│       └── شبکه عصبی
│
├── بدون نظارت (Unsupervised)
│   ├── خوشه‌بندی (Clustering)
│   │   ├── K-Means
│   │   ├── DBSCAN
│   │   ├── سلسله مراتبی (Hierarchical)
│   │   ├── گوسی‌ها (GMM)
│   │   └── طیفی (Spectral)
│   │
│   └── کاهش ابعاد (Dimensionality Reduction)
│       ├── PCA
│       ├── t-SNE
│       ├── UMAP
│       └── Autoencoder
│
├── نیمه‌نظارتی (Semi-supervised)
│
├── یادگیری تقویتی (Reinforcement)
│   ├── Q-Learning
│   ├── SARSA
│   ├── DQN
│   └── Policy Gradient
│
└── انتقالی (Transfer)
    └── Fine-tuning

۵.۲ الگوریتم‌های کلاسیک با جزئیات:

۱. رگرسیون خطی (Linear Regression):

text
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε

فرضیات:

  1. خطی بودن رابطه

  2. استقلال خطاها

  3. نرمال بودن خطاها

  4. همسانی واریانس خطاها

  5. عدم همخطی (Multicollinearity)

برآورد پارامترها:

  • روش حداقل مربعات (OLS):

    text
    β = (XᵀX)⁻¹ Xᵀy

۲. رگرسیون لجستیک (Logistic Regression):

text
P(y=1|x) = 1 / (1 + e^-(β₀ + β₁x))

تابع سیگموئید:

text
σ(z) = 1 / (1 + e^-z)

تابع هزینه (Cross-Entropy):

text
J(θ) = -1/m Σ [y⁽ⁱ⁾ log(h(x⁽ⁱ⁾)) + (1-y⁽ⁱ⁾) log(1-h(x⁽ⁱ⁾))]

۳. درخت تصمیم (Decision Tree):

الگوریتم CART (Classification and Regression Trees):

text
1. شروع از ریشه با همه داده‌ها
2. برای هر ویژگی:
   - محاسبه impurity (Gini/Entropy/MSE)
   - یافتن بهترین split
3. انتخاب split با بیشترین کاهش impurity
4. تکرار برای زیرمجموعه‌ها
5. توقف وقتی:
   - عمق حداکثر رسید
   - نمونه‌های کمی باقی ماند
   - کاهش impurity ناچیز بود

معیارهای ناخالصی:

  • جینی (Gini): احتمال طبقه‌بندی نادرست

    text
    Gini = 1 - Σ(p_i²)
  • آنتروپی (Entropy): میزان بی‌نظمی

    text
    Entropy = -Σ(p_i log₂(p_i))
  • MSE (برای رگرسیون): میانگین مربع خطا

۴. جنگل تصادفی (Random Forest):

الگوریتم:

text
1. ساخت B بوت‌استرپ نمونه
2. برای هر نمونه:
   - ساخت درخت تصمیم کامل
   - در هر split، انتخاب تصادفی k ویژگی
3. ترکیب نتایج:
   - طبقه‌بندی: رأی اکثریت
   - رگرسیون: میانگین

ویژگی‌ها:

  • کاهش overfitting نسبت به درخت تکی

  • قابلیت تخمین اهمیت ویژگی‌ها

  • مقاومت به outliers

۵. XGBoost (Extreme Gradient Boosting):

تقویت گرادیان (Gradient Boosting):

text
1. شروع با مدل اولیه (مثلاً میانگین)
2. برای m=1 تا M:
   - محاسبه residual (gradient)
   - آموزش مدل روی residual
   - به روز رسانی مدل

مزایای XGBoost:

  • Regularization (L1/L2)

  • Handles missing values

  • Parallel processing

  • Tree pruning

  • Built-in cross-validation

۶. SVM (Support Vector Machine):

ایده اصلی: یافتن hyperplane با حداکثر حاشیه

مسئله بهینه‌سازی:

text
min ½||w||²
s.t. y_i(w·x_i + b) ≥ 1

Kernel Trick: نگاشت به فضای با ابعاد بیشتر

  • خطی: K(x_i, x_j) = x_i·x_j

  • چندجمله‌ای: K(x_i, x_j) = (γ x_i·x_j + r)^d

  • RBF: K(x_i, x_j) = exp(-γ ||x_i – x_j||²)

۷. K-Means Clustering:

الگوریتم:

text
1. انتخاب تصادفی k مرکز خوشه
2. تکرار تا همگرایی:
   - انتساب: هر نقطه به نزدیک‌ترین مرکز
   - به‌روزرسانی: محاسبه مراکز جدید

انتخاب k:

  • روش Elbow: رسم SSE بر حسب k

  • Silhouette Score

  • Gap Statistic

۸. شبکه عصبی مصنوعی (ANN):

یک نورون (Perceptron):

text
z = w·x + b
a = σ(z)

لایه‌ها:

  • ورودی (Input)

  • پنهان (Hidden) – حداقل یک لایه

  • خروجی (Output)

تابع فعال‌سازی:

  • Sigmoid: σ(z) = 1/(1+e^-z)

  • Tanh: tanh(z)

  • ReLU: max(0, z)

  • Leaky ReLU: max(αz, z)

  • Softmax (برای چندکلاسه)

الگوریتم پس‌انتشار (Backpropagation):

text
1. انتشار رو به جلو (Forward pass)
2. محاسبه خطا
3. انتشار رو به عقب (Backward pass)
4. به روزرسانی وزن‌ها (Gradient Descent)

فصل ۶: یادگیری عمیق – مغز دیجیتال

۶.۱ معماری‌های شبکه عصبی:

الف) CNN (شبکه عصبی کانولوشنی):

اجزاء:

  1. لایه کانولوشن:

    text
    Feature_map = Convolution(Input, Kernel) + Bias
    • Kernel: فیلتر یادگیری

    • Stride: گام حرکت

    • Padding: پر کردن لبه‌ها

  2. لایه Pooling: کاهش ابعاد

    • Max Pooling: گرفتن حداکثر

    • Average Pooling: میانگین

  3. لایه Fully Connected: طبقه‌بندی نهایی

معماری‌های معروف:

  • LeNet-5 (اولین معماری)

  • AlexNet (برنده ImageNet 2012)

  • VGGNet (عمق بیشتر)

  • ResNet (Skip connections)

  • Inception (فیلترهای موازی)

ب) RNN/LSTM (شبکه عصبی بازگشتی):

مشکل RNN: Vanishing Gradient

LSTM (Long Short-Term Memory):

text
1. دروازه فراموشی (Forget Gate): f_t = σ(W_f·[h_{t-1}, x_t] + b_f)
2. دروازه ورودی (Input Gate): i_t = σ(W_i·[h_{t-1}, x_t] + b_i)
3. سلول کاندید: C̃_t = tanh(W_C·[h_{t-1}, x_t] + b_C)
4. به‌روزرسانی سلول: C_t = f_t * C_{t-1} + i_t * C̃_t
5. دروازه خروجی (Output Gate): o_t = σ(W_o·[h_{t-1}, x_t] + b_o)
6. خروجی: h_t = o_t * tanh(C_t)

GRU (Gated Recurrent Unit): نسخه ساده‌تر LSTM

ج) ترانسفورمر (Transformer):

انقلابی در NLP!

اجزاء:

  1. Embedding: تبدیل کلمات به بردار

  2. Positional Encoding: اطلاعات موقعیت

  3. Attention Mechanism:

    text
    Attention(Q, K, V) = softmax(QKᵀ/√d_k)V
    • Self-Attention: توجه کلمات به یکدیگر

    • Multi-Head Attention: چندین projection موازی

  4. Feed Forward Network: پردازش مستقل

معماری‌های معروف:

  • Encoder-Only: BERT (برای understanding)

  • Decoder-Only: GPT (برای generation)

  • Encoder-Decoder: T5, BART

۶.۲ یادگیری انتقالی (Transfer Learning):

استراتژی‌ها:

  1. استخراج ویژگی (Feature Extraction): ثابت نگه داشتن وزن‌های پایه

  2. ریزتنظیمی (Fine-tuning): آموزش مجدد وزن‌ها

  3. یادگیری چندوظیفه‌ای (Multi-task): آموزش همزمان چند وظیفه

مدل‌های ازپیش‌آموزش‌دیده:

  • تصویر: ResNet, EfficientNet, ViT

  • متن: BERT, GPT, T5

  • چندوجهی: CLIP, DALL-E


فصل ۷: ارزیابی و بهینه‌سازی – علم سنجش موفقیت

۷.۱ ارزیابی مدل‌های طبقه‌بندی:

ماتریس درهم‌ریختگی (Confusion Matrix):

text
                پیش‌بینی شده
                مثبت   منفی
واقعی  مثبت     TP      FN
       منفی     FP      TN

متریک‌های اصلی:

  1. دقت (Accuracy):

    text
    (TP + TN) / کل
    • مشکل: عدم تعادل کلاس

  2. دقت طبقه‌بندی (Precision):

    text
    TP / (TP + FP)
    • “وقتی مثبت می‌گوییم، چقدر مطمئنیم؟”

  3. فراخوانی (Recall/Sensitivity):

    text
    TP / (TP + FN)
    • “چقدر از مثبت‌های واقعی را پیدا کردیم؟”

  4. F1-Score: میانگین هم‌ساز

    text
    2 * (Precision * Recall) / (Precision + Recall)
  5. Specificity:

    text
    TN / (TN + FP)
  6. ROC Curve: رسم TPR بر حسب FPR

  7. AUC: مساحت زیر منحنی ROC

  8. PR Curve: برای داده‌های نامتعادل

۷.۲ ارزیابی مدل‌های رگرسیون:

متریک‌ها:

  1. MSE (Mean Squared Error):

    text
    MSE = (1/n) Σ(y_i - ŷ_i)²
  2. RMSE (Root MSE): ریشه MSE – مقیاس اصلی

  3. MAE (Mean Absolute Error):

    text
    MAE = (1/n) Σ|y_i - ŷ_i|
  4. R² Score: درصد واریانس تبیین‌شده

    text
    R² = 1 - (SS_res / SS_tot)
  5. Adjusted R²: تعدیل بر اساس تعداد ویژگی‌ها

۷.۳ اعتبارسنجی متقاطع (Cross-Validation):

روش‌ها:

  1. Hold-out: تقسیم به train/test

  2. K-Fold: تقسیم به k بخش

  3. Stratified K-Fold: حفظ توزیع کلاس

  4. Leave-One-Out (LOOCV): هر نمونه یک بار test

  5. Time Series Split: برای داده‌های زمانی

Bias-Variance Tradeoff:

  • Underfitting: بایاس بالا، واریانس پایین

  • Overfitting: بایاس پایین، واریانس بالا

  • هدف: تعادل (Sweet spot)

۷.۴ بهینه‌سازی هایپرپارامترها:

روش‌های جستجو:

  1. جستجوی شبکه‌ای (Grid Search): امتحان همه ترکیب‌ها

  2. جستجوی تصادفی (Random Search): نمونه‌گیری تصادفی

  3. بهینه‌سازی بیزی (Bayesian): استفاده از اطلاعات قبلی

  4. الگوریتم ژنتیک (Genetic): شبیه‌سازی فرگشت

  5. Hyperband: تخصیص منابع هوشمند

هایپرپارامترهای مهم:

برای XGBoost:

  • learning_rate (η): 0.01-0.3

  • max_depth: 3-10

  • n_estimators: 100-1000

  • subsample: 0.5-1

  • colsample_bytree: 0.5-1

برای شبکه عصبی:

  • learning_rate

  • batch_size

  • epochs

  • optimizer (Adam, SGD)

  • dropout_rate


فصل ۸: استقرار و نگهداری – حیات مدل در تولید

۸.۱ چرخه حیات مدل ML (MLOps):

text
[توسعه] → [آزمایش] → [استقرار] → [نظارت] → [بازخورد]
      ↑                                         ↓
      └─────────────────────────────────────────┘

۸.۲ الگوهای استقرار:

الف) استقرار دسته‌ای (Batch):

  • پردازش دوره‌ای

  • مثال: پیش‌بینی شبانه فروش

ب) استقرار بلادرنگ (Real-time):

  • API-based

  • مثال: تشخیص تقلب لحظه‌ای

ج) استقرار جریانی (Streaming):

  • پردازش پیوسته

  • مثال: تحلیل احساسات توییتر

۸.۳ معماری استقرار:

الگوی پایه:

text
Client → API Gateway → ML Model → Database → Client

الگوی پیشرفته:

text
[Client] → [Load Balancer] → [API Server] → [Model Server] 
       → [Feature Store] → [Database] → [Monitoring]

۸.۴ چالش‌های استقرار:

۱. افت مفهوم (Concept Drift):

  • تغییر توزیع داده‌ها در زمان

  • تشخیص: نظارت بر دقت، KL divergence

  • مقابله: بازآموزی دوره‌ای

۲. افت داده (Data Drift):

  • تغییر در ویژگی‌های ورودی

  • تشخیص: KS test، تحلیل توزیع

۳. مقیاس‌پذیری (Scalability):

  • Horizontal scaling

  • Containerization (Docker)

  • Orchestration (Kubernetes)

۴. وابستگی‌ها (Dependencies):

  • محیط یکسان (Conda, virtualenv)

  • Containerization

۸.۵ نظارت و نگهداری:

نظارت چه چیزی:

  1. عملکرد مدل:

    • دقت، Precision، Recall

    • Latency، Throughput

  2. داده‌ها:

    • توزیع ویژگی‌ها

    • مقادیر گمشده

    • outliers

  3. سخت‌افزار:

    • استفاده از CPU/GPU

    • حافظه

    • شبکه

  4. هزینه‌ها:

    • هزینه API calls

    • هزینه ذخیره‌سازی

ابزارهای نظارت:

  • Prometheus + Grafana: نظارت و داشبورد

  • ELK Stack: لاگ‌ها

  • MLflow: مدیریت آزمایش‌ها

  • Weights & Biases: ردیابی آزمایش‌ها


فصل ۹: ابزارها و تکنولوژی‌ها – جعبه ابزار دانشمند داده

۹.۱ زبان‌های برنامه‌نویسی:

پایتون (سلطان علم داده):

کتابخانه‌های اصلی:

  1. پردازش داده:

    • Pandas: DataFrame manipulation

    • NumPy: محاسبات عددی

    • Polars: جایگزین سریع Pandas

  2. مصورسازی:

    • Matplotlib: پایه‌ای و قابل تنظیم

    • Seaborn: آماده برای آمار

    • Plotly: تعاملی

    • Altair: اعلانی

  3. یادگیری ماشین:

    • Scikit-learn: الگوریتم‌های کلاسیک

    • XGBoost/LightGBM/CatBoost: boosting

    • Imbalanced-learn: داده‌های نامتعادل

  4. یادگیری عمیق:

    • TensorFlow/Keras: گوگل

    • PyTorch: متا – محبوب در پژوهش

    • JAX: ترکیب NumPy و autodiff

  5. NLP:

    • NLTK: ابزارهای پایه

    • spaCy: صنعتی و سریع

    • Transformers (Hugging Face): مدل‌های پیشرفته

  6. تصویر:

    • OpenCV: بینایی کامپیوتر

    • Pillow: پردازش تصویر

  7. استقرار:

    • FastAPI/Flask: API

    • Streamlit/Dash: داشبورد

    • MLflow: مدیریت مدل

R (برای آماردانان):

  • مزیت: تحلیل‌های آماری عمیق

  • معایت: سرعت پایین‌تر، استقضع سخت‌تر

۹.۲ محیط‌های توسعه:

نوت‌بوک‌ها (Notebooks):

  1. Jupyter Notebook: کلاسیک

  2. JupyterLab: نسل بعدی

  3. Google Colab: ابری + GPU رایگان

  4. Kaggle Notebooks: با داده‌های مسابقه

IDEها:

  1. VS Code: سبک + افزونه‌های عالی

  2. PyCharm: کامل اما سنگین

  3. RStudio: برای R

۹.۳ پایگاه داده‌ها:

SQL:

  • PostgreSQL، MySQL، SQLite

  • ضروری برای هر دانشمند داده!

NoSQL:

  • MongoDB (سندمحور)

  • Cassandra (ستون‌محور)

  • Redis (کلید-مقدار)

انبار داده (Data Warehouse):

  • Snowflake

  • BigQuery

  • Redshift

  • ClickHouse

دریاچه داده (Data Lake):

  • AWS S3

  • Azure Data Lake

  • Hadoop HDFS

۹.۴ پردازش توزیع‌شده:

Apache Spark:

  • RDD (Resilient Distributed Dataset): ساختار پایه

  • DataFrame: شبیه Pandas اما توزیع‌شده

  • MLlib: کتابخانه ML

  • Spark Streaming: پردازش جریانی

Dask: Spark جایگزین در پایتون

Ray: برای یادگیری تقویتی و آموزش توزیع‌شده

۹.۵ پلتفرم‌های ابری:

AWS:

  • S3 (ذخیره‌سازی)

  • SageMaker (ML platform)

  • Redshift (انبار داده)

  • EMR (Spark cluster)

Google Cloud:

  • BigQuery (انبار داده)

  • Vertex AI (ML platform)

  • Colab (notebooks)

Azure:

  • Azure ML

  • Databricks (Spark)

  • Synapse Analytics


فصل ۱۰: کاربردهای صنعتی – علم داده در عمل

۱۰.۱ مالی و بانکداری:

کاربردها:

  1. تشخیص تقلب (Fraud Detection):

    • الگوریتم‌ها: Isolation Forest, Autoencoder

    • چالش: داده‌های بسیار نامتعادل

  2. امتیازدهی اعتباری (Credit Scoring):

    • XGBoost، Logistic Regression

    • ضرورت تفسیرپذیری

  3. معامله‌گری الگوریتمی:

    • LSTM برای پیش‌بینی قیمت

    • Reinforcement Learning برای استراتژی

  4. مدیریت ریسک:

    • Monte Carlo simulation

    • Value at Risk (VaR)

 

پست های مرتبط