دیتاست (dataset) و مجموعه داده های رایگان و استاندارد | کلان داده چیست؟

محمد دهقانی

در قسمت قبل انواع یادگیری ماشین شامل یادگیری بانظارت، یادگیری بدون نظارت و یادگیری تقویتی را تعریف کردیم. اما قبل از ورود به جزییات الگوریتم های آن ها، لازم است دیتاست یادگیری ماشین بررسی کنیم. چرا که بدون داده و دیتاست پروژه یادگیری ماشینی وجود ندارد. همچنین باید بدانیم بیگ دیتا چیست و چه ویژگی هایی دارد.

. . . .

مجموعه داده یا دیتاست (Dataset) چیست و چه انواعی دارد؟

داده‌ها متغیرهای ورودی موردنیاز برای انجام پیش‌بینی‌ها را تشکیل می‌دهند و در شکل‌های مختلفی وجود دارند، از جمله داده‌های با ساختار (Structured) و بدون ساختار (Non-structured).

اگر هنوز در ابتدای مسیر هستید، پیشنهاد می‌شود ابتدا از داده‌های با ساختار جدولی شروع کنید. داده‌های با ساختار، دارای شِما (Schema) و برچسب هستند که نمونه‌ای از آن در جدول زیر قابل‌مشاهده است:

دیتاست یادگیری ماشین شامل داده های برچسب دار — داده‌های با ساختار

مجموعه داده یا دیتاست در یادگیری ماشین چیست؟

یک مجموعه‌‌داده‌ جدولی (مبتنی بر جدول، Tabular dataset) شامل داده‌های منظم شده در سطرها و ستون‌ها می‌شود. هر ستون نماینده یک ویژگی (Feature) است. یک ویژگی همین‌طور به‌عنوان یک متغیر (Variable)، یک بُعد (Dimension) یا یک صفت (Attribute) شناخته می‌شود – البته همه این‌ها یک معنی می‌دهند.

هر ردیف در جدول یک مشاهده (Observation) از یک ویژگی/متغیر را نشان می‌دهد. ردیف‌ها گاهی نمونه (Case) یا مقدار (Value) نیز عنوان می‌شوند ولی در اینجا، ما از اصلاح ردیف (Row) استفاده می‌کنیم.

ساختار مجموعه‌‌داده جدولی در دیتاست یادگیری ماشین — ساختار مجموعه‌‌داده جدولی

در شکل بالا مثالی از مجموعه‌ داده جدولی را مشاهده می‌کنید. هر ستون به‌عنوان یک بردار (Vector) شناخته می‌شود. بردارها مقادیر X و y را ذخیره می‌کنند و چند بردار، باهم (ستون‌ها) ماتریس نامیده می‌شوند.

در حالت یادگیری با نظارت، مقادیر y از قبل در مجموعه‌داده وجود دارد و از آن برای شناسایی الگوها در ارتباط با متغیرهای مستقل (X) استفاده می‌شود. همان‌طور که در شکل زیر دیده می‌شود، مقادیر y معمولاً در ستون آخر قرار می‌گیرند.

مجموعه داده یادگیری با نظارت در دیتاست یادگیری ماشین — ساختار مجموعه داده یادگیری با نظارت

دانلود دیتاست رایگان

تلگرام پرشین دیتا

در کانال تلگرام پرشین دیتا (persian data)، تعداد زیادی دیتاست رایگان جمع‌آوری شده است، آن ها را دانلود کنید تا با ساختار مجموعه‌‌داده‌های واقعی آشنا شوید.

سایت کگل

صدها مجموعه‌داده متنوع با فرمت CSV در سایت kaggle موجود است. برای استفاده و دانلود مجموعه‌داده‌ها، حتماً باید در سایت ثبت‌نام کنید. البته مجموعه‌داده‌های kaggle رایگان بوده و برای ثبت‌نام نیازی به پرداخت هزینه نیست.

مجموعه‌داده به‌صورت یک فایل CSV بر روی کامپیوتر شما دانلود خواهد شد. پس می‌توانید با استفاده از اکسل فایل را باز کنید و الگوریتم های مورد نظر را بر روی مجموعه‌داده خود اجرا کنید.

دوره آموزشی: برای یادگیری کار با دیتاست‌ها در پروژه‌های واقعی یادگیری ماشین و ساخت مدل‌های مختلف، آموزش رایگان یادگیری ماشین را در کانال یوتیوب دیتاهاب ببینید.

بیگ دیتا یا کلان داده (Big Data) چیست؟

یکی از بزرگ‌ترین تفاوت‌ها میان یک یادگیرنده مبتدی و پیشرفته، ابعاد داده‌ای است که آن‌ها مدیریت کرده و روی آن کار می‌کنند. مبتدی‌ها معمولاً کار خود را با مجموعه‌‌داده‌های کوچک که مدیریت آن‌ها ساده و دانلود آن‌ها به‌سادگی و مستقیماً از طریق یک سیستم کامپیوتری به شکل فایل ساده CSV است، شروع می‌کنند. ولی یادگیرنده‌های پیشرفته، علاقه بیشتری برای کار با مجموعه‌‌داده‌های بزرگ و بیگ دیتا و کلان‌داده‌ها (Big Data) دارند. اینکه بدانیم بیگ دیتا چیست و چه ویژگی‌هایی دارد به ما کمک می کند تا تصویر دقیق‌تری از پروژه خود داشته و تصمیمات بهتری بگیریم.

بیگ دیتا یا کلان‌داده برای توصیف مجموعه‌داده‌ای به کار می‌رود که به علت ویژگی‌هایی مثل ارزش (Value)، تنوع (Variety)، حجم (Volume) و سرعت (Velocity)، روش‌های معمول پردازش از پس آن برنمی‌آیند و پردازش آن بدون استفاده از یک ماشین پیشرفته غیرممکن است.

برای کلان‌داده از نظر اندازه یا تعداد کل سطرها و ستون‌ها تعریف دقیقی وجود ندارد. در حال حاضر، مجموعه‌‌داده‌های در اندازه پتابایت (Petabyte) را به‌عنوان کلان‌داده می‌شناسیم، ولی مجموعه‌‌داده‌ها به‌سرعت بزرگ‌تر می‌شوند. سرعت ارائه راه‌های جدید برای جمع‌آوری و ذخیره بهینه داده‌ها با هزینه کم، نسبت به‌سرعت افزایش حجم داده، کمتر است. کلان‌داده‌ها همچنین، نویز (Noise) بیشتر و ساختار داده‌های (Data structure) پیچیده‌تری دارند. در نتیجه، بخش بزرگی از کار با کلان‌داده‌ها شامل پاک‌سازی (Scrubbing) است: پاک‌سازی مجموعه‌‌داده‌ قبل از ساختن مدل که در بخش‌های آینده توضیح داده می‌شود.

ویژگی های بیگ دیتا چیست — ویژگی های بیگ دیتا

دوره آموزشی: هنوز انجام پروژه یادگیری ماشین شروع نکردید، چون برنامه‌نویسی بلد نیستید؟ اصلا نگران نباشید. دوره آموزش پایتون ویژه هوش مصنوعی را در کانال یوتیوب دیتاهاب ببینید.

بصری سازی دیتا یا Data Visualization چیست؟

هرچه قدر هم که نتایج کار با داده و تحلیل‌ها، تأثیرگذار و مفید باشند، باز نیاز است تا به شکلی مؤثر نتایج به‌دست‌آمده را به تصمیم‌گیرنده‌های مرتبط، منتقل کنید. این همان جایی است که بصری‌سازی (Visualization) داده‌ها، به‌عنوان روشی مؤثر برای انتقال‌ یافته‌ها به یک مخاطب عمومی، مطرح می‌شود. پیام‌ها و اطلاعات موجود در گراف‌ها، نمودارهای پراکندگی، نمودار جعبه‌ای (Box plot) و نمایش اعداد در قالب شکل‌ها، یک راه سریع و ساده برای شرح داستان (مسئله) و خروجی‌ها است.

به‌عنوان یک نکته کلی، هرچقدر مخاطب شما نسبت به مسئله، آگاهی کمتری داشته باشد، بصری‌سازی مهم‌تر می‌شود. ولی اگر مخاطب نسبت به موضوع مطلع‌تر باشد، می‌توان جزئیات اضافه‌تر و اصطلاحات فنی را به‌عنوان نکات تکمیلی در کنار نمودارها و جداول استفاده کرد. برای بصری‌سازی نتایج می‌توان از ابزار Tableau یا کتابخانه پایتونی Seaborn استفاده کرد.

روش های بصری‌ سازی داده در یادگیری ماشین — انواع نمودارهای بصری سازی

نمودارهای پراکندگی (Scatterplot)

از روش های ساده بصری سازی داده نمودارهای پراکندگی (Scatterplot) هستند که انواع مختلفی دارد، از جمله نمودارهای دوبُعدی، سه‌بعدی و چهاربُعدی. در زیر با نمودار پراکندگی دوبعدی و ویژگی های آن آشنا می شوید.

نمودار پراکندگی دوبُعدی

یک نمودار پراکندگی دوبُعدی (2D scatterplot) شامل یک محور عمودی (محور y) و یک محور افقی (محور x) است. این نمودار یک فضای گرافیکی برای رسم مجموعه‌ای از نقاط (داده ها) ایجاد می‌کند. هر نقطه داده در نمودار پراکندگی، یک مشاهده از مجموعه‌داده را نمایش می‌دهد که مقادیر X روی محور x و مقادیر y روی محور y رسم شده‌اند.

شکل زیر مثالی از یک نمودار پراکندگی دوبعدی را نشان می‌دهد. X تعداد روزهای گذشته از زمان ثبت قیمت بیت‌کوین و y قیمت ثبت شده بیت‌کوین را نشان می‌دهد.

ساختار مجموعه داده برای رسم نمودار پراکندگی

نمودار پراکندگی برای بصری سازی داده یادگیری ماشین — نمودار پراکندگی

. . . .

و در انتها…

داده ها از مهمترین اجزا یک پروژه یادگیری ماشین هستند و با استفاده از آن ها مدل ها ساخته می شوند. بنابراین لازم بود آن ها را شناخته و با ویژگی هایشان آشنا شویم. همچنین یکی از کارهای مهم در پروژه های یادگیری ماشین، نمایش داده ها و نتایج است که نمودارهای مختلفی معرفی شدند.

در بخش بعدی، درباره پیش پردازش داده ها صحبت می‌کنیم. پاک‌سازی، فرایندی است که طی آن مجموعه‌داده‌ را بهبود داده تا بتوان از آن استفاده کرد که روش‌های مختلف آن در بخش آینده بررسی می‌شوند.

دوره آموزشی: سایت ها داده های زیادی دارند که می توان با وب اسکرپینگ آن ها را استخراج کرده و دیتاست یادگیری ماشین خود را بسازید. دوره آموزش پروژه محور وب اسکرپینگ را در کانال یوتیوب دیتاهاب ببینید.

مطالب بیشتر

انواع روش های خوشه بندی در یادگیری ماشین

آشنایی با خوشه بندی (Clustering) و انواع آن

در مقالات اخیر، بررسی الگوریتم‌های مختلف یادگیری ماشین را شروع کردیم. گفتیم که رگرسیون چیست

محمد دهقانی

TF-IDF چیست

TF-IDF چیست؟ | همه چیز درباره TF-IDF و کاربردهای آن

فهرست مطالب پیاده‌سازی تکنیک بردارسازی TF-IDF همان‌طور که پیش‌ازاین گفتیم برای ساختن ماتریس document-term کتابخانه

محمد دهقانی

2 دیدگاه

به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.

مهدی گفت:

23 فوریه 2023 در 12:27 ق.ظ

سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره

kaggle link:
https://www.kaggle.com/datasets/mehdisahraei/persian-alpha?resource=download

دوست داشتید رای بدید

برای پاسخ دادن وارد شوید
- محمد دهقانی گفت:
  
  27 مارس 2023 در 7:04 ب.ظ
  
  دم شما گرم
  
  برای پاسخ دادن وارد شوید

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.