در قسمت قبل انواع یادگیری ماشین شامل یادگیری بانظارت، یادگیری بدون نظارت و یادگیری تقویتی را تعریف کردیم. اما قبل از ورود به جزییات الگوریتم های آن ها، لازم است دیتاست یادگیری ماشین بررسی کنیم. چرا که بدون داده و دیتاست پروژه یادگیری ماشینی وجود ندارد. همچنین باید بدانیم بیگ دیتا چیست و چه ویژگی هایی دارد.
. . . .
مجموعه داده یا دیتاست (Dataset) چیست و چه انواعی دارد؟
دادهها متغیرهای ورودی موردنیاز برای انجام پیشبینیها را تشکیل میدهند و در شکلهای مختلفی وجود دارند، از جمله دادههای با ساختار (Structured) و بدون ساختار (Non-structured).
اگر هنوز در ابتدای مسیر هستید، پیشنهاد میشود ابتدا از دادههای با ساختار جدولی شروع کنید. دادههای با ساختار، دارای شِما (Schema) و برچسب هستند که نمونهای از آن در جدول زیر قابلمشاهده است:
مجموعه داده یا دیتاست در یادگیری ماشین چیست؟
یک مجموعهداده جدولی (مبتنی بر جدول، Tabular dataset) شامل دادههای منظم شده در سطرها و ستونها میشود. هر ستون نماینده یک ویژگی (Feature) است. یک ویژگی همینطور بهعنوان یک متغیر (Variable)، یک بُعد (Dimension) یا یک صفت (Attribute) شناخته میشود – البته همه اینها یک معنی میدهند.
هر ردیف در جدول یک مشاهده (Observation) از یک ویژگی/متغیر را نشان میدهد. ردیفها گاهی نمونه (Case) یا مقدار (Value) نیز عنوان میشوند ولی در اینجا، ما از اصلاح ردیف (Row) استفاده میکنیم.
در شکل بالا مثالی از مجموعه داده جدولی را مشاهده میکنید. هر ستون بهعنوان یک بردار (Vector) شناخته میشود. بردارها مقادیر X و y را ذخیره میکنند و چند بردار، باهم (ستونها) ماتریس نامیده میشوند.
در حالت یادگیری با نظارت، مقادیر y از قبل در مجموعهداده وجود دارد و از آن برای شناسایی الگوها در ارتباط با متغیرهای مستقل (X) استفاده میشود. همانطور که در شکل زیر دیده میشود، مقادیر y معمولاً در ستون آخر قرار میگیرند.
دانلود دیتاست رایگان
- تلگرام پرشین دیتا
در کانال تلگرام پرشین دیتا (persian data)، تعداد زیادی دیتاست رایگان جمعآوری شده است، آن ها را دانلود کنید تا با ساختار مجموعهدادههای واقعی آشنا شوید.
- سایت کگل
صدها مجموعهداده متنوع با فرمت CSV در سایت kaggle موجود است. برای استفاده و دانلود مجموعهدادهها، حتماً باید در سایت ثبتنام کنید. البته مجموعهدادههای kaggle رایگان بوده و برای ثبتنام نیازی به پرداخت هزینه نیست.
مجموعهداده بهصورت یک فایل CSV بر روی کامپیوتر شما دانلود خواهد شد. پس میتوانید با استفاده از اکسل فایل را باز کنید و الگوریتم های مورد نظر را بر روی مجموعهداده خود اجرا کنید.
دوره آموزشی: برای یادگیری کار با دیتاستها در پروژههای واقعی یادگیری ماشین و ساخت مدلهای مختلف، آموزش رایگان یادگیری ماشین را در کانال یوتیوب دیتاهاب ببینید.
بیگ دیتا یا کلان داده (Big Data) چیست؟
یکی از بزرگترین تفاوتها میان یک یادگیرنده مبتدی و پیشرفته، ابعاد دادهای است که آنها مدیریت کرده و روی آن کار میکنند. مبتدیها معمولاً کار خود را با مجموعهدادههای کوچک که مدیریت آنها ساده و دانلود آنها بهسادگی و مستقیماً از طریق یک سیستم کامپیوتری به شکل فایل ساده CSV است، شروع میکنند. ولی یادگیرندههای پیشرفته، علاقه بیشتری برای کار با مجموعهدادههای بزرگ و بیگ دیتا و کلاندادهها (Big Data) دارند. اینکه بدانیم بیگ دیتا چیست و چه ویژگیهایی دارد به ما کمک می کند تا تصویر دقیقتری از پروژه خود داشته و تصمیمات بهتری بگیریم.
بیگ دیتا یا کلانداده برای توصیف مجموعهدادهای به کار میرود که به علت ویژگیهایی مثل ارزش (Value)، تنوع (Variety)، حجم (Volume) و سرعت (Velocity)، روشهای معمول پردازش از پس آن برنمیآیند و پردازش آن بدون استفاده از یک ماشین پیشرفته غیرممکن است.
برای کلانداده از نظر اندازه یا تعداد کل سطرها و ستونها تعریف دقیقی وجود ندارد. در حال حاضر، مجموعهدادههای در اندازه پتابایت (Petabyte) را بهعنوان کلانداده میشناسیم، ولی مجموعهدادهها بهسرعت بزرگتر میشوند. سرعت ارائه راههای جدید برای جمعآوری و ذخیره بهینه دادهها با هزینه کم، نسبت بهسرعت افزایش حجم داده، کمتر است. کلاندادهها همچنین، نویز (Noise) بیشتر و ساختار دادههای (Data structure) پیچیدهتری دارند. در نتیجه، بخش بزرگی از کار با کلاندادهها شامل پاکسازی (Scrubbing) است: پاکسازی مجموعهداده قبل از ساختن مدل که در بخشهای آینده توضیح داده میشود.
دوره آموزشی: هنوز انجام پروژه یادگیری ماشین شروع نکردید، چون برنامهنویسی بلد نیستید؟ اصلا نگران نباشید. دوره آموزش پایتون ویژه هوش مصنوعی را در کانال یوتیوب دیتاهاب ببینید.
بصری سازی دیتا یا Data Visualization چیست؟
هرچه قدر هم که نتایج کار با داده و تحلیلها، تأثیرگذار و مفید باشند، باز نیاز است تا به شکلی مؤثر نتایج بهدستآمده را به تصمیمگیرندههای مرتبط، منتقل کنید. این همان جایی است که بصریسازی (Visualization) دادهها، بهعنوان روشی مؤثر برای انتقال یافتهها به یک مخاطب عمومی، مطرح میشود. پیامها و اطلاعات موجود در گرافها، نمودارهای پراکندگی، نمودار جعبهای (Box plot) و نمایش اعداد در قالب شکلها، یک راه سریع و ساده برای شرح داستان (مسئله) و خروجیها است.
بهعنوان یک نکته کلی، هرچقدر مخاطب شما نسبت به مسئله، آگاهی کمتری داشته باشد، بصریسازی مهمتر میشود. ولی اگر مخاطب نسبت به موضوع مطلعتر باشد، میتوان جزئیات اضافهتر و اصطلاحات فنی را بهعنوان نکات تکمیلی در کنار نمودارها و جداول استفاده کرد. برای بصریسازی نتایج میتوان از ابزار Tableau یا کتابخانه پایتونی Seaborn استفاده کرد.
نمودارهای پراکندگی (Scatterplot)
از روش های ساده بصری سازی داده نمودارهای پراکندگی (Scatterplot) هستند که انواع مختلفی دارد، از جمله نمودارهای دوبُعدی، سهبعدی و چهاربُعدی. در زیر با نمودار پراکندگی دوبعدی و ویژگی های آن آشنا می شوید.
نمودار پراکندگی دوبُعدی
یک نمودار پراکندگی دوبُعدی (2D scatterplot) شامل یک محور عمودی (محور y) و یک محور افقی (محور x) است. این نمودار یک فضای گرافیکی برای رسم مجموعهای از نقاط (داده ها) ایجاد میکند. هر نقطه داده در نمودار پراکندگی، یک مشاهده از مجموعهداده را نمایش میدهد که مقادیر X روی محور x و مقادیر y روی محور y رسم شدهاند.
شکل زیر مثالی از یک نمودار پراکندگی دوبعدی را نشان میدهد. X تعداد روزهای گذشته از زمان ثبت قیمت بیتکوین و y قیمت ثبت شده بیتکوین را نشان میدهد.
. . . .
و در انتها…
داده ها از مهمترین اجزا یک پروژه یادگیری ماشین هستند و با استفاده از آن ها مدل ها ساخته می شوند. بنابراین لازم بود آن ها را شناخته و با ویژگی هایشان آشنا شویم. همچنین یکی از کارهای مهم در پروژه های یادگیری ماشین، نمایش داده ها و نتایج است که نمودارهای مختلفی معرفی شدند.
در بخش بعدی، درباره پیش پردازش داده ها صحبت میکنیم. پاکسازی، فرایندی است که طی آن مجموعهداده را بهبود داده تا بتوان از آن استفاده کرد که روشهای مختلف آن در بخش آینده بررسی میشوند.
دوره آموزشی: سایت ها داده های زیادی دارند که می توان با وب اسکرپینگ آن ها را استخراج کرده و دیتاست یادگیری ماشین خود را بسازید. دوره آموزش پروژه محور وب اسکرپینگ را در کانال یوتیوب دیتاهاب ببینید.
2 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره
kaggle link:
https://www.kaggle.com/datasets/mehdisahraei/persian-alpha?resource=download
دوست داشتید رای بدید
دم شما گرم