آموزش پردازش زبان طبیعی (NLP) – مقدمه

آموزش پردازش زبان طبیعی چیست

فهرست مطالب

امروزه پیشرفت حوزه پردازش زبان طبیعی (Natural Language Processing) که با نام مخفف NLP نیز شناخته می‌شود، به‌گونه‌ای بوده که در اکثر فعالیت‌ها و ابزارهایی که به طور روزمره استفاده می‌کنیم، قابل‌مشاهده است.

از دستیار صوتی هوشمند اپل یعنی Siri گرفته تا ابزارهای تصحیح خودکار غلط‌های املایی متون، چت‌بات‌ها و پیشنهادهای گوگل برای ما هنگام جست‌وجو کردن یا همان Google Suggest.

طبق آماری که توسط گوگل منتشر شده، این پیشنهادها بازدهی بالایی دارند زیرا باعث کاهش 25 درصدی تایپ متن، توسط کاربران می‌شوند.

فناوری NLP به ما کمک می‌کند تا متون مختلف را ترجمه کنیم، ایمیل‌های اسپم یا هرزنامه‌ها را از سایر ایمیل‌ها جدا کنیم و همچنین خبرهای جعلی را شناسایی کنیم. به طور خلاصه، با استفاده از NLP، ماشین‌ها و رایانه‌ها این توانایی را دارند که زبان‌ انسان‌ها را درک، پردازش و تفسیر کنند.

سؤالی که ممکن است برای خیلی از ما پیش آید، این است که سازوکار واقعی NLP چیست؟ یعنی چگونه با استفاده از NLP می‌توان زبان انسان را به چیزی تبدیل کرد که توسط رایانه قابل‌درک باشد؟

قرار است در مجموعه‌ای از مقالات که به‌صورت یک آموزش جامع برای شما تهیه شده، به این دسته از سؤالات پاسخ بدهیم. به‌طورکلی مجموعه آموزش پردازش زبان طبیعی شامل سه بخش می‌شود.

در بخش اول، با نحوه پیش‌پردازش داده‌های متنی آشنا‌ شده و داده‌های خود را برای گام‌های بعدی پروژه آماده می‌کنیم.

هنگام کار با داده‌های متنی، باید از متن موردنظر ویژگی‌هایی را استخراج کرده و به بردار (text vectorization) تبدیل کنیم. برای این کار تکنیک‌های مختلفی وجود دارد.

در بخش دوم آموزش پردازش زبان طبیعی، تکنیک Bag-of-Words را معرفی کرده و پروژه‌های دسته‌بندی مانند تحلیل احساسات (Sentiment Analysis) را پیاده‌سازی می‌کنیم.

در بخش سوم و پایانی، با تکنیک Word Embeddings آشنا می‌شویم و آن را در بررسی و تحلیل متنی، به کار می‌بریم.

پس از خواندن مقالات و اتمام دوره آموزش پردازش زبان طبیعی، شما خواهید توانست:

  • داده‌های متنی را پیش‌پردازش کنید.
  • با استفاده از تکنیک Bag-of-Words ویژگی‌های متن خود را استخراج کرده و به بردار تبدیل کنید و در یک پروژه دسته‌بندی به کار گیرید.
  • از تکنیک Word Embeddings استفاده کرده و بردار کلمات خود را به دست آورید.

علاوه بر موارد ذکر شده، شما با دو کتابخانه معروف آموزش پردازش زبان طبیعی در پایتون یعنی spaCy 2.3 و NLTK 3.5 آشنا شده و آموزش‌های ارائه شده را با آن‌ها پیاده‌سازی خواهید کرد.

اگر می‌خواهید کار بر روی پروژه‌های واقعی NLP را یاد بگیرید، دوره آموزش پردازش زبان طبیعی مقدماتی را از دست ندهید.

پیش‌نیازهای آموزش پردازش زبان طبیعی

  • آشنایی با زبان برنامه‌نویسی پایتون
  • آشنایی با مفاهیم جبر خطی، یادگیری ماشین و نحوه اعتبارسنجی الگوریتم‌ها

برای یادگیری پایتون، دوره آموزش رایگان پایتون را در کانال یوتیوب دیتاهاب مشاهده کنید.

ابزارهای موردنیاز پردازش زبان طبیعی

  • نصب پایتون 8
  • نصب کتابخانه‌ spaCy 2.3
  • نصب کتابخانه‌ NLTK 3.5

سرفصل مطالب ارائه شده دوره آموزش پردازش زبان طبیعی

  1. ساختن ابر کلمات (Word Cloud)
  2. شناسایی و حذف ایست واژه‌ (Stop Word)های یک متن
  3. پیاده‌سازی تکنیک‌های توکن‌سازی (Tokenization)
  4. ریشه‌یابی (شناسایی و یکسان‌سازی کلماتی معادل با فرم‌های مختلف) با استفاده از SpaCy
  5. استخراج اطلاعات مفید داخل یک متن با استفاده از Regular Expression
  1. پیاده‌سازی تکنیک Bag-of-Words
  2. پیاده‌سازی رویکرد TF-IDF برای ساختن بردار کلمات
  3. استفاده از مدل‌های مختلف دسته‎‎بندی (Classification) برای تحلیل احساسات (Sentiment Analysis)
  1. آشنایی با قابلیت و مزایای Word Embeddings
  2. مقایسه مدل‌های مختلف Embedding
  3. آموزش و train کردن مدل‌های مختلف Embedding
  4. آشنایی بیشتر با SpaCy

دوست دارید پروژه‌هایی برای پردازش متن یاد بگیرید که در کارهای دنیای واقعی استفاده می‌شوند؟ صفحه آموزش متن کاوی فارسی با شبکه‌های عصبی را ببینید.

مطالب بیشتر

دیدگاهتان را بنویسید