انقباض شبکه های عصبی عظیم مورد استفاده برای زبان مدل سازی – ScienceDaily


برای شکستن مهره به چکش احتیاج ندارید.

جاناتان فرانکل هوش مصنوعی را مطالعه کرد ، نه پسته ، اما همین فلسفه در مورد “فرضیه بلیط قرعه کشی” وی نیز صدق می کند. بیان می کند که در شبکه های عصبی عظیم پنهان شده ، زیرشبکه های نازک تر می توانند همان کار را با کارآیی بیشتری انجام دهند. ترفند این است که آن شبکه های فرعی “خوش شانس” را پیدا کنید که بلیط های بخت آزمایی برنده می شوند.

در مقاله جدید ، فرانکل و همکارانش چنین زیر شبکه هایی را کشف کردند که در BERT ، رویکرد پیشرفته شبکه عصبی در پردازش زبان طبیعی (NLP) پنهان است. NLP به عنوان شاخه ای از هوش مصنوعی ، رمزگشایی و تجزیه و تحلیل زبان انسان را با برنامه هایی مانند تولید متن پیش بینی یا ربات های چت آنلاین انجام می دهد. از نظر محاسباتی ، BERT حجیم است ، معمولاً نیاز به قدرت ابر رایانه دارد که برای بیشتر کاربران قابل دسترسی نیست. دسترسی به بلیط قرعه کشی BERT می تواند شرایط بازی را مساوی کند ، به طور بالقوه به کاربران بیشتری امکان می دهد ابزارهای NLP م onثر را روی تلفن هوشمند توسعه دهند – بدون نیاز به چکش

فرانكل با بيان اينكه اين پيشرفت مي تواند روزي “باعث كاهش موانع ورود” به NLP شود ، گفت: “ما در حال رسيدن به نقطه اي هستيم كه بايد اين مدل ها را ظريف تر و كاراتر كنيم.”

فرانکل ، دانشجوی دکترای گروه مایکل کاربین در آزمایشگاه علوم رایانه ای و هوش مصنوعی MIT ، نویسنده این تحقیق است که ماه آینده در کنفرانس سیستم های پردازش اطلاعات عصبی ارائه می شود. تیانلونگ چن از دانشگاه تگزاس در آستین نویسنده اصلی مقاله است که شامل همکاران ژانگ یانگ وانگ ، همچنین از تگزاس A&M ، و همچنین شیو چانگ ، سیجیا لیو و یانگ ژانگ ، همه از MIT-IBM Watson AI Lab است.

شما امروز احتمالاً با شبکه BERT تعامل کرده اید. این یکی از فناوری های اساسی موتور جستجوی گوگل است و از زمان راه اندازی BERT در سال 2018 توسط گوگل باعث ایجاد هیجان در بین محققان شده است. BERT روشی برای ایجاد شبکه های عصبی است – الگوریتم هایی که از گره های لایه یا “نورون” برای یادگیری انجام یک کار با یادگیری مثالهای متعدد. BERT با تلاش مکرر برای پر کردن کلماتی که از متن نوشتاری خارج شده است ، یاد می گیرد و قدرت آن در اندازه زیاد این مجموعه از داده های اولیه یادگیری است. سپس کاربران می توانند شبکه عصبی BERT را مجدداً با یک کار خاص مانند ساخت یک chatbot برای سرویس دهی به مشتریان پیکربندی کنند. اما اختلاف با BERT یک مقدار قدرت پردازش را می گیرد.

فرانکل می گوید: “مدل استاندارد BERT امروزه – انواع باغها – 340 میلیون پارامتر دارد” و افزود که تعداد آنها می تواند به 1 میلیارد برسد. تنظیم دقیق چنین شبکه عظیم ممکن است به یک ابر رایانه نیاز داشته باشد. “این فقط به طرز فاحشی گران است. خیلی فراتر از من و شما است.”

چن موافقت می کند. او می گوید ، با وجود محبوبیت BERT ، چنین مدل هایی “از اندازه عظیم شبکه رنج می برند.” خوشبختانه “به نظر می رسد فرضیه بلیط قرعه کشی راه حل باشد”.

برای کاهش هزینه های محاسباتی ، چن و همکارانش سعی کردند مدل کوچکتری را که در BERT پنهان شده است ، شناسایی کنند. آنها با برش پارامترهای تکراری از شبکه کامل BERT آزمایش کردند و سپس عملکرد زیر شبکه جدید را با مدل اصلی BERT مقایسه کردند. آنها این مقایسه را برای تعدادی از وظایف NLP ، از پاسخ دادن به سوالات تا پر کردن یک کلمه خالی در یک جمله ، انجام دادند.

محققان ، زیر شبکه های موفقی را یافتند که بسته به نوع کار ، 40 تا 90 درصد نازک تر از مدل اصلی BERT است. به علاوه ، آنها توانستند بلیط های برنده قرعه کشی را قبل از شروع هر کار تنظیم دقیق مشخص کنند – یافته ای که می تواند هزینه محاسبه شده NLP را به حداقل برساند. در بعضی موارد ، یک زیر شبکه انتخاب شده برای یک کار ممکن است به کار دیگری تغییر یابد ، اگرچه فرانکل خاطر نشان می کند که این قابلیت جابجایی جهانی نیست. با این وجود ، فرانکل بیش از نتایج این گروه خوشحال است.

او می گوید: “من از اینكه حتی این نتیجه هم داد ، شوكه شدم.” “این چیزی نیست که من آن را بدیهی بدانم. من انتظار داشتم نتیجه بسیار بزرگتری از آنچه که گرفتیم باشد.”

به گفته آری مورکوس ، دانشمند از Facebook AI Research ، این کشف بلیط برنده در مدل BERT “قانع کننده” است. مورکوس می گوید: “این مدل ها در حال شیوع بیشتری هستند.” “بنابراین مهم است که بدانیم فرضیه بلیط قرعه کشی درست است.” وی افزود که این کشف می تواند به مدلهای BERT مانند امکان پردازش بسیار کمتری را بدهد ، “این می تواند بسیار تأثیرگذار باشد ، زیرا این مدلهای بسیار بزرگ در حال حاضر بسیار گران هستند”

فرانکل موافق است. او امیدوار است که این کار بتواند BERT را در دسترس قرار دهد ، زیرا روند مدلهای NLP همیشه در حال رشد را دفع می کند. وی می گوید: “من نمی دانم با استفاده از این محاسبات به سبک ابر رایانه چقدر می توانیم بزرگتر شویم.” “ما باید مانع ورود را کاهش دهیم.” شناسایی یک زیرمجموعه ضعیف و برنده قرعه کشی دقیقاً همین کار را می کند – به توسعه دهندگانی که عضو محاسبات Google یا Facebook ندارند اجازه ادامه کار پیشرفته NLP را می دهد. فرانكل گفت: “اميد اين است كه هزينه ها را كاهش دهد ، و اين امر باعث مي شود كه در دسترس همه بيشتر باشد … پسران كوچكي كه فقط لپ تاپ دارند. “برای من واقعا هیجان انگیز است.”


منبع: hobobat-news.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*