محدودیت بزرگ هوش مصنوعی؛ بدون داشتن بدن درک واقعی از دنیا امکانپذیر نیست
هوش مصنوعی ممکن است به دلیل نداشتن حواس چشایی، لامسه و بویایی، در درک کامل مفاهیم به شیوهای که انسانها درک میکنند محدود باشد؛ این موضوع نشان میدهد که مدلهای پیشرفتهتر احتمالاً به داشتن بدنی رباتیک نیاز دارند تا بتوانند تجربهای نزدیکتر به انسان داشته باشند.
هوش مصنوعی نیازمند بدنی رباتیک است تا بهتر درک کند
به نظر میرسد درک آخرین نسل مدلهای هوش مصنوعی از جهان در سطح انسانی است، اما مشخص شده که نبود اطلاعات حسی و نداشتن یک بدن باعث محدودیتهایی در توانایی آنها برای درک مفاهیمی مانند گل یا شوخطبعی میشود.
بهگزارش نیوساینتیست، چیهویی شو، از دانشگاه ایالتی اوهایو و همکارانش از انسانها و مدلهای زبانی بزرگ (LLMs) دربارهی درکشان از حدود ۴۵۰۰ واژه پرسیدند؛ واژهها شامل مواردی مثل «گل» و «سم» گرفته تا «طنزآمیز» و «تاب خوردن» بودند. از شرکتکنندگان انسانی و مدلهای هوش مصنوعی خواسته شد تا هر واژه را از نظر جنبههای مختلفی ارزیابی کنند؛ مثل میزان برانگیختگی احساسی که آن واژه ایجاد میکند یا میزان ارتباطش با حواس و تعامل فیزیکی با بخشهای مختلف بدن.
هدف مطالعه این بود که بررسی شود رتبهی مدلهای زبانی بزرگ از جمله GPT-3.5 و GPT-4 از شرکت OpenAI و PaLM و جمنای از گوگل در مقایسه با انسانها چگونه است. نتیجه نشان داد که انسانها و هوش مصنوعی نقشهی مفهومی نسبتاً مشابهی برای واژههایی دارند که به تعامل با دنیای بیرونی مربوط نمیشوند؛ اما وقتی پای واژههایی در میان باشد که به حواس یا اعمال فیزیکی مربوطاند، تفاوتها بسیار زیاد میشود.
هوش مصنوعی در درک تعامل با دنیای بیرون ضعیف است
برای مثال، مدلهای هوش مصنوعی معمولاً تصور میکردند که میتوان گلها را از طریق بخش میانی بدن تجربه کرد، چیزی که برای بیشتر انسانها عجیب است، چون ترجیح میدهند گل را با نگاه کردن یا بو کشیدن درک کنند.
به گفتهی شو، مشکل اینجاست که مدلهای زبانی بزرگ درک خود از جهان را فقط از متنهایی که از اینترنت جمعآوری کردهاند میسازند و این مسیر برای درک مفاهیم مرتبط با حواس، کافی نیست. او میگوید: «در اینجور موارد، آنها واقعاً خیلی با انسانها فرق دارند.»
برخی از مدلهای هوش مصنوعی علاوه بر متن، با اطلاعات تصویری مانند عکسها و ویدئوها نیز آموزش داده میشوند. محققان دریافتند که نتایج این مدلها شباهت بیشتری به ارزیابیهای انسانی از واژگان دارد؛ این موضوع احتمال آن را مطرح میکند که افزودن ورودیهای حسی بیشتر میتواند موجب شود مدلهای آیندهی هوش مصنوعی به درکی نزدیکتر به درک انسان از جهان دست یابند.
شو میگوید: «یافتهها نشان میدهند که مزایای آموزش چندوجهی (multi-modal) ممکن است بیش از آن چیزی باشد که پیشتر تصور میکردیم. بهنوعی میتوان گفت یک بهعلاوهی یک، در اینجا میتواند بزرگتر از دو باشد. در حوزهی توسعهی هوش مصنوعی، این نتایج اهمیت ساخت مدلهای چندوجهی و نیز برخورداری از یک بدن فیزیکی را برای دستیابی به درک عمیقتر از جهان برجسته میکنند.»
بیشتر بخوانید
فیلیپ فلدمن، از دانشگاه مریلند در بالتیمور کانتی، میگوید مجهزکردن مدلهای هوش مصنوعی به بدنی رباتیک و قراردادن آنها درمعرض ورودیهای حسی-حرکتی، احتمالاً موجب جهش در تواناییهایشان خواهد شد و شاید این جهش بسیار چشمگیر باشد. اما او هشدار میدهد که باید در انجام این کار بسیار محتاط بود، زیرا همواره خطر آسیب فیزیکی به افراد، اطراف توسط رباتها وجود دارد.
فِلدمن میگوید برای جلوگیری از خطر ربات برای انسان، باید محدودیتهایی برای عملکرد رباتها تعیین کرد یا فقط رباتهای نرمی را که نمیتوانند آسیبی وارد کنند برای آموزش بهکار برد؛ اما این راهکارها هم معایب خاص خود را دارند.
بهگفتهی فلدمن: «این کار باعث میشود درک آنها از جهان تحریف شود. یکی از چیزهایی که آن رباتهای نرم یاد میگیرند این است که بهدلیل داشتن جرم اندک، میتوانند پس از برخورد با اشیاء، بهراحتی بازگردند. حالا تصور کنید بخواهیم همین درک را به رباتهای واقعی با جرم بالا منتقل کنیم؛ آنگاه رباتهای انساننما ممکن است فکر کنند میتوانند با نهایت سرعت به هم برخورد کنند که این مسئله میتواند حسابی دردسرساز شود.»
مقاله در مجله نیچر منتشر شده است.