هوش مصنوعی «زنده» میشود؛ یادگیری از تجربههای محیطی، بدون دخالت انسانی
آیا روزی ماشینها میتوانند مانند انسانها از تجربههایشان یاد بگیرند؟ جامعهی پژوهشگران هوش مصنوعی اخیراً تلاش کرده است فناوریهای مولد (Generative) را فراتر از آزمونهای سادهای که مدلها بهراحتی از آنها عبور میکنند، توسعه دهد.
مدلها امروز آنقدر تواناییهای مختلف کسب کردهاند که آزمون تورینگ بهنوعی کارایی خود را از دست داده است. مدلهای جدید حالا میتوانند با تقلید از الگوهای زبانی انسان، از این آزمون عبور کنند، اما موفقیت آنها لزوماً نشاندهندهی درک واقعی یا هوشمندی عمیق نیست. این موضوع بحث داغی را میان پژوهشگران ایجاد کرده است: آیا مدلهای جدید صرفاً برای عبور از بنچمارکها طراحی شدهاند یا واقعاً هوشمندی لازم برای تولید نتایج فوقالعاده را دارند؟
بهگفتهی پژوهشگران دیپمایند گوگل، آزمونها مشکل اصلی نیستند، بلکه محدودیت امروز در روشهای توسعهی مدلهای هوش مصنوعی است. دادههای آموزشی این مدلها بسیار محدود و ایستا هستند و معمولاً از مجموعههای ثابت متنی مانند ویکیپدیا یا کتابها تشکیل شدهاند که نمیتوانند با تغییرات و پویاییهای دنیای واقعی هماهنگ شوند. همین محدودیت باعث میشود مدلها نتوانند در مواجهه با موقعیتهای جدید، دانش خود را بهروزرسانی کنند.
پژوهشگران دیپمایند در مقالهای که ۱۱ آوریل ۲۰۲۵ منتشر شد و بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT است، پیشنهاد کردهاند که هوش مصنوعی باید بتواند از طریق تعامل مستقیم با جهان واقعی، مانند دریافت بازخورد از محیط یا کاربران، تجربه کسب کند و اهداف خود را براساس سیگنالهای محیطی تعیین کند. دیوید سیلوِر (David Silver) و ریچارد ساتِن (Richard Sutton)، پژوهشگران ارشد دیپمایند، در این مقاله با عنوان «به عصر تجربه خوش آمدید» مینویسند:
تواناییهای خارقالعاده زمانی پدیدار میشوند که پتانسیل کامل یادگیری تجربی مورد استفاده قرار گیرد.
این دو پژوهشگر از چهرههای شاخص حوزهی یادگیری ماشین هستند. سیلور بهعنوان رهبر تیم توسعهدهندهی آلفازِرو (AlphaZero) شناخته میشود؛ مدلی که در بازیهای شطرنج و گو هوش انسانی را شکست داد. ساتن نیز یکی از خالقان یادگیری تقویتی (Reinforcement Learning) است؛ روشی که پایهی ساخت آلفازِرو بود و جایزهی تورینگ را برای او به ارمغان آورد.
یادگیری تقویتی در رباتیک برای آموزش رباتها به انجام وظایف پیچیده، مانند جابهجایی اشیا، استفاده میشود
یادگیری تقویتی با مفاهیمی مانند یادگیری تفاوت زمانی، که به ماشینها امکان پیشبینی پاداشهای آینده را میداد، از دههی ۱۹۸۰ توسعه یافت. روشهای کاوش، مانند الگوریتمهای مبتنی بر کنجکاوی، به ماشینها کمک کردند تا استراتژیهای خلاقانهای کشف کنند. در این روش، مدل با آزمون و خطا و دریافت بازخورد (پاداش یا جریمه) از محیط، رفتار خود را بهبود میبخشد.
بهدلیل وابستگی زیاد به آزمون و خطا، یادگیری تقویتی نیاز به طراحی سیستمهای پاداش پیچیدهای دارد که تنظیم آنها در دنیای واقعی میتواند دشوار باشد، زیرا محیطهای واقعی غیرقابل پیشبینی هستند و پیشبینی تمام پیامدهای یک اقدام دشوار است.
برای مثال، در یک سیستم خودران، تعیین پاداش مناسب برای هر اقدام (مانند ترمز کردن یا تغییر مسیر) نیاز به تحلیل دقیق و پیشبینی عواقب بلندمدت دارد، که در محیطهای پویا و غیرقابل پیشبینی چالشبرانگیز است.
رویکردی که سیلور و ساتن از آن دفاع میکنند، براساس یادگیری تقویتی و درسهای آلفازِرو بنا شده و «جریانها» (Streams) نام دارد. هدف آن رفع کاستیهای مدلهای زبانی بزرگ (مانند GPT) است که صرفاً برای پاسخگویی به سؤالات تکجملهای طراحی شدهاند. این دو پژوهشگر اشاره میکنند که پس از موفقیت آلفازِرو و مدل پیشین آن، آلفاگو، نسل جدید هوشهای مصنوعی مولد مانند GPT ظهور کردند و یادگیری تقویتی به نوعی کنار گذاشته شد. این تغییر هم مزایا و هم معایبی داشت.