اسرار AGI OpenAI توسط محققان چینی فاش شد!

شرکت openai به عنوان پیشرو در زمینه هوش مصنوعی شناخته می‌شود و البته نسخه اخیر مدل‌های آن، سری o1، به مراتب پیشرفته‌ترین هوش مصنوعی است که در حال حاضر به آن دسترسی داریم. به طرز شگفت‌انگیزی، این مدل هوش مصنوعی به قدری با رمز و راز احاطه شده است که اگر روزی جسارت کنید از مدل بپرسید در حین ارائه پاسخ به چه چیزی فکر می‌کرده، پاسخ می‌دهد که هرگز سوالی مانند آن نپرسید و اگر این کار را چندین بار تکرار کنید، ممکن است از استفاده از خدمات اوپن آی محروم شوید. دلیل اینکه این موضوع تا این حد پیچیده است، به این خاطر است که این یک گام بزرگ به سمت AGI (هوش عمومی مصنوعی) است و بسیاری بر این باورند که اوپن آی احتمالاً اولین شرکتی خواهد بود که به این هدف دست می‌یابد. حال با این توضیحات، بسیاری علاقه‌مند به دانستن نحوه دقیق عملکرد این سیستم هستند و اوپن آی بی‌شک چندین نشر مختلف را منتشر کرده است، اما هیچ‌یک به حدی نیست که واقعاً فهم عمیق‌تری از آنچه در پس پرده در حال وقوع است، به ما بدهد.

اخیراً یک مقاله تحقیقاتی از گروهی از محققان در چین منتشر شده و اکنون از خود می‌پرسیم آیا آن‌ها توانسته‌اند کد را بشکنند؟ آیا آن‌ها فهمیده‌اند که o1 چگونه کار می‌کند و نقشه‌راهی برای ساخت چیزی مشابه ارائه داده‌اند؟ پس این مقاله تحت عنوان «مقیاس‌گذاری جستجو و یادگیری: نقشه‌راهی برای بازسازی o1 از منظر یادگیری تقویتی» است و این مقاله می‌تواند همه چیز را تغییر دهد، زیرا اگر این موضوع درست باشد، به این معنی است که میدان بازی برابر شده و تنها مدت زمانی است که شرکت‌های دیگری شروع به تولید مدل‌های هوش مصنوعی خواهند کرد که در سطحی برابر با OpenAI خواهند بود. در واقع، قرار است این موضوع را به چهار بخش تقسیم کنم، اما بیایید اول اصول اولیه اینکه این هوش مصنوعی چگونه کار می‌کند را درک کنیم. یکی از اولین چیزهایی که داریم، یادگیری تقویتی با هوش مصنوعی است. به‌طور اساسی می‌توانیم از یک تشبیه بازی استفاده کنیم: فرض کنید در حال تلاش برای آموزش یک سگ هستید. شما به این سگ یک خوراکی و پاداش می‌دهید وقتی که کار خاصی را انجام می‌دهد.

و سپس یاد می‌گیرد تا آن اقدامات را تکرار کند تا پاداش‌های بیشتری به‌دست آورد و این اساساً یادگیری تقویتی است. حالا با هوش مصنوعی، این سگ اساساً یک برنامه است و پاداش یک جایزه دیجیتال است و ترفند می‌تواند هر چیزی از پیروزی در یک بازی تا نوشتن کد باشد. حالا چرا یادگیری تقویتی برای سری ۰۱ اهمیت دارد و این به این دلیل است که به نظر می‌رسد Open AI معتقد است که یادگیری تقویتی کلید هوشمندتر کردن ۰۱ است. این اساساً نحوه یادگیری ۰۱ برای استدلال و حل مسائل پیچیده از طریق آزمایش و خطاست. حالا چهار ستون این موضوع طبق مقاله وجود دارد که در اینجا می‌توانید مشاهده کنید. آنها نمای کلی از نحوه کارکرد ۰۱ به ما می‌دهند. ما سیاست‌گذاری اولیه را داریم که نقطه شروع مدل است. این توانایی‌های استدلال اولیه مدل را با استفاده از پیش‌آموزش یا تنظیم دقیق راه‌اندازی می‌کند و اساساً بنیاد مدل را تشکیل می‌دهد. ما طراحی پاداش داریم که البته نحوه پاداش‌دهی به مدل است که در مورد آن صحبت کردیم. در مورد این هم بیشتر صحبت خواهم کرد.

در مورد جزئیات و البته جستجو داریم که در زمان استنباط، مدل در حال “تفکر” است، این نحوه‌ی جستجوی مدل در بین امکان‌ها مختلف است و البته ما یادگیری داریم و اینجا است که مدل را با تحلیل داده‌های تولیدشده در طول فرایند جستجو بهبود می‌بخشید و سپس از تکنیک‌های مختلفی مانند یادگیری تقویتی استفاده می‌کنید تا مدل را در طول زمان بهتر کنید و در اصل ایده مرکزی یادگیری تقویتی است. خب، و مکانیسم اصلی، این اجزا را به هم پیوند می‌دهد. مدل که سیاست است با محیط خود تعامل می‌کند، داده‌ها از نتایج جستجو به فرایند یادگیری منتقل می‌شود و سیاست بهبود یافته به جستجو بازخورد داده می‌شود و یک حلقه بهبود مستمر ایجاد می‌کند و نمودار به‌طور بنیادی بر ماهیت چرخه‌ای این فرایند تأکید می‌کند. جستجو داده‌هایی برای یادگیری تولید می‌کند، یادگیری سیاست را به‌روزرسانی می‌کند و الی آخر. بنابراین اگر بخواهیم واقعاً درک کنیم که چگونه این کار می‌کند، باید واقعاً سیاست را درک کنیم.

اینها اصول اساسی هستند، این بنیاد مدل است. بنابراین تصور کنید که شما در حال آموزش یک نفر برای بازی یک بازی پیچیده مانند شطرنج هستید. شما در روز اول او را به یک مسابقه در برابر یک استاد بزرگ نمی‌فرستید، درست است؟ شما ابتدا با آموزش اصول، چگونگی حرکت قطعات، استراتژی‌های اولیه و شاید برخی از حرکات ابتدایی مشترک شروع می‌کنید. این اساساً هدف از آغاز سیاست برای هوش مصنوعی است. اکنون در زمینه یک هوش مصنوعی قدرتمند مانند 01، آغاز سیاست در واقع فراهم کردن یک بنیاد و استدلال بسیار قوی برای هوش مصنوعی است قبل از اینکه حتی شروع به حل مسائل دشوار کند. این به تجهیز آن با مجموعه‌ای از مهارت‌ها و دانش‌های اساسی مربوط می‌شود که می‌تواند سپس از طریق یادگیری تقویتی بر روی آن ساخت و ساز کند. مقاله پیشنهاد می‌کند که برای 01، این پیشرفت احتمالاً در دو مرحله اصلی اتفاق می‌افتد: شماره یک، پیش‌آموزش که ما می‌توانیم آن را ببینیم، جایی که شما آن را با داده‌های متنی عظیم آموزش می‌دهید. این را می‌توان به مانند این تصور کرد که به هوش مصنوعی اجازه می‌دهید کل اینترنت یا حداقل بخش بزرگی از آن را بخواند.

و با انجام این کار، هوش مصنوعی یاد می‌گیرد که زبان چگونه کار می‌کند، چگونه کلمات به یکدیگر ارتباط دارند و مقدار زیادی دانش عمومی درباره جهان به دست می‌آورد. به آن مانند یادگیری دستور زبان، واژگان و حقایق اساسی قبل از تلاش برای نوشتن یک رمان فکر کنید. همچنین این هوش مصنوعی توانایی‌های استدلالی پایه‌ای را با آموزش بر روی این داده‌ها یاد می‌گیرد و در اینجا به نکته مهمی می‌رسیم که جایی است که تنظیم دقیق با دستورالعمل‌ها و استدلال انسانی‌مانند اتفاق می‌افتد. در این مرحله، ما به واقع به هوش مصنوعی درس‌های خاص‌تری درباره چگونگی استنتاج و حل مسائل می‌دهیم و این شامل دو تکنیک کلیدی است که در اینجا می‌توانیم مشاهده کنیم: مهندسی درخواست و تنظیم دقیق تحت نظارت. بنابراین مهندسی درخواست جایی است که اساساً شما دستورالعمل‌ها یا مثال‌های دقیقی به هوش مصنوعی می‌دهید تا رفتار آن را هدایت کند و مقاله به رفتارهایی مانند تحلیل مشکل اشاره می‌کند که در آن شما مشکل را دوباره بیان می‌کنید تا اطمینان حاصل شود که مفهوم شده است، و تجزیه وظیفه که شامل تقسیم یک مشکل پیچیده به مراحل کوچک‌تر و راحت‌تر است.

در این مرحله به طور عملی می‌گویید که باید ابتدا مرحله به مرحله فکر کنید و البته با فرآیند آزادسازی تحت نظارت که در اینجا به عنوان sft شناخته می‌شود. این شامل آموزش هوش مصنوعی بر اساس مثال‌های انسانی در حل مسائل است، به نوعی نشان دادن راه صحیح تفکر و استدلال. این می‌تواند شامل نشان دادن مثال‌هایی از کارشناسان باشد که فرآیند تفکر خود را مرحله به مرحله توضیح می‌دهند. در خلاصه، آغاز سیاست به معنای ارائه یک پایه محکم به هوش مصنوعی از نظر دانش زبانی و مهارت‌های ابتدایی استدلال است و این کار برای موفقیت در مراحل بعدی یادگیری و حل مسائل ضروری است. این مرحله به طور کلی برای توسعه رفتارهای استدلالی مانند انسان در هوش مصنوعی بسیار حیاتی است و به آن‌ها این امکان را می‌دهد که به طور سیستماتیک فکر کنند و فضاهای حل را به طور موثر جستجو کنند. مرحله بعدی به موضوع بسیار جالبی پرداخته می‌شود که به طراحی پاداش مربوط می‌شود. تصویری که در صفحه می‌بینید، نشان‌دهنده دو نوع سیستم پاداش است که در یادگیری تقویتی استفاده می‌شود: مدل‌سازی پاداش نتایج که در اینجا om نامیده می‌شود و سپس پروسه…

مدل‌سازی پاداش، که به آن PRM می‌گویند، واقعاً مفهوم straightforward (ساده) دارد. مدل‌سازی پاداش نتیجه‌ای تنها بر اساس نتیجه نهایی ارزیابی می‌کند؛ بنابراین، اگر پاسخ نهایی نادرست باشد، کل راه‌حل به عنوان اشتباه علامت‌گذاری می‌شود، حتی اگر این مراحل در اینجا یا حتی بیشتر مراحل صحیح باشند. در این مثال، برخی مراحل واقعاً صحیح هستند، اما به دلیل اینکه خروجی نهایی نادرست است، کل آن به عنوان اشتباه علامت‌گذاری می‌شود

این رویکرد بسیار بهتر است زیرا خطاهای دقیق را در فرآیند شناسایی می‌کند و به جای کنار گذاشتن کل راه‌حل، بر روی آن تمرکز می‌کند و این نمودار اساساً اهمیت پاداش‌های فرآیندی در وظایفی که شامل استدلال چند مرحله‌ای هستند را تأکید می‌کند زیرا این امکان را برای بهبودهای تکراری و نتایج یادگیری بهتر فراهم می‌آورد که اساساً آنچه را که آن‌ها معتقدند 01 اکنون از آن استفاده می‌کند، شکل می‌دهد. حالا به جالب‌ترین بخش می‌رسیم زیرا اینجا به جستجو می‌پردازیم و بسیاری جستجو را به عنوان چیزی که می‌تواند ما را به فوق هوش ببرد، ستوده‌اند. در واقع اخیراً توییتی دیدم که فقط بیان کرده بود، مطمئنم می‌توانم آن را روی صفحه اضافه کنم. بنابراین وقتی تصمیم می‌گیریم این را تجزیه و تحلیل کنیم، این اساساً جایی است که ما AI را در حال فکر کردن داریم. پس می‌دانید، وقتی یک AI قدرتمند مانند 01 دارید، به زمان نیاز دارد تا فکر کند، امکانات مختلف را کاوش کند و بهترین راه‌حل را پیدا کند. این فرآیند تفکر است که مقاله به آن اشاره می‌کند و می‌گوید که یکی از راه‌هایی که می‌توانید T را بهبود ببخشید، این است که بیشتر فکر کنید.

عملکرد با تفکر بیشتر در طول استنتاج بهبود می‌یابد که به این معنی است که به جای تولید یک پاسخ، راه‌حل‌های بالقوه متعددی را بررسی کرده و بهترین آن‌ها را انتخاب می‌کند. به عنوان مثال، وقتی در مورد نوشتن یک مقاله فکر می‌کنید، فقط پیش‌نویس اول را نمی‌نویسید و آن را ارسال نمی‌کنید؛ بلکه ایده‌ها را در ذهنتان مرور می‌کنید، چندین پیش‌نویس می‌نویسید و تا زمانی که از محصول نهایی راضی باشید، اصلاح و ویرایش می‌کنید و این اساساً نوعی جستجوست. بنابراین، دو استراتژی اصلی در زمینه جستجو وجود دارد و مقاله به این استراتژی‌ها اشاره می‌کند که ممکن است ۰۱ در این فرآیند تفکر استفاده کند. پس در رتبه اول، ما جستجوی درختی داریم. تصور کنید یک درخت انشعابی که هر شاخه یک انتخاب مختلف یا اقدامی را نمایندگی می‌کند که هوش مصنوعی می‌تواند به طور بالقوه انجام دهد. جستجو مانند بررسی درخت و دنبال کردن مسیرهای مختلف برای دیدن این است که آن‌ها کجا منتهی می‌شوند. به عنوان مثال، در یک بازی شطرنج، یک هوش مصنوعی ممکن است تمام حرکات ممکن را که می‌تواند انجام دهد در نظر بگیرد و سپس تمام پاسخ‌های ممکن حریف خود را.

یک مدل می‌تواند یک درخت از امکانات بسازد و سپس بر این درخت بنا کند و از نوع خاصی از معیارها برای تعیین اینکه کدام شاخه را بیشتر بررسی کند و کدام را حذف کند، استفاده می‌کند و بر روی امیدبخش‌ترین مسیر تمرکز می‌کند. اساساً به این فکر می‌کند که شما کجا می‌روید، چه تصمیماتی می‌گیرید و کدام یک بهترین پاداش‌ها را به همراه دارد. این شبیه به یک باغبان است که به‌طور انتخابی شاخه‌ها را هرس می‌کند تا به درخت کمک کند در جهت درستی رشد کند. یک مثال ساده از این، نمونه‌برداری بهترین از n است که در آن مدل n راه‌حل ممکن را تولید می‌کند و سپس بهترین آن را بر اساس نوعی معیار انتخاب می‌کند. حالا در پایین سمت راست، اینجا جایی است که ما اصلاحات متوالی داریم، شبیه به نوشتن آن مقاله‌ای که قبلاً درباره‌اش صحبت کردیم. هوش مصنوعی با یک تلاش اولیه برای حل مسأله شروع می‌کند و سپس آن را قدم به قدم در طول مسیر اصلاح می‌کند و بهبود می‌بخشد. مثلاً یک هوش مصنوعی ممکن است یک پاسخ اولیه به یک مسأله ریاضی تولید کند و سپس کارش را بررسی کند، خطاها را شناسایی کند و سپس پاسخ خود را بر اساس آن اصلاح کند.

این مشابه ویرایش مقاله شماست که اشتباهات را شناسایی کرده و با هر بار بازبینی آن را بهتر می‌کند. بنابراین باید به این فکر کنید که هوش مصنوعی چگونه تصمیم می‌گیرد که کدام مسیرها را در جستجوی درختی بررسی کند یا حتی چگونه راه‌حل را در بازبینی‌های پیوسته بازبینه می‌کند. مقاله دو نوع راهنمایی را ذکر می‌کند: یکی راهنمایی داخلی، که در آن هوش مصنوعی از دانش و محاسبات داخلی خود برای هدایت جستجویش استفاده می‌کند و مثالی از این مورد عدم اطمینان مدل است، جایی که مدل می‌تواند برآورد کند که در بخش‌های خاصی از راه‌حل خود چقدر مطمئن است و ممکن است بر روی نواحی که کمتر مطمئن است، تمرکز کند و به بررسی گزینه‌های جایگزین یا انجام اصلاحات بپردازد. این شبیه به دوباره بررسی کار شماست زمانی که واقعا مطمئن نیستید که آیا اشتباهی مرتکب شده‌اید یا نه. مثال دیگری از این مورد، ارزیابی خود است، جایی که هوش مصنوعی می‌تواند آموزش ببیند تا کار خود را ارزیابی کند و خطاهای بالقوه یا نواحی نیازمند بهبود را شناسایی کند.

این متن درباره وجود یک ویرایشگر داخلی صحبت می‌کند که نوشته‌های شما را مرور و پیشنهاد تغییرات می‌دهد. سپس به راهنمایی خارجی اشاره می‌کند که مانند دریافت بازخورد از دنیای بیرون برای هدایت جستجو است. به عنوان مثال، بازخورد محیطی وجود دارد که در برخی موارد هوش مصنوعی می‌تواند با یک محیط واقعی یا شبیه‌سازی شده تعامل کند و بازخوردی درباره اقدامات خود دریافت کند. به عنوان مثال، یک روبات که در حال یادگیری برای عبور از یک هزارتو است ممکن است بازخوردی در مورد اینکه آیا به هدف نزدیک‌تر می‌شود یا از آن دورتر می‌رود، دریافت کند. مثالی دیگر استفاده از مدل پاداش است که قبلاً به آن اشاره کردیم. مدل پاداش می‌تواند بازخوردی درباره کیفیت راه‌حل‌ها یا اقدامات مختلف ارائه کند و هوش مصنوعی را به سمت نتایج بهتر هدایت کند. این مانند داشتن یک معلم است که کار شما را نمره‌گذاری کرده و به شما می‌گوید چه کاری را خوب انجام داده‌اید و در کجا بهبود نیاز دارید. در نهایت، عنصر جستجو و فرآیندی که هوش مصنوعی از طریق آن امکانات مختلف را بررسی و راه‌حل خود را اصلاح می‌کند، تحت تأثیر دانش داخلی و بازخورد خارجی‌اش است.

این بخش یک قسمت حیاتی از چیزی است که باعث می‌شود 01 در وظایف پیچیده استدلال بسیار خوب باشد. بنابراین، جستجو نحوه تفکر هوش مصنوعی درباره یک مشکل است، اما چگونه در واقع به مرور زمان در حل مشکلات بهتر می‌شود؟ اینجاست که یادگیری وارد می‌شود. مقاله پیشنهاد می‌کند که 01 از یک تکنیک قوی به نام یادگیری تقویتی برای بهبود عملکردش استفاده می‌کند. جستجو داده‌های آموزشی را تولید می‌کند. پس به یاد داشته باشید که چگونه درباره تولید چندین راه حل ممکن توسط جستجو صحبت کردیم. خوب، آن راه حل‌ها به همراه بازخورد از مشاوره‌های داخلی یا خارجی به داده‌های آموزشی با ارزش برای هوش مصنوعی تبدیل می‌شوند. این را مانند دانش‌آموزی در نظر بگیرید که برای یک امتحان تمرین می‌کند. آن‌ها ممکن است سعی کنند مشکلات تمرینی مختلفی را حل کنند، بازخوردی در مورد پاسخ‌هایشان بگیرند و از اشتباهات خود یاد بگیرند. هر تلاش، صرف‌نظر از اینکه موفق باشد یا نه، اطلاعات با ارزشی فراهم می‌کند که در واقع به آن‌ها کمک می‌کند یاد بگیرند و پیشرفت کنند. حالا ما دو روش اصلی یادگیری داریم و مقاله بر روی دو روش اصلی که ممکن است 01 استفاده کند تمرکز دارد.

در طول این جستجو، داده‌های تولید شده، شماره یک روش‌های گرادیان سیاست مانند Po هستند و این روش‌ها کمی پیچیده‌تر هستند اما ایده اصلی این است که هوش مصنوعی سیاست داخلی خود را که استراتژی انتخاب اقداماتش است بر اساس پاداشی که به دست می‌آورد تنظیم می‌کند. اقدامات منجر به پاداش‌های بالا بیشتر احتمال وقوع دارند، در حالی که اقدامات منجر به پاداش‌های پایین کمتر احتمال وقوع دارند. این شبیه به تنظیم دقیق فرآیند تصمیم‌گیری هوش مصنوعی بر اساس تجربیات خود است. سپس ما Po داریم که به‌طور اساسی بهینه‌سازی سیاست نزدیک است که یک روش محبوب گرادیان سیاست است که به خاطر ثبات و کارایی خود شناخته شده است. این مانند داشتن یک روش دقیق و منظم برای به‌روزرسانی استراتژی هوش مصنوعی است و اطمینان حاصل می‌کند که این تغییرات به‌طور ناگهانی در پاسخ به هر تجربه‌ای تغییر نکند. سپس البته در اینجا کپی‌برداری رفتاری را داریم که یک روش ساده‌تر است که در آن هوش مصنوعی یاد می‌گیرد که راه‌حل‌های موفق را تقلید کند. این شبیه به یادگیری از طریق تقلید است.

یک راه‌حل واقعاً خوب پیدا می‌کند، راه‌حلی که پاداش بالایی را به همراه دارد. هوش مصنوعی می‌تواند یاد بگیرد که آن راه‌حل را در شرایط مشابه کپی کند. این مانند این است که یک دانش‌آموز با مطالعه یک مثال حل‌شده، حل یک معمای ریاضی را یاد بگیرد. مقاله پیشنهاد می‌کند که هوش مصنوعی ممکن است از الگوی رفتاری برای یادگیری از بهترین راه‌حل‌های یافته‌شده در طول جستجو استفاده کند و به‌طور مؤثری آن‌ها را به مکتب‌خانه استراتژی‌های موفق خود اضافه کند یا می‌تواند به‌عنوان یک روش اولیه برای گرم‌کردن مدل قبل از استفاده از روش‌های پیچیده‌تر مانند “پو” استفاده شود. حالا، البته ما جستجو و یادگیری تکراری داریم و قدرت واقعی این رویکرد از ترکیب جستجو و به‌طور طبیعی یادگیری در یک حلقه تکراری به‌دست می‌آید. بنابراین، هوش مصنوعی به دنبال راه‌حل‌ها می‌گردد، از نتایج یاد می‌گیرد و سپس از دانش بهبود یافته خود برای انجام جستجوهای بهتر در آینده استفاده می‌کند. این شبیه به یک چرخه مداوم از تمرین، بازخورد و بهبود است و مقاله پیشنهاد می‌کند که این پیشرفت تکراری کلید توانایی هوش مصنوعی برای دستیابی به عملکرد فرابشری در برخی از وظایف با جستجوی مداوم است.

با توجه به اینکه چگونه هوش مصنوعی کار می‌کند و حالا که اصول اولیه چهار پیشران کلیدی را می‌دانید، آیا فکر می‌کنید به هوش فوق‌العاده نزدیک هستیم؟ بعد از خواندن این مقاله تحقیقاتی و درک جزئیات کلیدی درباره چگونگی عملکرد اوون، فکر می‌کنم واقعا می‌فهمم چرا جامعه بزرگ‌تر هوش مصنوعی می‌گوید هوش فوق‌العاده چندان دور نیست. اگر یک هوش مصنوعی بتواند به دنبال راه‌حل‌ها بگردد، از آن نتایج یاد بگیرد و از آن دانش بهبود یافته برای انجام جستجوهای بهتر در آینده استفاده کند، داشتن یک چرخه مداوم از تمرین، بازخورد و بهبود برای دستیابی به عملکرد فراتر از انسان در نظری امکان‌پذیر خواهد بود. پس شاید هوش فوق‌العاده مصنوعی چندان دور نباشد. دوست دارم نظرات شما را بدانم و امیدوارم شما نیز فکری داشته باشید.

دیدگاهتان را بنویسید لغو پاسخ