شرکت openai به عنوان پیشرو در زمینه هوش مصنوعی شناخته میشود و البته نسخه اخیر مدلهای آن، سری o1، به مراتب پیشرفتهترین هوش مصنوعی است که در حال حاضر به آن دسترسی داریم. به طرز شگفتانگیزی، این مدل هوش مصنوعی به قدری با رمز و راز احاطه شده است که اگر روزی جسارت کنید از مدل بپرسید در حین ارائه پاسخ به چه چیزی فکر میکرده، پاسخ میدهد که هرگز سوالی مانند آن نپرسید و اگر این کار را چندین بار تکرار کنید، ممکن است از استفاده از خدمات اوپن آی محروم شوید. دلیل اینکه این موضوع تا این حد پیچیده است، به این خاطر است که این یک گام بزرگ به سمت AGI (هوش عمومی مصنوعی) است و بسیاری بر این باورند که اوپن آی احتمالاً اولین شرکتی خواهد بود که به این هدف دست مییابد. حال با این توضیحات، بسیاری علاقهمند به دانستن نحوه دقیق عملکرد این سیستم هستند و اوپن آی بیشک چندین نشر مختلف را منتشر کرده است، اما هیچیک به حدی نیست که واقعاً فهم عمیقتری از آنچه در پس پرده در حال وقوع است، به ما بدهد.
اخیراً یک مقاله تحقیقاتی از گروهی از محققان در چین منتشر شده و اکنون از خود میپرسیم آیا آنها توانستهاند کد را بشکنند؟ آیا آنها فهمیدهاند که o1 چگونه کار میکند و نقشهراهی برای ساخت چیزی مشابه ارائه دادهاند؟ پس این مقاله تحت عنوان «مقیاسگذاری جستجو و یادگیری: نقشهراهی برای بازسازی o1 از منظر یادگیری تقویتی» است و این مقاله میتواند همه چیز را تغییر دهد، زیرا اگر این موضوع درست باشد، به این معنی است که میدان بازی برابر شده و تنها مدت زمانی است که شرکتهای دیگری شروع به تولید مدلهای هوش مصنوعی خواهند کرد که در سطحی برابر با OpenAI خواهند بود. در واقع، قرار است این موضوع را به چهار بخش تقسیم کنم، اما بیایید اول اصول اولیه اینکه این هوش مصنوعی چگونه کار میکند را درک کنیم. یکی از اولین چیزهایی که داریم، یادگیری تقویتی با هوش مصنوعی است. بهطور اساسی میتوانیم از یک تشبیه بازی استفاده کنیم: فرض کنید در حال تلاش برای آموزش یک سگ هستید. شما به این سگ یک خوراکی و پاداش میدهید وقتی که کار خاصی را انجام میدهد.
و سپس یاد میگیرد تا آن اقدامات را تکرار کند تا پاداشهای بیشتری بهدست آورد و این اساساً یادگیری تقویتی است. حالا با هوش مصنوعی، این سگ اساساً یک برنامه است و پاداش یک جایزه دیجیتال است و ترفند میتواند هر چیزی از پیروزی در یک بازی تا نوشتن کد باشد. حالا چرا یادگیری تقویتی برای سری ۰۱ اهمیت دارد و این به این دلیل است که به نظر میرسد Open AI معتقد است که یادگیری تقویتی کلید هوشمندتر کردن ۰۱ است. این اساساً نحوه یادگیری ۰۱ برای استدلال و حل مسائل پیچیده از طریق آزمایش و خطاست. حالا چهار ستون این موضوع طبق مقاله وجود دارد که در اینجا میتوانید مشاهده کنید. آنها نمای کلی از نحوه کارکرد ۰۱ به ما میدهند. ما سیاستگذاری اولیه را داریم که نقطه شروع مدل است. این تواناییهای استدلال اولیه مدل را با استفاده از پیشآموزش یا تنظیم دقیق راهاندازی میکند و اساساً بنیاد مدل را تشکیل میدهد. ما طراحی پاداش داریم که البته نحوه پاداشدهی به مدل است که در مورد آن صحبت کردیم. در مورد این هم بیشتر صحبت خواهم کرد.
در مورد جزئیات و البته جستجو داریم که در زمان استنباط، مدل در حال “تفکر” است، این نحوهی جستجوی مدل در بین امکانها مختلف است و البته ما یادگیری داریم و اینجا است که مدل را با تحلیل دادههای تولیدشده در طول فرایند جستجو بهبود میبخشید و سپس از تکنیکهای مختلفی مانند یادگیری تقویتی استفاده میکنید تا مدل را در طول زمان بهتر کنید و در اصل ایده مرکزی یادگیری تقویتی است. خب، و مکانیسم اصلی، این اجزا را به هم پیوند میدهد. مدل که سیاست است با محیط خود تعامل میکند، دادهها از نتایج جستجو به فرایند یادگیری منتقل میشود و سیاست بهبود یافته به جستجو بازخورد داده میشود و یک حلقه بهبود مستمر ایجاد میکند و نمودار بهطور بنیادی بر ماهیت چرخهای این فرایند تأکید میکند. جستجو دادههایی برای یادگیری تولید میکند، یادگیری سیاست را بهروزرسانی میکند و الی آخر. بنابراین اگر بخواهیم واقعاً درک کنیم که چگونه این کار میکند، باید واقعاً سیاست را درک کنیم.
اینها اصول اساسی هستند، این بنیاد مدل است. بنابراین تصور کنید که شما در حال آموزش یک نفر برای بازی یک بازی پیچیده مانند شطرنج هستید. شما در روز اول او را به یک مسابقه در برابر یک استاد بزرگ نمیفرستید، درست است؟ شما ابتدا با آموزش اصول، چگونگی حرکت قطعات، استراتژیهای اولیه و شاید برخی از حرکات ابتدایی مشترک شروع میکنید. این اساساً هدف از آغاز سیاست برای هوش مصنوعی است. اکنون در زمینه یک هوش مصنوعی قدرتمند مانند 01، آغاز سیاست در واقع فراهم کردن یک بنیاد و استدلال بسیار قوی برای هوش مصنوعی است قبل از اینکه حتی شروع به حل مسائل دشوار کند. این به تجهیز آن با مجموعهای از مهارتها و دانشهای اساسی مربوط میشود که میتواند سپس از طریق یادگیری تقویتی بر روی آن ساخت و ساز کند. مقاله پیشنهاد میکند که برای 01، این پیشرفت احتمالاً در دو مرحله اصلی اتفاق میافتد: شماره یک، پیشآموزش که ما میتوانیم آن را ببینیم، جایی که شما آن را با دادههای متنی عظیم آموزش میدهید. این را میتوان به مانند این تصور کرد که به هوش مصنوعی اجازه میدهید کل اینترنت یا حداقل بخش بزرگی از آن را بخواند.
و با انجام این کار، هوش مصنوعی یاد میگیرد که زبان چگونه کار میکند، چگونه کلمات به یکدیگر ارتباط دارند و مقدار زیادی دانش عمومی درباره جهان به دست میآورد. به آن مانند یادگیری دستور زبان، واژگان و حقایق اساسی قبل از تلاش برای نوشتن یک رمان فکر کنید. همچنین این هوش مصنوعی تواناییهای استدلالی پایهای را با آموزش بر روی این دادهها یاد میگیرد و در اینجا به نکته مهمی میرسیم که جایی است که تنظیم دقیق با دستورالعملها و استدلال انسانیمانند اتفاق میافتد. در این مرحله، ما به واقع به هوش مصنوعی درسهای خاصتری درباره چگونگی استنتاج و حل مسائل میدهیم و این شامل دو تکنیک کلیدی است که در اینجا میتوانیم مشاهده کنیم: مهندسی درخواست و تنظیم دقیق تحت نظارت. بنابراین مهندسی درخواست جایی است که اساساً شما دستورالعملها یا مثالهای دقیقی به هوش مصنوعی میدهید تا رفتار آن را هدایت کند و مقاله به رفتارهایی مانند تحلیل مشکل اشاره میکند که در آن شما مشکل را دوباره بیان میکنید تا اطمینان حاصل شود که مفهوم شده است، و تجزیه وظیفه که شامل تقسیم یک مشکل پیچیده به مراحل کوچکتر و راحتتر است.
در این مرحله به طور عملی میگویید که باید ابتدا مرحله به مرحله فکر کنید و البته با فرآیند آزادسازی تحت نظارت که در اینجا به عنوان sft شناخته میشود. این شامل آموزش هوش مصنوعی بر اساس مثالهای انسانی در حل مسائل است، به نوعی نشان دادن راه صحیح تفکر و استدلال. این میتواند شامل نشان دادن مثالهایی از کارشناسان باشد که فرآیند تفکر خود را مرحله به مرحله توضیح میدهند. در خلاصه، آغاز سیاست به معنای ارائه یک پایه محکم به هوش مصنوعی از نظر دانش زبانی و مهارتهای ابتدایی استدلال است و این کار برای موفقیت در مراحل بعدی یادگیری و حل مسائل ضروری است. این مرحله به طور کلی برای توسعه رفتارهای استدلالی مانند انسان در هوش مصنوعی بسیار حیاتی است و به آنها این امکان را میدهد که به طور سیستماتیک فکر کنند و فضاهای حل را به طور موثر جستجو کنند. مرحله بعدی به موضوع بسیار جالبی پرداخته میشود که به طراحی پاداش مربوط میشود. تصویری که در صفحه میبینید، نشاندهنده دو نوع سیستم پاداش است که در یادگیری تقویتی استفاده میشود: مدلسازی پاداش نتایج که در اینجا om نامیده میشود و سپس پروسه…
مدلسازی پاداش، که به آن PRM میگویند، واقعاً مفهوم straightforward (ساده) دارد. مدلسازی پاداش نتیجهای تنها بر اساس نتیجه نهایی ارزیابی میکند؛ بنابراین، اگر پاسخ نهایی نادرست باشد، کل راهحل به عنوان اشتباه علامتگذاری میشود، حتی اگر این مراحل در اینجا یا حتی بیشتر مراحل صحیح باشند. در این مثال، برخی مراحل واقعاً صحیح هستند، اما به دلیل اینکه خروجی نهایی نادرست است، کل آن به عنوان اشتباه علامتگذاری میشود
این رویکرد بسیار بهتر است زیرا خطاهای دقیق را در فرآیند شناسایی میکند و به جای کنار گذاشتن کل راهحل، بر روی آن تمرکز میکند و این نمودار اساساً اهمیت پاداشهای فرآیندی در وظایفی که شامل استدلال چند مرحلهای هستند را تأکید میکند زیرا این امکان را برای بهبودهای تکراری و نتایج یادگیری بهتر فراهم میآورد که اساساً آنچه را که آنها معتقدند 01 اکنون از آن استفاده میکند، شکل میدهد. حالا به جالبترین بخش میرسیم زیرا اینجا به جستجو میپردازیم و بسیاری جستجو را به عنوان چیزی که میتواند ما را به فوق هوش ببرد، ستودهاند. در واقع اخیراً توییتی دیدم که فقط بیان کرده بود، مطمئنم میتوانم آن را روی صفحه اضافه کنم. بنابراین وقتی تصمیم میگیریم این را تجزیه و تحلیل کنیم، این اساساً جایی است که ما AI را در حال فکر کردن داریم. پس میدانید، وقتی یک AI قدرتمند مانند 01 دارید، به زمان نیاز دارد تا فکر کند، امکانات مختلف را کاوش کند و بهترین راهحل را پیدا کند. این فرآیند تفکر است که مقاله به آن اشاره میکند و میگوید که یکی از راههایی که میتوانید T را بهبود ببخشید، این است که بیشتر فکر کنید.
عملکرد با تفکر بیشتر در طول استنتاج بهبود مییابد که به این معنی است که به جای تولید یک پاسخ، راهحلهای بالقوه متعددی را بررسی کرده و بهترین آنها را انتخاب میکند. به عنوان مثال، وقتی در مورد نوشتن یک مقاله فکر میکنید، فقط پیشنویس اول را نمینویسید و آن را ارسال نمیکنید؛ بلکه ایدهها را در ذهنتان مرور میکنید، چندین پیشنویس مینویسید و تا زمانی که از محصول نهایی راضی باشید، اصلاح و ویرایش میکنید و این اساساً نوعی جستجوست. بنابراین، دو استراتژی اصلی در زمینه جستجو وجود دارد و مقاله به این استراتژیها اشاره میکند که ممکن است ۰۱ در این فرآیند تفکر استفاده کند. پس در رتبه اول، ما جستجوی درختی داریم. تصور کنید یک درخت انشعابی که هر شاخه یک انتخاب مختلف یا اقدامی را نمایندگی میکند که هوش مصنوعی میتواند به طور بالقوه انجام دهد. جستجو مانند بررسی درخت و دنبال کردن مسیرهای مختلف برای دیدن این است که آنها کجا منتهی میشوند. به عنوان مثال، در یک بازی شطرنج، یک هوش مصنوعی ممکن است تمام حرکات ممکن را که میتواند انجام دهد در نظر بگیرد و سپس تمام پاسخهای ممکن حریف خود را.
یک مدل میتواند یک درخت از امکانات بسازد و سپس بر این درخت بنا کند و از نوع خاصی از معیارها برای تعیین اینکه کدام شاخه را بیشتر بررسی کند و کدام را حذف کند، استفاده میکند و بر روی امیدبخشترین مسیر تمرکز میکند. اساساً به این فکر میکند که شما کجا میروید، چه تصمیماتی میگیرید و کدام یک بهترین پاداشها را به همراه دارد. این شبیه به یک باغبان است که بهطور انتخابی شاخهها را هرس میکند تا به درخت کمک کند در جهت درستی رشد کند. یک مثال ساده از این، نمونهبرداری بهترین از n است که در آن مدل n راهحل ممکن را تولید میکند و سپس بهترین آن را بر اساس نوعی معیار انتخاب میکند. حالا در پایین سمت راست، اینجا جایی است که ما اصلاحات متوالی داریم، شبیه به نوشتن آن مقالهای که قبلاً دربارهاش صحبت کردیم. هوش مصنوعی با یک تلاش اولیه برای حل مسأله شروع میکند و سپس آن را قدم به قدم در طول مسیر اصلاح میکند و بهبود میبخشد. مثلاً یک هوش مصنوعی ممکن است یک پاسخ اولیه به یک مسأله ریاضی تولید کند و سپس کارش را بررسی کند، خطاها را شناسایی کند و سپس پاسخ خود را بر اساس آن اصلاح کند.
این مشابه ویرایش مقاله شماست که اشتباهات را شناسایی کرده و با هر بار بازبینی آن را بهتر میکند. بنابراین باید به این فکر کنید که هوش مصنوعی چگونه تصمیم میگیرد که کدام مسیرها را در جستجوی درختی بررسی کند یا حتی چگونه راهحل را در بازبینیهای پیوسته بازبینه میکند. مقاله دو نوع راهنمایی را ذکر میکند: یکی راهنمایی داخلی، که در آن هوش مصنوعی از دانش و محاسبات داخلی خود برای هدایت جستجویش استفاده میکند و مثالی از این مورد عدم اطمینان مدل است، جایی که مدل میتواند برآورد کند که در بخشهای خاصی از راهحل خود چقدر مطمئن است و ممکن است بر روی نواحی که کمتر مطمئن است، تمرکز کند و به بررسی گزینههای جایگزین یا انجام اصلاحات بپردازد. این شبیه به دوباره بررسی کار شماست زمانی که واقعا مطمئن نیستید که آیا اشتباهی مرتکب شدهاید یا نه. مثال دیگری از این مورد، ارزیابی خود است، جایی که هوش مصنوعی میتواند آموزش ببیند تا کار خود را ارزیابی کند و خطاهای بالقوه یا نواحی نیازمند بهبود را شناسایی کند.
این متن درباره وجود یک ویرایشگر داخلی صحبت میکند که نوشتههای شما را مرور و پیشنهاد تغییرات میدهد. سپس به راهنمایی خارجی اشاره میکند که مانند دریافت بازخورد از دنیای بیرون برای هدایت جستجو است. به عنوان مثال، بازخورد محیطی وجود دارد که در برخی موارد هوش مصنوعی میتواند با یک محیط واقعی یا شبیهسازی شده تعامل کند و بازخوردی درباره اقدامات خود دریافت کند. به عنوان مثال، یک روبات که در حال یادگیری برای عبور از یک هزارتو است ممکن است بازخوردی در مورد اینکه آیا به هدف نزدیکتر میشود یا از آن دورتر میرود، دریافت کند. مثالی دیگر استفاده از مدل پاداش است که قبلاً به آن اشاره کردیم. مدل پاداش میتواند بازخوردی درباره کیفیت راهحلها یا اقدامات مختلف ارائه کند و هوش مصنوعی را به سمت نتایج بهتر هدایت کند. این مانند داشتن یک معلم است که کار شما را نمرهگذاری کرده و به شما میگوید چه کاری را خوب انجام دادهاید و در کجا بهبود نیاز دارید. در نهایت، عنصر جستجو و فرآیندی که هوش مصنوعی از طریق آن امکانات مختلف را بررسی و راهحل خود را اصلاح میکند، تحت تأثیر دانش داخلی و بازخورد خارجیاش است.
این بخش یک قسمت حیاتی از چیزی است که باعث میشود 01 در وظایف پیچیده استدلال بسیار خوب باشد. بنابراین، جستجو نحوه تفکر هوش مصنوعی درباره یک مشکل است، اما چگونه در واقع به مرور زمان در حل مشکلات بهتر میشود؟ اینجاست که یادگیری وارد میشود. مقاله پیشنهاد میکند که 01 از یک تکنیک قوی به نام یادگیری تقویتی برای بهبود عملکردش استفاده میکند. جستجو دادههای آموزشی را تولید میکند. پس به یاد داشته باشید که چگونه درباره تولید چندین راه حل ممکن توسط جستجو صحبت کردیم. خوب، آن راه حلها به همراه بازخورد از مشاورههای داخلی یا خارجی به دادههای آموزشی با ارزش برای هوش مصنوعی تبدیل میشوند. این را مانند دانشآموزی در نظر بگیرید که برای یک امتحان تمرین میکند. آنها ممکن است سعی کنند مشکلات تمرینی مختلفی را حل کنند، بازخوردی در مورد پاسخهایشان بگیرند و از اشتباهات خود یاد بگیرند. هر تلاش، صرفنظر از اینکه موفق باشد یا نه، اطلاعات با ارزشی فراهم میکند که در واقع به آنها کمک میکند یاد بگیرند و پیشرفت کنند. حالا ما دو روش اصلی یادگیری داریم و مقاله بر روی دو روش اصلی که ممکن است 01 استفاده کند تمرکز دارد.
در طول این جستجو، دادههای تولید شده، شماره یک روشهای گرادیان سیاست مانند Po هستند و این روشها کمی پیچیدهتر هستند اما ایده اصلی این است که هوش مصنوعی سیاست داخلی خود را که استراتژی انتخاب اقداماتش است بر اساس پاداشی که به دست میآورد تنظیم میکند. اقدامات منجر به پاداشهای بالا بیشتر احتمال وقوع دارند، در حالی که اقدامات منجر به پاداشهای پایین کمتر احتمال وقوع دارند. این شبیه به تنظیم دقیق فرآیند تصمیمگیری هوش مصنوعی بر اساس تجربیات خود است. سپس ما Po داریم که بهطور اساسی بهینهسازی سیاست نزدیک است که یک روش محبوب گرادیان سیاست است که به خاطر ثبات و کارایی خود شناخته شده است. این مانند داشتن یک روش دقیق و منظم برای بهروزرسانی استراتژی هوش مصنوعی است و اطمینان حاصل میکند که این تغییرات بهطور ناگهانی در پاسخ به هر تجربهای تغییر نکند. سپس البته در اینجا کپیبرداری رفتاری را داریم که یک روش سادهتر است که در آن هوش مصنوعی یاد میگیرد که راهحلهای موفق را تقلید کند. این شبیه به یادگیری از طریق تقلید است.
یک راهحل واقعاً خوب پیدا میکند، راهحلی که پاداش بالایی را به همراه دارد. هوش مصنوعی میتواند یاد بگیرد که آن راهحل را در شرایط مشابه کپی کند. این مانند این است که یک دانشآموز با مطالعه یک مثال حلشده، حل یک معمای ریاضی را یاد بگیرد. مقاله پیشنهاد میکند که هوش مصنوعی ممکن است از الگوی رفتاری برای یادگیری از بهترین راهحلهای یافتهشده در طول جستجو استفاده کند و بهطور مؤثری آنها را به مکتبخانه استراتژیهای موفق خود اضافه کند یا میتواند بهعنوان یک روش اولیه برای گرمکردن مدل قبل از استفاده از روشهای پیچیدهتر مانند “پو” استفاده شود. حالا، البته ما جستجو و یادگیری تکراری داریم و قدرت واقعی این رویکرد از ترکیب جستجو و بهطور طبیعی یادگیری در یک حلقه تکراری بهدست میآید. بنابراین، هوش مصنوعی به دنبال راهحلها میگردد، از نتایج یاد میگیرد و سپس از دانش بهبود یافته خود برای انجام جستجوهای بهتر در آینده استفاده میکند. این شبیه به یک چرخه مداوم از تمرین، بازخورد و بهبود است و مقاله پیشنهاد میکند که این پیشرفت تکراری کلید توانایی هوش مصنوعی برای دستیابی به عملکرد فرابشری در برخی از وظایف با جستجوی مداوم است.
با توجه به اینکه چگونه هوش مصنوعی کار میکند و حالا که اصول اولیه چهار پیشران کلیدی را میدانید، آیا فکر میکنید به هوش فوقالعاده نزدیک هستیم؟ بعد از خواندن این مقاله تحقیقاتی و درک جزئیات کلیدی درباره چگونگی عملکرد اوون، فکر میکنم واقعا میفهمم چرا جامعه بزرگتر هوش مصنوعی میگوید هوش فوقالعاده چندان دور نیست. اگر یک هوش مصنوعی بتواند به دنبال راهحلها بگردد، از آن نتایج یاد بگیرد و از آن دانش بهبود یافته برای انجام جستجوهای بهتر در آینده استفاده کند، داشتن یک چرخه مداوم از تمرین، بازخورد و بهبود برای دستیابی به عملکرد فراتر از انسان در نظری امکانپذیر خواهد بود. پس شاید هوش فوقالعاده مصنوعی چندان دور نباشد. دوست دارم نظرات شما را بدانم و امیدوارم شما نیز فکری داشته باشید.