آخرین مدل آنتروپیک می تواند گتسبی بزرگ را به عنوان ورودی انتخاب کند

از لحاظ تاریخی و حتی امروز، حافظه ضعیف مانعی برای سودمندی هوش مصنوعی تولید متن بوده است. همانطور که یک قطعه اخیر در The Atlantic به درستی بیان می کند، حتی هوش مصنوعی متنی پیچیده مانند ChatGPT نیز خاطره ماهی قرمز را دارد. هر بار که مدل پاسخی ایجاد می‌کند، فقط مقدار بسیار محدودی از متن را در نظر می‌گیرد – مثلاً از خلاصه‌نویسی یک کتاب یا بررسی یک پروژه کدگذاری اصلی جلوگیری می‌کند.

اما آنتروپیک در تلاش است تا آن را تغییر دهد.

امروز، استارت‌آپ تحقیقاتی هوش مصنوعی اعلام کرد که پنجره زمینه را برای کلود – مدل شاخص هوش مصنوعی تولید متن که هنوز در حال پیش‌نمایش است – از 9000 توکن به 100000 توکن گسترش داده است. پنجره زمینه به متنی اشاره می‌کند که مدل قبل از تولید متن اضافی در نظر می‌گیرد، در حالی که نشانه‌ها متن خام را نشان می‌دهند (مثلاً کلمه “فانتزی” به نشانه‌های “fan”، “tas” و “tic” تقسیم می‌شود).

پس دقیقاً چه اهمیتی دارد؟ خوب، همانطور که قبلا اشاره شد، مدل‌هایی با پنجره‌های زمینه کوچک تمایل دارند محتوای مکالمه‌های بسیار اخیر را «فراموش کنند» و آنها را به دور شدن از موضوع سوق می‌دهد. پس از چند هزار کلمه یا بیشتر، آنها همچنین دستورالعمل های اولیه خود را فراموش می کنند، در عوض رفتار خود را از آخرین اطلاعات در پنجره زمینه خود به جای درخواست اصلی برون یابی می کنند.

با توجه به مزایای پنجره‌های زمینه بزرگ، جای تعجب نیست که کشف راه‌هایی برای گسترش آنها به کانون اصلی آزمایشگاه‌های هوش مصنوعی مانند OpenAI تبدیل شده است که یک تیم کامل را به این موضوع اختصاص داده است. GPT-4 OpenAI از نظر اندازه پنجره های زمینه، تاج قبلی را حفظ کرد، و وزن آن 32000 توکن در سطح بالا بود – اما API بهبود یافته Claude از آن گذشته است.

با یک «حافظه» بزرگتر، کلود باید بتواند به طور نسبتاً منسجمی برای ساعت ها – حتی چندین روز – به جای چند دقیقه مکالمه کند. و شاید مهمتر از آن، کمتر احتمال دارد که از ریل خارج شود.

در یک پست وبلاگ، Anthropic مزایای دیگر پنجره زمینه افزایش یافته کلود، از جمله توانایی مدل برای هضم و تجزیه و تحلیل صدها صفحه از مواد را تبلیغ می کند. آنتروپیک می‌گوید فراتر از خواندن متون طولانی، کلود ارتقا یافته می‌تواند به بازیابی اطلاعات از چندین سند یا حتی یک کتاب کمک کند و به سؤالاتی که نیاز به «ترکیب دانش» در بسیاری از بخش‌های متن دارند، پاسخ دهد.

Anthropic چند مورد استفاده احتمالی را فهرست می کند:

هضم، خلاصه و توضیح اسنادی مانند صورتهای مالی یا مقالات تحقیقاتی
تجزیه و تحلیل ریسک ها و فرصت های یک شرکت بر اساس گزارش های سالانه آن
ارزیابی جوانب مثبت و منفی یک قانون
شناسایی خطرات، مضامین و اشکال مختلف استدلال در اسناد حقوقی.
خواندن صدها صفحه از مستندات توسعه‌دهنده و ارائه پاسخ به سؤالات فنی
نمونه سازی سریع با انداختن یک پایگاه کد کامل در زمینه و ایجاد یا اصلاح هوشمندانه بر روی آن

آنتروپیک ادامه می‌دهد: «یک فرد متوسط می‌تواند 100000 نشانه متن را در حدود پنج ساعت بخواند، و پس از آن ممکن است به زمان بیشتری برای هضم، به خاطر سپردن و تجزیه و تحلیل آن اطلاعات نیاز داشته باشد. کلود اکنون می تواند این کار را در کمتر از یک دقیقه انجام دهد. به عنوان مثال، ما کل متن گتسبی بزرگ را در کلود بارگذاری کردیم و یک خط را اصلاح کردیم تا بگوییم آقای کاراوی یک مهندس نرم افزار است که در آنتروپیک روی ابزارهای یادگیری ماشین کار می کند. وقتی از مدل خواستیم تفاوت را تشخیص دهد، در 22 ثانیه پاسخ صحیح را داد.

اکنون، پنجره‌های زمینه طولانی‌تر، دیگر چالش‌های مرتبط با حافظه را در مورد مدل‌های زبان بزرگ حل نمی‌کنند. کلود، مانند بسیاری از مدل های کلاس خود، نمی تواند اطلاعات را از یک جلسه به جلسه دیگر حفظ کند. و برخلاف مغز انسان، هر بخش از اطلاعات را به همان اندازه مهم تلقی می‌کند و آن را به راوی غیرقابل اعتمادی تبدیل می‌کند.

برخی از کارشناسان بر این باورند که حل این مشکلات نیازمند معماری های مدل کاملاً جدید است. با این حال، در حال حاضر، به نظر می رسد آنتروپیک در خط مقدم است.