هفته گذشته OpenAI، سازندهی ChatGPT، جدیدترین مدل هوش مصنوعی خود را با نام سورا (Sora) معرفی کرد که باتوجهبه دستورهای متنی، ویدئوهایی واقعگرایانه را میتواند تولید کند و از زمان معرفی، نقدهای بسیاری دربارهی آن بهوجود آمده است.
یان لیکان، دانشمند ارشد هوش مصنوعی متا، در پلتفرم ایکس نوشت: «مدلسازی متحرک دنیا با تولید پیکسلها، بیفایده و محکوم به شکست است.» لیکان معتقد است که مدل تبدیل متن به ویدئو که بسیار شایع شده، نمیتواند درنهایت همهی امکانات و ویژگیها را شامل شود. لیکان بهطور خاص با ادعاهای OpenAI مبنیبر اینکه درنهایت Sora امکان ساخت شبیهسازهای عمومی دنیای فیزیکی را فراهم میکند، مخالف است. لیکان درادامه گفت: «اگر هدف شما تولید ویدئو باشد، هیچ اشکالی ندارد؛ اما اگر هدفتان این است که بفهمید جهان چگونه کار میکند، به هدف خود نزدیک نمیشوید.» لیکان معتقد است که رویکرد مولد با مدلهای زبانی بزرگ مانند GPT-4 تا الان جوابگو بودهاند؛ چراکه متن گسسته است و تعداد محدودی نماد دارد؛ اما اگر بخواهید جهان را شبیهسازی کنید، به چیزی بسیار بیشتر از چند پارامتر نیاز خواهید داشت.
شرکت متا با همکاری لیکان روی هوش مصنوعی خود به نام V-JEPA کار میکنند که برخلاف رویکردهای فعلی که سعی میکنند هر پیکسل ازدسترفته را پیشبینی و پر کنند، توانایی دورانداختن اطلاعات پیشبینینشدنی را دارد که به بهبود آموزش و کارایی بین ۱٫۵ تا ۶ برابر منجر میشود. لیکان یکی از پدرخواندههای صریح هوش مصنوعی است و بهگفتهی خود، نگران پیشرفت روزافزون هوش مصنوعی نیست و هرگز از انتقاد از رقبای خود نمیترسد و به کار و مسیر خود ادامه خواهد داد.