تاریخ انتشار : چهارشنبه 29 شهریور 1402 - 15:12
110 بازدید
کد خبر : 208879

Google Gemini جهان را می خورد!

Google Gemini جهان را می خورد!

  به گزارش بای رپورتاژ پلتفرم انتشار رپورتاژ و به نقل از نیمه تحلیلی قبل از کووید، گوگل مدل MEENA را منتشر کرد که برای مدت کوتاهی بهترین مدل زبان بزرگ در جهان بود. وبلاگ و مقاله ای که گوگل نوشت فوق العاده زیبا بود، زیرا به طور خاص با OpenAI مقایسه می شد. در

 

به گزارش بای رپورتاژ پلتفرم انتشار رپورتاژ و به نقل از نیمه تحلیلی قبل از کووید، گوگل مدل MEENA را منتشر کرد که برای مدت کوتاهی بهترین مدل زبان بزرگ در جهان بود. وبلاگ و مقاله ای که گوگل نوشت فوق العاده زیبا بود، زیرا به طور خاص با OpenAI مقایسه می شد.

در مقایسه با یک مدل مولد پیشرفته موجود، OpenAI GPT-2، مینا ۱.۷ برابر ظرفیت مدل بیشتری دارد و بر روی ۸.۵ برابر داده های بیشتر آموزش دیده است.

 

این مدل برای آموزش به بیش از ۱۴ برابر FLOPS GPT-2 نیاز داشت، اما این تا حد زیادی بی ربط بود زیرا تنها چند ماه بعد OpenAI GPT-3 را حذف کرد، که > 65 برابر پارامترهای بیشتر و > 60 برابر تعداد توکن ها، > 4000 برابر FLOPS بیشتر بود. . تفاوت عملکرد بین این دو مدل بسیار زیاد بود.

 

مدل MEENA یک یادداشت داخلی توسط Noam Shazeer با عنوان “MEENA Eats The World” را منتشر کرد. در این یادداشت، او بسیاری از چیزهایی را که بقیه جهان پس از انتشار ChatGPT از خواب بیدار شدند، پیش بینی کرد. نکات کلیدی این بود که مدل های زبانی به طرق مختلف به طور فزاینده ای در زندگی ما ادغام می شوند و بر آنها مسلط می شوند. نوام هنگام نوشتن این مطلب بسیار جلوتر از زمان خود بود، اما بیشتر توسط تصمیم گیرندگان کلیدی نادیده گرفته شد و یا حتی به آن خندیدند.

 

بیایید به این موضوع بپردازیم که نوام واقعا چقدر از زمان خود جلوتر بود. او بخشی از تیمی بود که مقاله اصلی Transformer را با عنوان “توجه تنها چیزی است که نیاز دارید” را انجام داد. او همچنین بخشی از اولین مقاله مدرن Mixture of Experts، Switch Transformer، Image Transformer و عناصر مختلف LaMDA و PalM بود. یکی از ایده‌های سال ۲۰۱۸ که او هنوز اعتبار بیشتری برای آن به دست نیاورده، رمزگشایی حدسی است که در اینجا در توضیح انحصاری خود درباره GPT-4 توضیح دادیم. رمزگشایی حدسی هزینه استنتاج را چندین برابر کاهش می دهد.

 

نکته اینجاست که گوگل تمام کلیدهای پادشاهی را در اختیار داشت، اما آنها این کیسه را زیر و رو کردند. جمله ای که برای همه آشکار است.

 

بیانیه ای که ممکن است واضح نباشد این است که غول خفته، گوگل از خواب بیدار شده است و آنها با سرعتی تکرار می کنند که کل FLOPS های پیش تمرینی GPT-4 را تا قبل از پایان سال ۵ برابر خواهد کرد. با توجه به ساخت زیرساخت فعلی آنها، مسیر تا پایان سال آینده تا ۲۰ برابر روشن است. اینکه آیا گوگل می‌تواند این مدل‌ها را بدون خنثی کردن خلاقیت یا مدل کسب‌وکار موجودشان به صورت عمومی منتشر کند، بحث متفاوتی است.

 

امروز می‌خواهیم درباره سیستم‌های آموزشی Google برای Gemini، سرعت تکرار برای مدل‌های Gemini، سطح شیب‌دار Viperfish Google (TPUv5)، رقابت‌پذیری Google در آینده در برابر دیگر آزمایشگاه‌های مرزی، و جمعیتی که GPU-Poor نامیده‌ایم، بحث کنیم.

 

GPU-Rich

دسترسی به محاسبات یک توزیع دووجهی است. تعداد انگشت شماری از شرکت ها با ۲۰k+ پردازنده گرافیکی A/H100 وجود دارند، و محققان فردی می توانند به ۱۰۰ یا ۱۰۰۰ واحد گرافیکی برای پروژه های حیوانات خانگی دسترسی داشته باشند. در میان این افراد، محققان OpenAI، Google، Anthropic، Inflection، X و Meta هستند که بالاترین نسبت منابع محاسباتی را به محققان خواهند داشت. تعداد کمی از شرکت های فوق و همچنین چندین شرکت چینی تا پایان سال آینده ۱۰۰۰۰۰+ خواهند شد، اگرچه ما از نسبت محققان در چین مطمئن نیستیم، فقط حجم GPU.

یکی از خنده‌دارترین روندهایی که در منطقه خلیج می‌بینیم، این است که محققان برتر ML درباره تعداد GPUهایی که دارند یا به زودی به آنها دسترسی خواهند داشت، لاف می‌زنند. در واقع، این موضوع در ۴ ماه گذشته آنقدر فراگیر شده است که به یک مسابقه اندازه گیری تبدیل شده است که مستقیماً بر جایی که محققان برتر تصمیم می گیرند تأثیر می گذارد. متا، که دومین پردازنده گرافیکی H100 را در جهان خواهد داشت، به طور فعال از آن به عنوان یک تاکتیک استخدام استفاده می کند.

 

GPU-Poor

سپس تعداد زیادی از استارتاپ ها و محققان منبع باز وجود دارند که با پردازنده های گرافیکی بسیار کمتری دست و پنجه نرم می کنند. آنها زمان و تلاش قابل توجهی را صرف تلاش برای انجام کارهایی می کنند که به سادگی کمکی نمی کند یا رک و پوست کنده، مهم است. به عنوان مثال، بسیاری از محققان ساعت‌های بیشماری را برای تنظیم دقیق مدل‌هایی با پردازنده‌های گرافیکی که VRAM کافی ندارند، صرف می‌کنند. این یک استفاده بسیار معکوس از مهارت ها و زمان آنهاست.

 

این استارت‌آپ‌ها و محققان منبع باز از LLM‌های بزرگ‌تر برای تنظیم دقیق مدل‌های کوچک‌تر برای معیارهای سبک رهبران با روش‌های ارزیابی شکسته استفاده می‌کنند که به جای دقت یا سودمندی، تأکید بیشتری بر سبک دارد. آنها عموماً از این موضوع که مجموعه داده‌های پیش‌آموزشی و داده‌های IFT باید برای مدل‌های باز کوچک‌تر به طور قابل‌توجهی بزرگ‌تر/کیفیت‌تر باشد تا در حجم‌های کاری واقعی بهبود یابد، بی‌اطلاع هستند.

 

بله، کارآمد بودن با پردازنده‌های گرافیکی بسیار مهم است، اما از بسیاری جهات، این موضوع توسط ضعیف‌های GPU نادیده گرفته می‌شود. آنها به کارایی در مقیاس اهمیت نمی دهند و زمان آنها به طور سازنده صرف نمی شود. کاری که می‌توان به صورت تجاری در محیط ضعیف GPU آنها انجام داد، بیشتر به دنیایی که تا پایان سال آینده توسط بیش از ۳.۵ میلیون H100 زیر آب می‌رود، بی‌ربط است. برای یادگیری، آزمایش، پردازنده‌های گرافیکی ضعیف‌تر بازی کوچک‌تر خوب هستند.

 

GPU های ضعیف هنوز هم بیشتر از مدل های متراکم استفاده می کنند، زیرا متا با مهربانی در سری مدل های LLAMA این کار را انجام داد. بدون لطف خداوند زاک، اکثر پروژه های منبع باز حتی بدتر خواهند بود. اگر آنها واقعاً نگران کارایی بودند، به خصوص در سمت مشتری، معماری‌های مدل پراکنده مانند MoE را اجرا می‌کردند، روی این مجموعه داده‌های بزرگ‌تر آموزش می‌دادند، و رمزگشایی گمانه‌زنی مانند Frontier LLM Labs (OpenAI، Anthropic، Google Deepmind) را پیاده‌سازی می‌کردند.

 

افراد مستضعف باید بر روی مبادلاتی تمرکز کنند که عملکرد مدل یا تأخیر توکن به توکن را با افزایش نیازهای محاسباتی و ظرفیت حافظه به نفع کاهش پهنای باند حافظه بهبود می‌بخشد، زیرا این همان چیزی است که لبه به آن نیاز دارد. آنها باید بر روی ارائه کارآمد چندین مدل تنظیم دقیق در زیرساخت های مشترک بدون پرداخت جریمه های هولناک هزینه های اندازه های کوچک متمرکز شوند. در عوض، آنها به طور مداوم بر روی محدودیت های ظرفیت حافظه یا کمی کردن بیش از حد تمرکز می کنند در حالی که چشمان خود را در مورد کاهش کیفیت واقعی می پوشانند.

 

به طور کلی، ارزیابی مدل در یک مماس جزئی، شکسته می شود. در حالی که در دنیای بسته تلاش زیادی برای بهبود این امر وجود دارد، سرزمین معیارهای باز بی معنی است و تقریباً هیچ فایده ای را اندازه گیری نمی کند. به دلایلی یک وسواس ناسالم در مورد ارتقاء تابلوی امتیازات LLM ها و الگوبرداری از نام های احمقانه برای مدل های بی فایده وجود دارد (WizardVicunaUncensoredXPlusPlatypus). امیدواریم تلاش‌های باز به سمت ارزیابی‌ها، رمزگشایی گمانه‌زنی، MoE، داده‌های باز IFT و مجموعه داده‌های پیش‌آموزشی تمیز با بیش از ۱۰ تریلیون توکن هدایت شود، در غیر این صورت، هیچ راهی برای منبع باز برای رقابت با غول‌های تجاری وجود ندارد.

 

در حالی که ایالات متحده و چین می توانند به رقابت ادامه دهند، استارت آپ های اروپایی و ابررایانه های تحت حمایت دولت مانند ژول ورن نیز کاملاً غیررقابتی هستند. اروپا به دلیل عدم توانایی سرمایه گذاری های کلان و انتخاب ضعیف ماندن در GPU از این رقابت عقب خواهد ماند. حتی چندین کشور خاورمیانه در حال سرمایه‌گذاری بیشتر بر روی ایجاد زیرساخت‌های مقیاس بزرگ برای هوش مصنوعی هستند.

 

با این حال، ضعیف بودن GPU فقط به استارت آپ های ضعیف محدود نمی شود. برخی از شناخته‌شده‌ترین شرکت‌های هوش مصنوعی، HuggingFace، Databricks (MosaicML) و Together نیز بخشی از این گروه ضعیف از GPU هستند. در واقع، آنها ممکن است از نظر تعداد محققین کلاس جهانی به ازای هر GPU و تعداد GPUها در مقابل جاه طلبی/تقاضای مشتری بالقوه، ضعیف ترین گروه های GPU باشند. آنها محققان درجه یک جهانی دارند، اما همه آنها با کار بر روی سیستم هایی با قابلیت های بزرگتر محدود می شوند. این شرکت‌ها برای آموزش مدل‌های واقعی و به‌طور سفارشی هزاران H100 ورودی فوق‌العاده‌ای از شرکت‌ها دارند، اما این برای تصاحب بخش زیادی از بازار کافی نیست.

 

انویدیا ناهار خود را با چندین برابر بیشتر پردازنده گرافیکی در سرویس DGX Cloud خود و ابررایانه های مختلف داخلی می خورد. DGX Cloud انویدیا مدل‌های از پیش آموزش‌دیده، چارچوب‌هایی برای پردازش داده‌ها، پایگاه‌های داده برداری و شخصی‌سازی، موتورهای استنتاج بهینه‌شده، APIها و پشتیبانی کارشناسان NVIDIA را ارائه می‌کند تا به شرکت‌ها کمک کند مدل‌ها را برای موارد استفاده سفارشی خود تنظیم کنند. این سرویس همچنین چندین شرکت بزرگتر را از شرکت‌های عمودی مانند SaaS، بیمه، تولید، داروسازی، نرم‌افزار بهره‌وری و خودرو جذب کرده است. در حالی که همه مشتریان اعلام نشده اند، حتی لیست عمومی Amgen، Adobe، CCC، ServiceNow، Accenture، AstraZeneca، Getty Images، Shutterstock، Morningstar، Evozyne، Insilico Medicine، Quantiphi، InstaDeep، Oxford Nanopore، Peptone، Relation Therapeutics، ALCHEMAB و Runway بسیار چشمگیر است.

 

این لیست بسیار طولانی تر از سایر بازیکنان است و انویدیا شراکت های فاش نشده دیگری نیز دارد. برای روشن بودن، درآمد حاصل از این مشتریان اعلام‌شده سرویس ابری DGX انویدیا ناشناخته است، اما با توجه به حجم هزینه‌های ابری انویدیا و ساخت ابررایانه داخلی، به نظر می‌رسد که خدمات بیشتری را می‌توان از Cloud انویدیا خریداری کرد تا HuggingFace، Together. و Databricks می توانند امیدوار به ارائه، ترکیبی باشند.

 

چند صد میلیونی که HuggingFace و Together جمعاً جمع‌آوری کرده‌اند به این معنی است که از نظر پردازنده گرافیکی ضعیف خواهند ماند و در گرد و غبار رها می‌شوند زیرا نمی‌توانند N-1 LLM را آموزش دهند که می‌تواند به عنوان پایه‌ای برای تنظیم دقیق برای مشتریان باشد. این بدان معنی است که آنها در نهایت نمی توانند سهم بالایی را در شرکت هایی که به هر حال می توانند به سرویس انویدیا دسترسی داشته باشند، بدست آورند.

 

HuggingFace به طور خاص یکی از بزرگ‌ترین نام‌ها در صنعت را دارد، و آنها باید از آن برای سرمایه‌گذاری بسیار زیاد و ساخت مدل‌ها، سفارشی‌سازی و قابلیت‌های استنتاج بسیار بیشتر استفاده کنند. دور اخیر آنها با ارزش بسیار بالایی انجام شد تا سرمایه‌گذاری لازم برای رقابت را به دست آورند. تابلوهای امتیازات HuggingFace نشان می‌دهند که چقدر واقعاً نابینا هستند زیرا به طور فعال به جنبش منبع باز آسیب می‌زنند و آن را فریب می‌دهند تا دسته‌ای از مدل‌ها را ایجاد کنند که برای استفاده واقعی بی‌فایده هستند.

 

Databricks (MosaicML) با توجه به داده ها و اتصالات سازمانی خود حداقل ممکن است به عقب برسند. مسئله این است که اگر می‌خواهند به بیش از ۷۰۰۰ مشتری خود امیدوار باشند، باید چندین برابر خرج را تسریع کنند. خرید ۱.۳ میلیارد دلاری MosaicML یک شرط بزرگ برای این عمودی بود، اما آنها همچنین باید مقدار مشابهی پول را به زیرساخت ها اختصاص دهند. متأسفانه برای Databricks، آنها نمی توانند برای GPU ها به صورت اشتراکی پرداخت کنند. آنها باید یک پیشنهاد بزرگ از طریق دور خصوصی/IPO آینده خود انجام دهند و از آن پول نقد سرد برای افزایش چهار برابری سخت افزار استفاده کنند.

 

بحث اقتصادی بر سر زبان ها افتاده است زیرا آنها باید قبل از اینکه مشتریان بیایند بسازند، زیرا انویدیا در خدمت آنها پول می اندازد. برای روشن بودن، بسیاری از مردم در حال خرید حجم زیادی از محاسبات هستند و پول خود را پس نمی‌گیرند (کوهره، عربستان سعودی، امارات)، اما این یک پیش نیاز برای رقابت است.

 

شرکت‌های آموزشی و استنتاجی (Databricks، HuggingFace و Together) در پشت رقبای اصلی خود قرار دارند، که اتفاقاً تقریباً منبع تمام محاسبات آنها نیز بوده است. بزرگ‌ترین اپراتور بعدی مدل‌های سفارشی، APIهای تنظیم دقیق OpenAI هستند.

 

نکته کلیدی در اینجا این است که همه از متا گرفته تا مایکروسافت تا استارت آپ ها به سادگی به عنوان خط لوله ای از سرمایه به حساب بانکی انویدیا خدمت می کنند.

 

آیا کسی می تواند ما را از بردگی Nvidia نجات دهد؟

 

بله، یک ناجی بالقوه وجود دارد.

 

گوگل – محاسباتی ترین شرکت در جهان

در حالی که گوگل از پردازنده‌های گرافیکی داخلی و همچنین تعداد قابل توجهی فروخته شده از طریق GCP استفاده می‌کند، آن‌ها تعدادی Ace در آستین دارند. اینها شامل Gemini و تکرار بعدی است که قبلاً آموزش را آغاز کرده است. مهمترین مزیت آنها زیرساخت کارآمد بی نظیر آنهاست.

قبل از ورود به Gemini و تجارت ابری آنها، ما برخی از نقاط داده را در مورد ساختار دیوانه کننده آنها به اشتراک خواهیم گذاشت. نمودار زیر مجموع تراشه های پیشرفته اضافه شده بر اساس سه ماهه را نشان می دهد. در اینجا ما به OpenAI همه مزایای شک را می دهیم. تعداد کل پردازنده‌های گرافیکی آنها در طول ۲ سال ۴ برابر خواهد شد. برای Google، کل ناوگان موجود TPUv4 (Pufferfish)، TPUv4 lite، و پردازنده‌های گرافیکی داخلی مورد استفاده را نادیده می‌گیریم. علاوه بر این، ما TPUv5e (lite) را نیز در نظر نمی گیریم، علیرغم اینکه احتمالاً ابزاری برای استنتاج مدل های زبان کوچکتر است. رشد گوگل در این نمودار تنها TPUv5 (Viperfish) است. 

برچسب ها :

ناموجود
ارسال نظر شما
مجموع نظرات : 1 در انتظار بررسی : 1 انتشار یافته : ۰
  • نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
  • نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.