شیائومی که بیشتر بهخاطر گوشیهای هوشمند، تجهیزات خانه هوشمند و اخیراً خودروهای برقیاش شناخته میشود، حالا میخواهد در حوزه پژوهش رباتیک نیز جایگاهی برای خود به دست آورد.
به گزارش گیزمو چاینا، این شرکت از Xiaomi-Robotics-0 رونمایی کرده که یک مدل متنباز بینایی-زبان-کنش با ۴.۷ میلیارد پارامتر است. این مدل برای ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات طراحی شده است و که شیائومی آنها را هسته هوش فیزیکی میداند. به گفته شیائومی، این مدل هماکنون در شبیهسازیها و آزمایشهای دنیای واقعی چندین رکورد در سطح پیشرفتهترین فناوری ثبت کرده است.
چنین مدلهای رباتیکی چرخه بسته ادراک، تصمیمگیری و اجرا را حل میکنند. یک ربات باید محیط را ببیند، بفهمد از او چه خواسته شده، برای انجام آن برنامهریزی کند و سپس آن را بهصورت روان اجرا کند. شیائومی میگوید Robotics-0 به طور خاص برای ایجاد تعادل میان درک گسترده و کنترل حرکتی ظریف طراحی شده است.

برای دستیابی به این هدف، این مدل از معماریای موسوم به Mixture-of-Transformers استفاده میکند. در این ساختار، وظایف بین دو بخش اصلی تقسیم میشوند.
بخش اول یک مدل بینایی-زبان (VLM) است که نقش مغز را ایفا میکند. این بخش آموزش دیده تا دستورهای انسانی، حتی دستورهای مبهمی مانند «لطفاً حوله را تا کن» را تفسیر کند و روابط فضایی را از ورودیهای تصویری با وضوحبالا درک کند. این قسمت مسئول تشخیص اشیا، پاسخ به پرسشهای بصری و استدلال منطقی است.
بخش دوم چیزی است که شیائومی آن را Action Expert مینامد. این بخش بر پایه یک Diffusion Transformer چندلایه ساخته شده است. بهجای تولید یک عمل در هر لحظه، این مدل چیزی به نام «Action Chunk» تولید میکند که میتوان آن را بهصورت دنبالهای از حرکات در نظر گرفت و با استفاده از تکنیکهای تطبیق جریان، دقت و نرمی حرکت را حفظ میکند.
یکی از مشکلات رایج در مدلهای بینایی-زبان-کنش این است که وقتی یاد میگیرند اعمال فیزیکی انجام دهند، بخشی از تواناییهای اولیه درک و فهم خود را از دست میدهند. شیائومی میگوید با آموزش همزمان مدل روی دادههای چندوجهی و دادههای مربوط به عمل، از بروز این مشکل جلوگیری کرده است