2025-08-23 10:34:18

Bạn sẽ thấy các mô hình nền tảng cho Humanoids liên tục sử dụng kiến trúc kiểu Hệ thống 2 + Hệ thống 1, thực sự được lấy cảm hứng từ nhận thức của con người.

Hầu hết các mô hình ngôn ngữ-hình ảnh-hành động (VLA) ngày nay được xây dựng như các hệ thống đa phương thức tập trung, xử lý nhận thức, ngôn ngữ và hành động trong một mạng duy nhất.

Cơ sở hạ tầng của Codec rất phù hợp cho điều này vì nó coi mỗi Operator như một mô-đun cách ly. Điều này có nghĩa là bạn có thể khởi động nhiều Operator song song, mỗi cái chạy mô hình hoặc nhiệm vụ của riêng mình, trong khi vẫn giữ chúng được đóng gói và phối hợp thông qua cùng một kiến trúc.

Robot và người máy nói chung thường có nhiều bộ não, trong đó một bộ điều khiển có thể xử lý thị giác, một bộ khác xử lý sự cân bằng, một bộ khác nữa thực hiện lập kế hoạch cấp cao, v.v., tất cả có thể được phối hợp thông qua hệ thống của Codec.

Mô hình nền tảng Issac GR00T N1 của Nvidia sử dụng kiến trúc hệ thống 2 + hệ thống 1 với hai mô-đun. Hệ thống 2 là một mô hình ngôn ngữ-vision ( phiên bản của PaLM hoặc tương tự, đa phương thức ) quan sát thế giới qua camera của robot và lắng nghe các hướng dẫn, sau đó lập kế hoạch ở cấp độ cao.

Hệ thống 1 là một chính sách biến đổi khuếch tán, biến kế hoạch đó thành các chuyển động liên tục trong thời gian thực. Bạn có thể nghĩ về Hệ thống 2 như một bộ não suy nghĩ và Hệ thống 1 như một bộ điều khiển cơ thể theo bản năng. Hệ thống 2 có thể đưa ra một câu lệnh như "di chuyển đến cái cốc màu đỏ, nắm lấy nó, rồi đặt nó lên kệ," và Hệ thống 1 sẽ tạo ra các quỹ đạo khớp chi tiết cho chân và tay để thực hiện từng bước một cách mượt mà.

Hệ thống 1 được đào tạo trên hàng tấn dữ liệu quỹ đạo (bao gồm các demo điều khiển từ xa của con người và dữ liệu mô phỏng vật lý )để thành thạo các chuyển động tinh vi, trong khi Hệ thống 2 được xây dựng trên một transformer với việc tiền huấn luyện từ internet (để hiểu nghĩa ).

Sự phân tách giữa lý luận và hành động này rất mạnh mẽ đối với NVIDIA. Điều này có nghĩa là GR00T có thể xử lý các nhiệm vụ dài hạn đòi hỏi kế hoạch ( nhờ vào Hệ thống 2) và cũng phản ứng ngay lập tức với những biến động ( nhờ vào Hệ thống 1).

Nếu một con robot đang mang một cái khay và ai đó va chạm vào cái khay, Hệ thống 1 có thể ngay lập tức điều chỉnh sự cân bằng thay vì chờ Hệ thống 2 chậm hơn nhận ra.

GR00T N1 là một trong những mô hình nền tảng robot đầu tiên có sẵn công khai, và nó nhanh chóng thu hút sự chú ý.

Ngay từ đầu, nó đã thể hiện kỹ năng trong nhiều nhiệm vụ mô phỏng, nó có thể nắm và di chuyển các vật thể bằng một tay hoặc hai tay, chuyển đồ vật giữa hai tay, và thực hiện các công việc nhiều bước mà không cần lập trình cụ thể cho từng nhiệm vụ. Bởi vì nó không bị ràng buộc với một hình thức cụ thể, các nhà phát triển đã cho thấy nó hoạt động trên những con robot khác nhau với những điều chỉnh tối thiểu.

Điều này cũng đúng với mô hình nền tảng của Helix (Figure ), mô hình này sử dụng loại kiến trúc này. Helix cho phép hai robot hoặc nhiều kỹ năng hoạt động, Codec có thể kích hoạt một bộ não đa tác nhân bằng cách chạy nhiều Operators chia sẻ thông tin.

Thiết kế "cái bể cách ly" này có nghĩa là mỗi thành phần có thể được chuyên môn hóa ( giống như Hệ thống 1 so với Hệ thống 2) và thậm chí được phát triển bởi các đội khác nhau, nhưng chúng có thể làm việc cùng nhau.

Đây là một phương pháp độc đáo ở chỗ Codec đang xây dựng một hệ thống phần mềm sâu để hỗ trợ trí thông minh phân tán, mô-đun, trong khi hầu hết những người khác chỉ tập trung vào chính mô hình AI.

Codec cũng tận dụng các mô hình đã được huấn luyện trước lớn. Nếu bạn đang xây dựng một ứng dụng robot trên đó, bạn có thể kết nối một mô hình OpenVLA hoặc một mô hình nền Pi Zero như một phần của Operator của bạn. Codec cung cấp các kết nối, dễ dàng truy cập vào các luồng camera hoặc API robot, vì vậy bạn không cần phải viết mã cấp thấp để lấy hình ảnh từ camera của robot hoặc gửi lệnh vận tốc đến các động cơ của nó. Tất cả đều được trừu tượng hóa phía sau một SDK cấp cao.

Một trong những lý do tôi rất lạc quan về Codec chính là những gì tôi đã nêu trên. Họ không chạy theo những câu chuyện, kiến trúc được xây dựng để là chất keo giữa các mô hình nền tảng, và nó hỗ trợ một cách trơn tru các hệ thống đa não, điều này rất quan trọng cho độ phức tạp của con người.

Vì chúng ta đang ở giai đoạn đầu của xu hướng này, nên việc nghiên cứu thiết kế của những người dẫn đầu trong ngành và hiểu lý do tại sao chúng lại hiệu quả là rất đáng giá. Robot là một lĩnh vực khó nắm bắt do có nhiều lớp giữa phần cứng và phần mềm, nhưng một khi bạn học cách phân tích từng phần một cách chi tiết, nó sẽ trở nên dễ hiểu hơn nhiều.

Có thể bây giờ bạn cảm thấy đây là một sự lãng phí thời gian, nhưng đây chính là phương pháp đã giúp tôi có lợi thế trong mùa AI và lý do tôi đã tham gia sớm vào nhiều dự án. Hãy trở nên kỷ luật và học cách những thành phần nào có thể đồng tồn tại và những thành phần nào không thể mở rộng.

Nó sẽ mang lại lợi ích trong những tháng tới.

Deca Trillions ( $CODEC ) được mã hóa.

LL1.28%

VSN-1.46%

IN-8.84%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#Token of Love: Cheer on Square & Win Tickets
24k Phổ biến
#Crypto Market Rebound
217k Phổ biến
#FOMC July Minutes
38k Phổ biến
#Show My Alpha Points
175k Phổ biến
#Crypto-Related xStocks Rally
5k Phổ biến

Ghim

sơ đồ trang web