14/11/2025
(Tác giả: Đào Trung Thành)
Những ngày gần đây, tranh luận về tương lai của trí tuệ nhân tạo lại nóng lên khi cả "Bố già" Yann LeCun và "Chị Hai" Fei-Fei Li cùng nhấn mạnh một hạn chế căn bản: thế hệ AI hiện nay, vốn dựa chủ yếu vào mô hình ngôn ngữ (LLM), không sở hữu một world model đúng nghĩa và do đó khó có thể tiệm cận trí tuệ con người.
LeCun nói thẳng:
“LLM chỉ nhìn thế giới qua một khe cửa chữ nghĩa. Muốn đạt human-level intelligence, phải có perception, prediction và hành động trong thế giới vật lý.”
Fei-Fei Li bổ sung:
“Trí thông minh thật sự không nằm trong câu chữ mà nằm trong spatial intelligence, trong khả năng cảm nhận 3 chiều, hiểu lực, hiểu chuyển động, hiểu thế giới mà chúng ta sống trong đó.”
Đây không chỉ là tranh luận triết học. Nó phản ánh sự chuyển động của toàn ngành AI từ text-first sang world-model-first, từ thế giới ký hiệu sang thế giới vật lý, từ “AI trả lời” sang “AI hành động”.
Và trong bối cảnh ấy, có lẽ không phải ngẫu nhiên khi nội bộ Meta AI đang thay đổi mạnh. Nhiều nguồn tin cho biết Yann LeCun đang tính rời Meta, sau khi quyền điều phối nghiên cứu AI được giao cho Wang, vị CEO trẻ tài năng đang dẫn dắt chiến lược AI của Meta theo hướng thực dụng, thiên về sản phẩm và thương mại hơn là nghiên cứu nền tảng.
Khi nhà khoa học hàng đầu thế giới phải nhường chỗ cho thế hệ mới, điều đó cho thấy một điều: AI đang chuyển pha.
Điều LeCun và Fei-Fei đúng và điều họ khẳng định thì cần phải suy nghĩ thêm.
Họ đúng khi chỉ ra rằng LLM, dù mạnh đến mức nào, vẫn tồn tại khoảng trống lớn:
Không cảm nhận được thế giới,
Không tương tác,
Không trải nghiệm hậu quả,
Không có embodied intelligence,
Không hình thành được world model gắn với vật lý, không gian, thời gian và nhân quả.
Một mô hình chỉ dự đoán token kế tiếp thì giống như "quân sư quạt mo" học từ sách mà chưa từng đặt chân ra chiến trường.
Nhưng cũng phải nói rõ là LLM không còn là “vẹt thống kê” như cách đây vài năm mọi người hay nói. Chúng đã phát triển khả năng lập luận, dùng công cụ, viết code, phân tích dữ liệu, chạy workflow, hiểu causal patterns, học implicit structures của thế giới, dù không trực tiếp “nhìn” thế giới.
Nói LLM “không thể” dẫn đến AGI là một kết luận quá sớm. Nói LLM “đã là AGI” lại càng không đúng.
Sự thật nằm đâu đó ở trung đạo. LLM là bộ não ngôn ngữ, nhưng cần thêm các module cảm nhận, hành động, trí tuệ không gian, và hệ thống phản hồi để trở thành embodied AI thực thụ.
Lộ trình thật của AI: từ chữ sang thế giới qua hành động
Để nhìn rõ tương lai, ta cần khung “3 làn sóng AI”:
Làn sóng 1: AI dựa trên ngôn ngữ
GenAI, ChatGPT, Claude, Qwen, Llama…
Đây là mô hình “thư viện Alexandria”: hiểu tri thức, xử lý thông tin, tăng năng suất trí tuệ.
Làn sóng 2: AI cảm nhận thế giới (Embodied AI / Spatial Intelligence / World-Model-First)
Robot, digital twin, camera 3D, cảm biến, mô phỏng, agent học trong môi trường ảo.
Đây là nơi AI bắt đầu hiểu vật lý, lực, chuyển động, va chạm, thứ mà con người học từ những năm đầu đời.
Làn sóng 3: Agentic AI / AGI-like systems
Khi một LLM mạnh được kết hợp với world model, memory dài hạn, tool use, perception, và phản hồi từ môi trường.
Lúc đó, AI không chỉ “trả lời”, nó ra quyết định, lập kế hoạch, và hành động trong thế giới thật.
Phần quan trọng nhất: Việt Nam sẽ đứng ở đâu?
Trong ba làn sóng này, Việt Nam mới chỉ bước vào làn sóng 1.
Doanh nghiệp dùng AI để viết báo cáo, tạo nội dung, sửa văn bản và nghĩ rằng vậy là đã “ứng dụng AI”.
Trong khi thế giới đã bước sang làn sóng 2 với AI cảm nhận, AI hành động, AI điều phối vận hành nhà máy, AI tối ưu năng lượng, AI dự đoán lỗi, AI làm việc trong digital twin.
Nếu chúng ta đứng ngoài làn sóng thứ hai, thì sẽ đứng ngoài luôn làn sóng thứ ba.
AI đang chuyển từ câu chữ sang thế giới.
Vấn đề không phải là “LLM có phải AGI không”, mà là:
Liệu chúng ta đã chuẩn bị cho giai đoạn AI bắt đầu làm việc trong hạ tầng, trong nhà máy, trong y tế, trong năng lượng… hay chưa?
Đã đến lúc phải bước từ “AI viết chữ” sang “AI hiểu thế giới”.