lắp mạng viettel

Kết quả huấn luyện trợ lý AI tiếng Việt của Viettel Solutions và Nvidia

Nội dung bài viết


Viettel Solutions và Nvidia chia sẻ miễn phí bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt cho cộng đồng nghiên cứu và phát triển AI Việt Nam.

Bộ dữ liệu được công bố trên trang chia sẻ công nghệ của Nvidia nhằm tạo nền tảng cho sự phát triển mạnh mẽ của các mô hình ngôn ngữ lớn (Large Language Models – LLM) Tiếng Việt.

Sản phẩm là thành quả hợp tác đầu tiên giữa Viettel Solutions và Nvidia. Các kỹ của Viettel Solution trực tiếp thu thập, xử lý dữ liệu từ các nguồn khác nhau, chuẩn hóa, phân loại, làm sạch và tổng hợp. Quá trình này có sự hỗ trợ của nền tảng NeMo Framework và hạ tầng tính toán GPU do Nvidia cung cấp.





Đội ngũ phát triển của Viettel Solutions. Ảnh: Thu Hà

Đội ngũ phát triển của Viettel Solutions. Ảnh: Thu Hà

Hiện nay, các trợ lý AI được phát triển dựa trên các mô hình LLM nhưng chủ yếu được huấn luyện trên các bộ dữ liệu tiếng Anh. Do đó, bộ dữ liệu của Viettel Solutions và Nvidia có thể giúp các ứng dụng AI phù hợp hơn với người Việt và mở ra nhiều tiềm năng phát triển cho cộng đồng trí tuệ nhân tạo Việt Nam.

Đại diện Viettel cho biết, quá trình hợp tác với Nvidia giúp doanh nghiệp xây dựng dữ liệu sạch hơn, mô hình tốt hơn khi loại bỏ dữ liệu trùng lặp và không phù hợp. Dữ liệu tinh gọn hơn cũng giúp quá trình huấn luyện nhanh gấp 4 lần.

Đội ngũ phát triển của Viettel Solutions cũng sử dụng công cụ NeMo Curator, thư viện được thiết kế riêng cho việc xử lý dữ liệu cho AI tạo sinh như tiền huấn luyện mô hình ngôn ngữ nền tảng, tiền huấn luyện thích ứng miền (DAPT), tinh chỉnh có giám sát (SFT) và tinh chỉnh hiệu quả tham số (PEFT). Công cụ này hỗ trợ tăng tốc quản lý dữ liệu bằng cách tận dụng GPU với Dask và RAPIDS, giúp tiết kiệm thời gianđáng kể.

“Nhờ sử dụng tài nguyên phần cứng và thư viện NeMo, chúng tôi đã xử lý cùng lúc hơn 500GB dữ liệu text, tương đương 120 triệu văn bản, 135 tỷ tokens. Những thành tựu này mở ra nhiều tiềm năng phát triển cho cộng đồng AI Việt Nam”, đại diện Viettel Solutions nói thêm.





Đội ngũ Viettel Solutions sẽ phát triển bộ dữ liệu tiếng Việt đa dạng hơn. Ảnh: Thu Hà

Đội ngũ Viettel Solutions sẽ phát triển bộ dữ liệu tiếng Việt đa dạng hơn. Ảnh: Thu Hà

Thành quả giữa Viettel Solutions và Nvidia là bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt chất lượng cao đầu tiên được công bố, công khai toàn bộ mã nguồn xử lý, đóng góp cho cộng đồng nghiên cứu, phát triển và huấn luyện AI. Trong tương lai, hai đơn vị sẽ tiếp tục bổ sung thêm các nguồn dữ liệu mới, đảm bảo bộ dữ liệu Tiếng Việt đa dạng hơn về chủ đề và chuẩn xác, sâu sắc hơn về nội dung.

Ngoài ra, Viettel Solutions và Nvidia cũng hướng đến việc xây dựng các bộ dữ liệu chuyên biệt phục vụ phát triển trợ lý AI trong các lĩnh vực quan trọng như y tế, giáo dục, thương mại, hành chính công, đồng thời, tiếp tục hợp tác phát triển các công cụ, công nghệ AI theo hướng mở, thúc đẩy sự phát triển của cộng đồng nghiên cứu AI tại Việt Nam.

Bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt cũng góp phần khẳng định tầm nhìn chiến lược chung của cả Viettel Solutions và Nvidia: Đưa Việt Nam trở thành một AI Hub, nơi các trí tuệ nhân tạo tiên tiến nhất được nghiên cứu phát triển và ứng dụng rộng rãi.

Trước đó, Viettel và Nvidia đã thiết lập mối quan hệ hợp tác chiến lược về AI, mở đầu cho các hoạt động nghiên cứu, ứng dụng tại Việt Nam từ năm 2022. Mới đây, ngày 5/12, Chính phủ Việt Nam và Nvidia tiếp tục ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của Nvidia và Trung tâm Dữ liệu AI của Viettel.

Trần Long


Bài viết Liên Quan

CÁP QUANG VIETTEL

NỔI BẬT

BÀI VIẾT MỚI

ĐĂNG KÝ MẠNG VIETTEL

Đánh giá:
5/5
Contact Me on Zalo

TỐC ĐỘ

NHÂN ĐÔI

GIÁ KHÔNG ĐỔI

MODEN WIFI SIÊU TỐC ĐỘ