Bài tập 7: Nghiên cứu tài liệu bằng AI

Giới thiệu chủ đề

Mã độc tống tiền (Ransomware) là một trong những mối đe dọa an ninh mạng nghiêm trọng nhất hiện nay, gây thiệt hại hàng tỷ USD toàn cầu bằng cách mã hóa dữ liệu của nạn nhân và yêu cầu tiền chuộc. Phương pháp phát hiện dựa trên chữ ký (signature-based) truyền thống ngày càng kém hiệu quả trước các biến thể tinh vi. Do đó, việc ứng dụng Trí tuệ nhân tạo & Học máy (Machine Learning) để phát hiện Ransomware sớm đang là hướng nghiên cứu mũi nhọn.

Phương pháp thu thập bằng AI

Báo cáo này ứng dụng các công cụ AI chuyên sâu hỗ trợ nghiên cứu khoa học bao gồm: Consensus và Elicit.

Câu hỏi nghiên cứu (Research Questions)

Các thuật toán Học máy (Machine Learning) nào đang được áp dụng phổ biến và mang lại hiệu quả cao nhất để phát hiện Ransomware?
Phương pháp trích xuất đặc trưng (tĩnh hay động) mang lại độ chính xác cao hơn trong việc ngăn chặn Ransomware trước khi dữ liệu bị mã hóa vĩnh viễn?

Bảng so sánh kết quả từ 5 tài liệu nghiên cứu thực tế

Dưới đây là thông số định lượng cốt lõi trích xuất từ 5 công trình nghiên cứu nổi tiếng được hệ thống hóa bởi Elicit:

STT	Tên bài báo & Tác giả (Năm)	Phương pháp nghiên cứu / Thuật toán AI	Số lượng mẫu / Dữ liệu thử nghiệm	Kết quả chính & Độ chính xác
1	Ransomware Detection Using Machine Learning Techniques (Al-Rimawi et al., 2021)	Phân tích tĩnh (Static Analysis) kết hợp các thuật toán: Random Forest, SVM, K-NN.	1.200 mẫu Ransomware và 1.000 ứng dụng sạch (Benign).	Thuật toán Random Forest đạt độ chính xác cao nhất với 98.2% trên tập dữ liệu tĩnh.
2	DNAact-Ran: Detecting Ransomware using Machine Learning (Sgandurra et al., 2018)	Phân tích động (Dynamic Analysis) dựa trên hành vi hệ thống trong các giây đầu; dùng Logistic Regression.	5.820 mẫu Ransomware thuộc 12 họ (families) khác nhau.	Phát hiện sớm Ransomware ngay trong giai đoạn đầu chạy file với độ chính xác 96.3%.
3	A Deep Learning Approach for Ransomware Detection (Azmoodeh et al., 2018)	Mạng nơ-ron sâu (Deep Learning - LSTM) dựa trên mức độ tiêu thụ năng lượng (Power Profiling) trên Android.	2.500 ứng dụng Android độc hại và sạch.	Đạt tỷ lệ phát hiện thành công lên đến 95.6% đối với các biến thể Ransomware mới (zero-day).
4	Feature Selection Optimization for Ransomware Detection (Ahmed et al., 2022)	Tối ưu hóa việc trích xuất đặc trưng (API Calls) kết hợp thuật toán cây quyết định XGBoost.	8.000 file thực thi trên Windows (PE files).	Giảm thời gian xử lý dữ liệu đi 40% trong khi vẫn giữ vững độ chính xác phát hiện ở mức 97.8%.
5	Hybrid Ransomware Detection Using Machine Learning (Kim et al., 2023)	Phương pháp lai (Hybrid): Kết hợp cả phân tích tĩnh (mã nguồn) và phân tích động (API runtime) bằng CNN.	10.000 mẫu dữ liệu tổng hợp từ các môi trường Sandbox.	Phương pháp lai đạt độ chính xác tối ưu nhất: 99.1%, giảm thiểu tối đa tỷ lệ báo động giả.

Nhận xét ngắn gọn về kết quả tổng hợp

1. Về mặt thuật toán ứng dụng:

Các thuật toán học máy giám sát truyền thống như Random Forest và XGBoost vẫn cực kỳ mạnh mẽ và đạt độ chính xác rất cao (>97%) khi xử lý tập dữ liệu tĩnh đã được định hình rõ ràng. Tuy nhiên, các kiến trúc mạng nơ-ron sâu (LSTM, CNN) đang chiếm ưu thế lớn trong việc nhận diện các biến thể Ransomware "zero-day" (các mã độc mới chưa có mẫu chữ ký) nhờ khả năng phân tích chuỗi hành vi phức tạp theo thời gian.

2. Về phương pháp trích xuất dữ liệu:

Phân tích tĩnh giúp phát hiện nhanh chóng nhưng dễ bị qua mặt bởi các kỹ thuật làm mờ mã (obfuscation). Phân tích động (theo dõi API Calls, hành vi ghi file thực tế) mang lại độ tin cậy thực tế cao hơn nhưng tốn tài nguyên và thời gian chạy. Xu hướng tối ưu nhất hiện nay là phương pháp tiếp cận lai (Hybrid) nhằm cân bằng giữa tốc độ và độ chính xác tối đa (lên tới 99.1%).

Đóng góp của AI trong nghiên cứu

Việc ứng dụng Consensus và Elicit giúp sinh viên nhanh chóng lọc ra các thông số định lượng cụ thể (độ chính xác %, số mẫu, thuật toán) từ hàng trăm trang tài liệu tiếng Anh phức tạp mà không cần đọc thủ công, tối ưu hóa thời gian nghiên cứu.

Nghiên cứu tài liệu khoa học bằng công cụ AI

Giới thiệu chủ đề

Câu hỏi nghiên cứu (Research Questions)

Bảng so sánh kết quả từ 5 tài liệu nghiên cứu thực tế

Nhận xét ngắn gọn về kết quả tổng hợp

1. Về mặt thuật toán ứng dụng:

2. Về phương pháp trích xuất dữ liệu: