Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, mô hình này cho phép…
ChatGPT, viết tắt của Chat Generative Pre-training Transformer, là một chatbot do công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11 năm 2022. 1. Chat GPT là gì? ChatGPT là một mô hình ngôn ngữ lớn được huấn luyện bởi OpenAI. Nó có khả năng trả lời các câu…
Giới thiệu Spark Spark là một ứng dụng miễn phí được phát triển bởi Nakenterprise corp, thuộc danh mục Giải trí. Trong bài viết bên dưới đây chúng tôi sẽ giới thiệu tới bạn cách cài đặt Spark trên máy tính (PC Windows & Mac). Phương pháp mà chúng tôi áp dụng là sử dụng Bluestacks,…
Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu vào từ Spark có thể lấy từ Kafka, Flume, Kinesis…
Spark SQL, DataFrame chính là những thành phần được sử dụng nhiều nhất trong tổng thể Framework Apache Spark. Có thể nói Spark SQL đã “phổ cập” tính toán phân tán cho 1 tập người dùng lớn hơn nhiều những Developer chỉ hằng ngày ngồi code, gọi những API nào…