Blog

Spark Streaming

Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu vào từ Spark có thể lấy từ Kafka, Flume, Kinesis…

Spark SQL với DataFrame và DataSet

Spark SQL, DataFrame chính là những thành phần được sử dụng nhiều nhất trong tổng thể Framework Apache Spark. Có thể nói Spark SQL đã “phổ cập” tính toán phân tán cho 1 tập người dùng lớn hơn nhiều những Developer chỉ hằng ngày ngồi code, gọi những API nào…