Apache Spark

Tìm hiểu về Apache Spark

Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, mô hình này cho phép…

Hướng dẫn cài đặt Spark cho máy tính PC Windows

Giới thiệu Spark Spark là một ứng dụng miễn phí được phát triển bởi Nakenterprise corp, thuộc danh mục Giải trí. Trong bài viết bên dưới đây chúng tôi sẽ giới thiệu tới bạn cách cài đặt Spark trên máy tính (PC Windows & Mac). Phương pháp mà chúng tôi áp dụng là sử dụng Bluestacks,…

Spark Streaming

Tổng quan Spark Streaming là một bộ mở rộng của core Spark API cho phép mở rộng, thông lượng cao, có khả năng chịu lỗi. Spark Streaming được thiết kế để xử lý dữ liệu dạng streams. Dữ liệu đầu vào từ Spark có thể lấy từ Kafka, Flume, Kinesis…

Spark SQL với DataFrame và DataSet

Spark SQL, DataFrame chính là những thành phần được sử dụng nhiều nhất trong tổng thể Framework Apache Spark. Có thể nói Spark SQL đã “phổ cập” tính toán phân tán cho 1 tập người dùng lớn hơn nhiều những Developer chỉ hằng ngày ngồi code, gọi những API nào…