Blog

Map Reduce trong MongoDB

Trong MongoDB Documentation, Map-Reduce là một hệ xử lý dữ liệu để cô đọng một khối lượng lớn dữ liệu thành các kết quả tổng thể có ích. MongoDB sử dụng lệnh mapReduce cho hoạt động Map-Reduce. Nói chung, Map Reduce được sử dụng để xử lý các tập dữ liệu lớn.

Lệnh mapReduce trong MongoDB

Cú pháp cơ bản của lệnh mapReduce như sau:

>db.collection.mapReduce(
   function() {emit(key,value);},  //map function
   function(key,values) {return reduceFunction},   //reduce function
   {
      out: collection,
      query: document,
      sort: document,
      limit: number
   }
)

Hàm (function) của Map Reduce truy vấn Collection, sau đó ánh xạ các Document kết quả để phát xạ (Emit) các cặp key-value. Sau đó bị rút gọn dựa trên các key mà có nhiều value.

Trong cú pháp trên:

map là một hàm JavaScript mà ánh xạ một value với một key và phát xạ một cặp key-value.

reduce là một hàm JavaScript mà rút gọn hoặc nhóm tất cả Document có cùng key.

out xác định vị trí của kết quả truy vấn Map-Reduce.

query xác định tiêu chuẩn chọn tùy ý để lựa chọn các Document.

sort xác định tiêu chuẩn sắp xếp tùy ý.

limit xác định số lượng Document tối đa tùy ý để được trả về.

Sử dụng MapReduce trong MongoDB

Bạn theo dõi cấu trúc của Document để lưu giữ User Post. Document này lưu giữ user_name của người dùng và status của Post.

{
   "post_text": "tutorialspoint is an awesome website for tutorials",
   "user_name": "mark",
   "status":"active"
}

Bây giờ, chúng ta sẽ sử dụng một hàm mapReduce trên các posts collection để lựa chọn tất cả các active post. nhóm chúng lại dựa trên user_name và sau đó đếm số lượng post của mỗi user bởi sử dụng code sau:

>db.posts.mapReduce( 
   function() { emit(this.user_id,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
)

Truy vấn mapReduce trên sẽ cho kết quả:

{ "result" : "post_total", "timeMillis" : 9, "counts" : { "input" : 4, "emit" : 4, "reduce" : 2, "output" : 2 }, "ok" : 1,}

Kết quả chỉ ra rằng, tổng số 4 Document đã kết nối với truy vấn (status:”active”), hàm map phát xạ 4 Document với các cặp key-value. Cuối cùng hàm reduce nhóm các Document đã ánh xạ có cùng key vào trong 2.

Để xem kết quả của truy vấn mapReduce này, bạn sử dụng toán tử find:

>db.posts.mapReduce( 
   function() { emit(this.user_id,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
).find()

Truy vấn trên chỉ ra rằng cả hai người dùng tommark có hai posts trong trạng thái là active.

{ "_id" : "tom", "value" : 2 }
{ "_id" : "mark", "value" : 2 }

Các truy vấn MapReduce có thể được sử dụng để xây dựng các truy vấn Aggregation phức tạp. Sử dụng của các hàm JavaScript tùy biến giúp cho việc sử dụng MapReduce thêm linh động và mạnh mẽ hơn.

Nguồn: Internet

Chúng tôi chuyên cung cấp những khóa học về Phân tích dữ liệu, đăng ký ngay để nhận được tư vấn chi tiết lộ trình dành riêng cho bạn nhé!

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *