Chúng ta ngày càng nghe nhiều về metadata (siêu dữ liệu) và tầm quan trọng của nó đối với việc phân tích dữ liệu. Mặc dù siêu dữ liệu nghe có vẻ là một từ hoa mỹ, nhưng nó đề cập đến một khái niệm đơn giản. Vậy có thể hiểu metadata (siêu dữ liệu) là gì và tại sao xu hướng doanh nghiệp dùng siêu dữ liệu ngày càng tăng?
Bạn có thể coi siêu dữ liệu là thông tin bên ngoài của một cuốn sách cùng với mục lục. Chúng không gây ảnh hưởng gì đến toàn bộ cuốn sách; mà cho phép bạn phân loại đúng cách mà không cần phải đọc toàn bộ nội dung. Đối với các loại, siêu dữ liệu thường được phân loại tùy thuộc vào loại thông tin mà nó tiết lộ về file nguồn. Một file duy nhất có thể chứa nhiều loại siêu dữ liệu để cho phép các hệ thống điện tử cũng như người dùng, tổ chức phân loại file tốt hơn.
Hãy bắt đầu với một số ví dụ về siêu dữ liệu
Trong thế giới thực, metadata (siêu dữ liệu) ở khắp mọi nơi. Mỗi lần bạn mở e-mail, đọc sách hoặc đặt hàng trên Amazon, bạn sẽ gặp phải siêu dữ liệu
Mỗi cuốn sách đều được bổ sung thêm metadata (siêu dữ liệu). Nhờ siêu dữ liệu, sách có thể được phân loại một cách gọn gàng, giúp người dùng tiềm năng có thể tìm thấy chúng ngay lập tức. Siêu dữ liệu về sách bao gồm:
- Tiêu đề
- Tên tác giả
- Chi tiết nhà xuất bản
- Mục lục
- Ngày xuất bản
Khi bạn chụp ảnh bằng iPhone, siêu dữ liệu sẽ được tạo và lưu giống như ảnh được tạo. Siêu dữ liệu này bao gồm:
- Thời gian mà bức ảnh được chụp
- Tên tập tin
- Máy ảnh nào đã được sử dụng để tạo tệp
- Định dạng của ảnh
- Vị trí địa lý
Bạn cũng gặp phải siêu dữ liệu mỗi khi nhận hoặc gửi email. Siêu dữ liệu này cho phép phân loại hiệu quả các e-mail trong hộp thư của bạn và giúp bạn tìm thấy các e-mail cụ thể một cách nhanh chóng bằng cách sử dụng từ khóa. Siêu dữ liệu cho e-mail thường bao gồm:
- ID tin nhắn
- Ngày và giờ gửi e-mail
- Địa chỉ e-mail của cả người gửi và người nhận
Các loại siêu dữ liệu khác nhau
Vì mục đích rõ ràng, các loại siêu dữ liệu khác nhau đã được đưa vào các danh mục cụ thể. Các loại siêu dữ liệu khác nhau như sau:
Dạng mô tả: dữ liệu mô tả thông tin về tài nguyên hoặc tệp. Nó được sử dụng để giúp khám phá và xác định. Siêu dữ liệu mô tả bao gồm các yếu tố như tiêu đề, tóm tắt, tác giả, từ khóa.
Dạng cấu trúc: dữ liệu thông báo về cấu trúc của đối tượng dữ liệu. Nó cho người dùng biết về cách tổ chức tài nguyên. Một ví dụ về siêu dữ liệu cấu trúc là mục lục. Mục lục cho biết cách các trang từ các chương và cách các chương liên quan với nhau.
Dạng quản trị: Thông tin kỹ thuật giúp quản lý tài nguyên. Đây có thể là ngày tệp được tạo, loại tệp, quyền,.. Siêu dữ liệu quản trị cũng liên quan đến quyền sử dụng và sở hữu trí tuệ, cung cấp thông tin như chủ sở hữu của một nội dung nhất định, cách nó có thể được sử dụng, bởi ai , và trong bao lâu.
Nguồn tham khảo: Internet