Lĩnh vực quản lý dữ liệu là áp dụng các công nghệ quản lý dựa trên đám mây. Công nghệ này giúp cộng tác làm việc dễ dàng hơn và mở rộng số lượng người dùng có thể truy cập và làm việc với dữ liệu của họ.
Là một công ty thu thập dữ liệu thì việc theo kịp các xu hướng quan trọng như thế nào?
Trong cuộc khảo sát của chúng tôi về tình trạng chất lượng dữ liệu năm 2022, chúng tôi nhận thấy rằng hai yếu tố có ảnh hưởng nhất đến thành công của việc quản lý dữ liệu đó là: tự động hóa và cơ sở hạ tầng.
Hiểu được những xu hướng này có thể đưa bạn đến thành công trong việc quản lý dữ liệu.
Tại bài viết này chúng tôi sẽ tổng hợp những xu hướng quản lý dữ liệu.
Mục lục
1. Data democratization, data mesh, and data fabric
Trong kỷ nguyên chuyển đổi số, mọi thay đổi diễn ra rất nhanh vì vậy các công ty cần có các quy trình dữ liệu có thể đáp ứng và thích nghi với môi trường không ngừng phát triển này. Điều này đã thúc đẩy các công ty hướng tới cách tiếp cận phi tập trung trong tổ chức hệ thống quản lý dữ liệu của họ.
Quản lý dữ liệu có thể được coi là “phi tập trung” khi dữ liệu được quản lý trên cơ sở miền, phân cho từng phòng ban hoặc nhóm thay vì một cơ quan tập trung. Ba thuật ngữ liên quan đến cách tiếp cận phi tập trung: data democratization, data fabric, and data mesh.
- Data democratization: Các công ty áp dụng xu hướng này yêu cầu mọi người trong tổ chức chịu trách nhiệm về việc sản xuất, sử dụng và chất lượng dữ liệu thay vì chỉ đảm nhận một trong 3 bước trên. Xu hướng này tập trung vào việc cung cấp cho người dùng nhiều quyền truy cập hơn vào dữ liệu, hiểu biết về dữ liệu và văn hóa dữ liệu.
- Data fabric: Thiết kế giải pháp quản lý dữ liệu này kết nối tất cả các nguồn dữ liệu và thành phần quản lý dữ liệu thông qua siêu dữ liệu. Sau khi được kết nối, chúng sẽ tạo thành một trang web không ma sát, cung cấp quyền truy cập vào dữ liệu doanh nghiệp cho tất cả các bên liên quan. Khi được tích hợp đầy đủ, kết cấu dữ liệu có thể tạo ra một giao diện phủ sóng dữ liệu toàn doanh nghiệp thân thiện với người dùng và chủ yếu là tự chủ.
- Data Mesh: Khái niệm quản trị và kiến trúc phi tập trung này đặt trách nhiệm về dữ liệu cho các nhóm sản xuất dữ liệu. Theo kiến trúc này, vẫn có một số nguyên tắc quản trị tập trung để ngăn chặn dữ liệu bị xáo trộn.
Mọi người đang hướng tới cách tiếp cận phi tập trung vì:
- Các quyết định được đưa ra ngay lập tức hơn, ít bị chậm trễ hơn trong việc phê duyệt và chờ truy cập dữ liệu.
- Nó mang lại nhiều quyền lực hơn cho người dùng cuối.
- Tạo các sản phẩm dữ liệu sẵn sàng để sử dụng và không cần chuẩn bị.
Những lợi ích này cho phép các phương pháp tiếp cận phi tập trung hiệu quả hơn trong việc xử lý bối cảnh dữ liệu luôn thay đổi ngày nay. Tuy nhiên, xu hướng này cũng đưa ra một số thách thức khi quản lý dữ liệu. Bạn cần có các công cụ quản lý dữ liệu có thể thu thập siêu dữ liệu, cấp quyền truy cập dữ liệu cho mọi người và kết hợp nhiều công cụ vào một nền tảng dễ sử dụng (để mọi người có thể sử dụng).
2. Data observability & AI-driven DQ
Đi cùng với sự phát triển của dữ liệu, chất lượng dữ liệu không ngừng phát triển. Các tổ chức đã tăng cường sử dụng dữ liệu và bắt đầu nghiên cứu các giải pháp không theo quy tắc dựa trên AI/ML để tìm dữ liệu chất lượng thấp. Hiện nay có một xu hướng mới đang gia tăng, nó xem xét việc phát hiện và giải quyết vấn đề về chất lượng dữ liệu một cách tổng thể và sử dụng các kỹ thuật khác nhau để theo dõi tình trạng dữ liệu. Xu hướng này được gọi là quan sát dữ liệu.
Quan sát dữ liệu là khả năng tổ chức của bạn hiểu được trạng thái dữ liệu của bạn dựa trên thông tin bạn đang thu thập. Nó cung cấp sự hiểu biết này bằng cách giám sát hệ thống của bạn thông qua tự động hóa, với rất ít sự can thiệp thủ công. Các tổ chức có khả năng quan sát dữ liệu có thể nhận ra các vấn đề về chất lượng dữ liệu, điểm bất thường, thay đổi lược đồ, v.v. về toàn bộ hệ thống dữ liệu của họ.
Những lợi ích của quan sát dữ liệu bao gồm:
- Giám sát chất lượng của hệ thống dữ liệu với ít hoặc không có kiến thức về miền.
- Sau khi triển khai, người dùng có thể theo dõi toàn cảnh và ngăn chặn sự cố.
- Chủ động phát hiện sự cố và thông báo cho người dùng sau (trước khi sự cố ảnh hưởng đến cả hệ thống).
- Có thể xử lý các hệ thống dữ liệu phức tạp hơn và nhận ra các vấn đề mà các chuyên gia trong miền có thể chưa nghĩ tới.
3. Modern data stack
Khi các phương pháp tiếp cận chất lượng dữ liệu phát triển và cải thiện, chúng tôi thấy sự tăng trưởng tương tự trong tích hợp dữ liệu. Modern data stack là một bộ công cụ giúp tiết kiệm thời gian
Một số công cụ và tính năng của modern data stack:
- Dựa trên đám mây
- Đường ống ETL tự động
- Kho đám mây
- Trực quan hóa dữ liệu
- Chuyển đổi dữ liệu
- Đảo ngược ETL
Sự khác biệt đáng kể nhất giữa modern data stack phiên bản mới và cũ là tính dễ sử dụng, giúp chúng nhanh hơn, tự phục vụ nhiều hơn và mang lại trải nghiệm người dùng tốt hơn. Có nguồn gốc từ đám mây, modern data stack có một số ưu điểm:
- Tích hợp/tích hợp dễ dàng hơn.
- Rào cản gia nhập thấp hơn.
- Hoạt động tốt với các ứng dụng dựa trên đám mây khác.
- Không yêu cầu cấu hình kỹ thuật.
- Với modern data stack, người dùng có thể nhận được các giải pháp có thể tiếp cận mở rộng theo nhu cầu dữ liệu duy nhất cho tổ chức của bạn.
4. The rise of data & analytics governance platforms
Cho đến bây giờ, các công ty buộc phải tích hợp nhiều công cụ trong hệ thống dữ liệu của họ để phục vụ cùng một mục đích. Bạn có thể có một nhà cung cấp cho danh mục dữ liệu của mình, một nhà cung cấp khác cho chất lượng dữ liệu và một nhà cung cấp khác cho MDM. Điều này đưa ra những thách thức như:
- Cần tích hợp nhiều công cụ riêng lẻ (rất mất thời gian).
- Các công cụ không hoạt động tốt với nhau.
- Tất cả mọi thứ cần phải được xây dựng thủ công cho trường hợp sử dụng của bạn.
- Những thách thức trong hiệu suất.
- Thay đổi quản lý và chấp nhận người dùng.
Không gian quản lý dữ liệu đã chuyển sang một cách tiếp cận toàn diện hơn. Các công ty chuyên về một lĩnh vực hiện đang mở rộng sản phẩm của họ để đáp ứng nhu cầu hợp nhất công cụ. Một nhà cung cấp BI chỉ tập trung vào việc chuẩn bị dữ liệu giờ đây có thể bao gồm tích hợp dữ liệu và danh mục trong các giải pháp của họ. Một nhà cung cấp quản trị có thể xem xét mở rộng các tùy chọn về chất lượng dữ liệu hoặc khả năng quan sát dữ liệu. Nhìn chung, các công cụ riêng lẻ đang nhanh chóng trở nên lỗi thời để nhường chỗ cho các nền tảng cung cấp nhiều hơn một chức năng.
Đó là lý do tại sao, tại Ataccama, chúng tôi đã tập trung vào việc xây dựng một nền tảng thống nhất chất lượng dữ liệu, quản lý siêu dữ liệu, quản lý dữ liệu gốc và tham chiếu, danh mục dữ liệu, tích hợp dữ liệu và trực quan hóa dữ liệu.
5. Cloud-native technologies and containerized applications
Như đã đề cập trong phần Modern data stack, các công nghệ quản lý dữ liệu dựa trên đám mây có một số lợi thế. Do đó, việc áp dụng công nghệ đám mây đang góp phần phát triển tất cả các ngành. Theo Gartner chỉ ra, Cloud DBMS chiếm 93% tăng trưởng doanh thu của DBMS. Họ cũng dự báo chúng sẽ chiếm 50% tổng doanh thu DBMS vào năm 2022. Chúng ta có thể liên kết lợi nhuận và thành công của công nghệ đám mây này với bốn lợi ích quan trọng:
- Khả năng mở rộng
- Chi phí trả trước thấp
- Dễ sử dụng hơn (trải nghiệm người dùng tốt)
- Định giá dựa trên mức tiêu thụ (chỉ trả tiền cho những gì bạn sử dụng).
Một xu hướng đang phát triển khác trong không gian quản lý dữ liệu là sử dụng các ứng dụng được đóng gói. Các ứng dụng được đóng gói cho phép bạn triển khai (sử dụng các công nghệ như Docker hoặc Kubernetes) một ứng dụng trên bất kỳ phần cứng nào mà không cần thay đổi cơ sở mã. Họ cũng yêu cầu ít tài nguyên hơn để duy trì.
Vì điều này, Gartner kỳ vọng số lượng tổ chức có ứng dụng bộ chứa sẽ tăng từ 40% lên 90% trong khoảng thời gian từ năm 2021 đến năm 2027. Ngoài ra, họ kỳ vọng 25% trong số tất cả các ứng dụng của doanh nghiệp sẽ chạy trong bộ chứa vào năm 2027. Ngoài tính linh hoạt, các công ty còn sử dụng các ứng dụng được đóng gói vì chúng đáng tin cậy hơn, mạnh mẽ hơn và có thể mở rộng quy mô
6. Automation
Tự động hóa không chỉ liên quan tới chất lượng dữ liệu. Chúng ta có thể thấy nhiều quy trình trở nên tự động hơn trong toàn bộ ngành quản lý dữ liệu. Lý do chính ở đây là tiết kiệm thời gian. Gartner đã đề cập rằng cứ năm người tiêu dùng dữ liệu thì chỉ có một kỹ sư dữ liệu. Tài nguyên và kỹ sư dữ liệu đang khan hiếm (đặc biệt là trong thời kỳ suy thoái).
Các công ty cần các giải pháp vượt trội có thể tự động hóa một số nhiệm vụ của các kỹ sư dữ liệu. Hiện tại, chúng tôi thấy nhiều quy trình được tự động hóa với AI và siêu dữ liệu:
- Khám phá dữ liệu và giới thiệu nguồn dữ liệu
- Giám sát chất lượng dữ liệu
- Khớp dữ liệu và tạo bản ghi vàng trong MDM
- Khi các công ty chấp nhận dân chủ hóa dữ liệu nhiều hơn, họ sẽ cần tự động hóa nhiều quy trình quản lý dữ liệu và cung cấp các biện pháp kiểm soát đơn giản cho người dùng doanh nghiệp.
7. Low-code/No-code data apps
Bằng cách làm cho các ứng dụng trở nên đơn giản hơn (yêu cầu viết mã ít hơn), bạn có thể cung cấp các quy trình quản lý dữ liệu cho nhiều người dùng với nhiều vai trò hơn. Các ứng dụng như MS Powerapps, Airtable và Notion là những ví dụ tiêu biểu về ứng dụng mã thấp/không mã mà hầu hết mọi người dùng đều có thể học cách sử dụng.
Một ví dụ thực tế về ứng dụng quản lý dữ liệu mã thấp là ứng dụng quan sát dữ liệu Ataccama, cho phép người dùng giám sát toàn bộ hệ thống dữ liệu, chẳng hạn như Snowflake, mà không cần thiết lập phức tạp.
Một số khác là ONE Data, cung cấp cho người dùng là các doanh nghiệp tích hợp dữ liệu một cách dễ dàng, cải thiện dữ liệu một cách cộng tác, kiểm tra chất lượng của dữ liệu theo cách tự động và cung cấp dữ liệu đó cho các mục đích sử dụng khác hoặc người dùng khác – Tất cả những điều đó trong một môi trường được quản lý và không mất nhiều thời gian.
Ngoài ra, các tổ chức cũng đang tạo các ứng dụng của riêng họ với quy trình làm việc đơn giản. Các ứng dụng này có thể dẫn đến cơ sở dữ liệu có thể quản lý các sự cố nhỏ cục bộ. Tất nhiên, đây là một lợi ích lớn đối với các tổ chức phi tập trung vì họ có thể sử dụng các công cụ trên cơ sở từng nhóm, ưu tiên các tùy chọn của từng người dùng.
Nguồn: Internet