Dữ liệu được đánh giá là trọng tâm phát triển của chính phủ số. Kho dữ liệu dùng chung đang được xác định như là một thành phần nền tảng trong kiến trúc chính phủ điện tử do các bộ ngành và tỉnh thành ban hành để thực hiện mục tiêu chuyển đổi số chính phủ.
Mô hình kiến trúc kho dữ liệu dùng chung
Xây dựng kho dữ liệu dùng chung chính là giải pháp kỹ thuật cho phép hiện thực hóa các chính sách về kết nối và chia sẻ dữ liệu số của cơ quan nhà nước đã được quy định tại Nghị định số 47/2020/NĐ-CP.
Mục đích sử dụng của kho dữ liệu dùng chung là nơi tích hợp, lưu trữ dữ liệu được thu nhận từ nhiều hệ thống thông tin, cơ sở dữ liệu (CSDL) phục vụ tác nghiệp khác nhau. Từ đó dữ liệu sẽ lại được chia sẻ để tham chiếu, tái sử dụng cho nhiều hệ thống khác. Như vậy, nó tạo ra một đầu mối thống nhất để quản lý chung cho tất cả các nguồn dữ liệu chia sẻ. Mô hình triển khai này có các lợi điểm chính là: i) Hướng tới việc chuẩn hóa ngữ nghĩa của dữ liệu được thu thập từ đa dạng các nguồn khác nhau; ii) Tiết kiệm chi phí triển khai do không phải xử lí, tích hợp dữ liệu trùng lặp theo nhiều lần cho từng nhu cầu mỗi khi có phát sinh; iii) Giảm mức độ phức tạp trong kết nối liên thông chéo đa điểm giữa nhiều hệ thống, tiến tới giảm tải cho các hệ thống phục vụ tác nghiệp khi không phải chia sẻ dữ liệu trực tiếp cho nhiều hệ thống khác nhau.
Hình 1 minh họa một mô hình kiến trúc tổng quát cho kho dữ liệu dùng chung. Nó được xây dựng để đáp ứng đầy đủ vòng đời quy trình thu thập, xử lí, lưu trữ, chia sẻ và khai thác thông tin, dữ liệu của tổ chức. Thông tin, dữ liệu được quản lí, lưu trữ trong kho có thể có xuất xứ từ nhiều loại nguồn khác nhau bao gồm:
- Hệ thống thông tin, CSDL dùng cho các mục đích nghiệp vụ chuyên ngành;
- Tệp lưu trữ dữ liệu dùng để số hóa thông tin trao đổi theo cấu trúc định dạng tiêu chuẩn;
- Log dữ liệu được thu thập tự động bởi các thiết bị;
- Thông tin, dữ liệu được công bố trên web và các mạng xã hội.
Thông tin, dữ liệu từ các nguồn rất đa dạng sẽ được quản lí thu thập, xử lí trên một hệ thống lưu trữ tạm thời được gọi là hồ dữ liệu (datalake). Trong một số trường hợp thông tin thu thập còn cần phải được bóc tách, trích lọc một cách tự động trước khi đưa vào quá trình biên tập, tiền xử lí bởi các chuyên gia về dữ liệu. Đây là công đoạn đặc biệt quan trọng của quá trình kiểm soát liên tục để bảo đảm chất lượng dữ liệu trước khi lưu vào trong kho dùng chung. Bên cạnh thu thập dữ liệu tự động từ các nguồn sẵn có, dữ liệu cũng có thể được tạo ra từ các công cụ hỗ trợ thực hiện khảo sát và số hóa thông tin. Đây là công cụ cần thiết dùng để làm đầy dữ liệu cho các loại đối tượng còn chưa được chuyển đổi thành quy trình nghiệp vụ số mà vẫn đang cần phải duy trì quản lý thông qua quá trình khảo sát, thu thập một cách thủ công.
Sau khi thu thập, xử lí trên hồ dữ liệu, dữ liệu sẽ được lưu chính thức vào kho dùng chung dưới 5 dạng thành phần có tính chất kĩ thuật khác nhau gồm:
- CSDL đặc tả (metadata) quản lý các dữ liệu dùng để mô tả nguồn gốc, nội dung của thông tin được lưu trữ trong các tệp điện tử (văn bản, âm thanh, hình ảnh, dữ liệu);
- CSDL danh mục (reference data) quản lý các dữ liệu được dùng làm tham chiếu thống nhất trong biểu diễn thông tin như các bảng phân loại, từ điển thuật ngữ,…;
- CSDL chủ (master data) quản lý dữ liệu có cấu trúc dùng để biểu diễn thông tin về các đối tượng được quản lý. Dữ liệu này sẽ được dùng như là các thực thể để tham chiếu sử dụng lại trong nhiều hệ thống thông tin, CSDL phục vụ tác nghiệp chuyên ngành;
- Kho dữ liệu tổng hợp (data warehouse) lưu trữ dữ liệu để phục vụ việc phân tích, tổng hợp xây dựng các báo cáo đa chiều. Dữ liệu trong kho này sẽ phải được tổng hợp sẵn từ nhiều nguồn, theo nhiều chiều thông tin để sẵn sàng cung cấp nhanh các loại số liệu tổng hợp như báo cáo thống kê;
- Chợ dữ liệu (datamart) quản lý lưu trữ các bộ dữ liệu dùng để sẵn sàng chia sẻ, phân phối cho khai thác, sử dụng. Hình thức chia sẻ trên kho có thể là mở hoặc thu phí, và có thể được điều chỉnh một cách dễ dàng đối với từng bộ dữ liệu.
Đầu ra của kho dữ liệu dùng chung là thực hiện cung cấp công cụ khai thác thông tin, dữ liệu cho người dùng Hình 1. Mô hình kiến trúc xây dựng kho dữ liệu dùng chung đầu cuối và chia sẻ dữ liệu trên môi trường điện tử. Cổng khai thác thông tin cho phép thực hiện công khai tất cả các thông tin theo quy định và/hoặc hỗ trợ người dùng tra cứu khai thác theo từng loại đối tượng dữ liệu được quản lý trong CSDL.
Ngoài ra, người dùng có thể sử dụng các công cụ hỗ trợ phân tích, tạo lập các báo cáo thông minh theo từng nhu cầu riêng dựa trên các nguồn dữ liệu tổng hợp được lưu trữ trong kho. Cổng chia sẻ dữ liệu (mở hoặc thu phí) là nơi người dùng có thể tìm kiếm, truy xuất, tái sử dụng lại các bộ dữ liệu đã được kết xuất lưu trữ trên chợ dữ liệu. Dịch vụ chia sẻ dữ liệu (API) là phương thức dùng để kết nối trực tiếp các hệ thống thông tin vào kho dữ liệu dùng chung để khai thác trên môi trường điện tử. Nó bảo đảm khả năng đáp ứng các truy vấn dữ liệu theo nhu cầu sử dụng và được cung cấp theo biến động thời gian thực.
Sự khác biệt căn bản giữa kho dữ liệu dùng chung với các CSDL thông thường được xây dựng cho những mục đích riêng biệt của từng hệ thống thông tin là nằm ở mức độ tổng hợp và chất lượng dữ liệu. Dữ liệu lưu trữ trong kho dùng chung sẽ phải có mức độ tin cậy cao nhất và được tham chiếu sử dụng thống nhất cả về cấu trúc và nội dung thông tin trong nhiều hệ thống khác nhau. Chất lượng của kho dữ liệu dùng chung được thể hiện ở 4 đặc điểm chính đối với dữ liệu là tính xác thực, tính tương hợp, tính toàn vẹn và tính bảo mật.
Tính xác thực của dữ liệu là khả năng truy vết nguồn gốc của sự thay đổi, cập nhật trong CSDL. Các biện pháp chứng thực có thể được sử dụng để có thể chứng minh sự hợp pháp của một nguồn dữ liệu điện tử. Theo quy định tại Nghị định số 47/2020/NĐ-CP, dữ liệu chủ trong các CSDL quốc gia, CSDL dùng chung của Bộ ngành, Tỉnh thành phải được bảo đảm tính pháp lí để có thể sử dụng tương đương như các văn bản giấy.
Tính tương hợp của dữ liệu là khả năng trao đổi bằng một định dạng mở và máy có thể đọc hiểu ngữ nghĩa. Dữ liệu mở liên kết (Linked Open Data) là định dạng đang được sử dụng ở mức độ phát triển cao nhất (5 sao theo định nghĩa của Tim Berners-Lee). Nó yêu cầu các dữ liệu phải được định danh bằng URI và có ngữ nghĩa được đặc tả bởi các bộ từ vựng định nghĩa dựa trên ontology.
Tính toàn vẹn của dữ liệu thể hiện sự nhất quán với các ràng buộc dữ liệu trong CSDL. Dữ liệu trong kho dùng chung phải được xử lý không còn có các nhập nhằng để có thể tham chiếu sử dụng trong khai thác. Mỗi một đối tượng thông tin sẽ chỉ có một bản ghi duy nhất trong CSDL và được bảo đảm cập nhật dữ liệu kịp thời và chính xác.
Tính bảo mật của dữ liệu là khả năng phân quyền truy cập và bảo vệ các dữ liệu cá nhân. Trong khai thác sử dụng người dùng sẽ chỉ được phép truy cập các thông tin, dữ liệu theo đúng phân cấp vai trò của mình. Đối với các dữ liệu cá nhân, chỉ được chia sẻ khi đáp ứng đủ các điều kiện theo yêu cầu của pháp luật về bảo vệ quyền riêng tư và an ninh mạng.
Phương thức xây dựng kho dữ liệu dùng chung của Bộ ngành/Tỉnh thành
Có thể thấy, xây dựng kho dữ liệu dùng chung của Bộ ngành/Tỉnh thành đầy đủ theo đúng mô hình kiến trúc là nhiệm vụ phức tạp đòi hỏi các yêu cầu kĩ thuật cao hơn nhiều so với xây dựng CSDL trong các hệ thống thông tin nghiệp vụ. Để giảm bớt sự phức tạp, chúng ta có thể phân chia nhiệm vụ này thành nhiều dự án để triển khai theo một lộ trình phù hợp với hiện trạng của nơi đầu tư. Có thể triển khai chia thành 3 nhóm dự án như sau.
Một là, dự án xây dựng CSDL dùng chung tập trung vào việc hình thành CSDL danh mục và CSDL chủ của kho dữ liệu. Trước hết phải xác định rõ các loại dữ liệu danh mục và đối tượng dữ liệu chủ cần được quản lý, thống nhất chia sẻ dùng chung trong phạm vi của Bộ ngành, Tỉnh thành. CSDL dùng chung không chỉ quản lý lưu trữ các loại dữ liệu được tạo ra từ chính các hệ thống của Bộ ngành, Tỉnh thành mà còn có thể được tích hợp, tham chiếu tới các dữ liệu nền tảng được quản lý trong các CSDL quốc gia (CSDL dân cư, CSDL đăng kí doanh nghiệp…). Như vậy, các CSDL dùng chung của Bộ ngành, Tỉnh thành sẽ góp phần hình thành nên một cơ sở hạ tầng dữ liệu quốc gia được xây dựng xuyên suốt trong tất cả các lĩnh vực và từ Trung ương đến địa phương.
Về mặt công nghệ để xây dựng CSDL dùng chung, dữ liệu mở liên kết đang trở thành xu thế được dùng phổ biến để mô hình hóa và chia sẻ dữ liệu số trong môi trường điện tử. Ưu điểm của công nghệ này là hướng tới cách tiếp cận chuẩn hóa thông tin, xây dựng ngữ nghĩa của dữ liệu dựa trên ontology. Từ đó nó cho phép liên kết, tích hợp dữ liệu từ nhiều nguồn khác nhau mà không cần phải thực hiện chuyển đổi, ánh xạ ngữ nghĩa cho từng bộ dữ liệu sau khi thu thập. Để bảo đảm tính xác thực của dữ liệu, bên cạnh sử dụng các công nghệ bảo mật truyền thống, công nghệ chuỗi khối (blockchain) đang được xem là một xu thế mới. Công nghệ này không chỉ dùng cho mục đích tạo ra đồng tiền số, mà còn có thể sử dụng cho mục đích tạo ra sự minh bạch của thông tin, dữ liệu.
Hai là, dự án xây dựng kho lưu trữ số tập trung có mục tiêu hình thành CSDL đặc tả và chợ dữ liệu trong kho dùng chung của Bộ ngành/Tỉnh thành. Dữ liệu đặc tả cho tất cả các loại tài nguyên số (tài liệu, âm thanh, hình ảnh, bộ dữ liệu) có phát sinh trên các hệ thống thông tin, CSDL nghiệp vụ sẽ được thu thập để phục vụ tìm kiếm tập trung tại một kho lưu trữ dùng chung (có hoạt động tương tự như một máy tìm kiếm). Tại đây các công nghệ học máy (AI) có thể được ứng dụng để bóc tách, phân loại thông tin một cách tự động trong quá trình tạo lập các chỉ mục phục vụ tìm kiếm thông tin. Kết quả tìm kiếm thông tin trên kho sẽ dẫn hướng người dùng truy cập vào các hệ thống gốc để xem dữ liệu toàn văn. Trong một số trường hợp cụ thể, dữ liệu toàn văn có thể được lưu sẵn trên hồ dữ liệu của kho lưu trữ để cung cấp như là một bản điện tử nằm trong bộ nhớ lưu trữ tạm thời (cache). Kết hợp trong dự án này, một cổng dữ liệu mở sẽ được xây dựng để cung cấp giao diện trực tuyến cho cộng đồng tìm kiếm, khai thác các bộ dữ liệu được chia sẻ ra bên ngoài trong chợ dữ liệu.
Kho lưu trữ số tập trung cũng được xây dựng để đáp ứng các nghiệp vụ văn thư lưu trữ trong các cơ quan Nhà nước trên môi trường điện tử theo quy định của pháp luật. Các loại tư liệu điện tử được thiết lập thông tin mô tả và quản lý trong các bộ hồ sơ và phông lưu trữ. Toàn bộ các bản điện tử của hồ sơ sẽ được lưu vào trong kho dùng chung và chỉ được chia sẻ, cho phép khai thác sử dụng trong nội bộ cơ quan.
Ba là, dự án xây dựng kho dữ liệu tổng hợp như là một thành phần trong hệ thống thông tin tổng hợp phục vụ chỉ đạo điều hành của cơ quan nhà nước. Tại đây tất cả các chỉ tiêu kinh tế, xã hội của ngành, địa phương sẽ được đo lường bằng số liệu tổng hợp, phân tích thống kê đa chiều từ các nguồn dữ liệu cung cấp cho kho dùng chung gồm các hệ thống thông tin, CSDL phục vụ tác nghiệp; hệ thống thông tin quản lý chế độ báo cáo (thủ công) định kì/đột xuất; hệ thống thông tin hỗ trợ việc thu thập, phân tích các số liệu thống kê chuyên ngành. Tất cả các số liệu thu thập từ những nguồn này sẽ phải được đối sánh, hợp nhất để từ đó có thể tạo ra các báo cáo, hình ảnh cung cấp thông tin toàn diện phục vụ chỉ đạo điều hành dựa trên trực quan hóa dữ liệu. Ngoài ra các thông tin tổng hợp tạo ra hàng năm cũng có thể được kết xuất (một cách tự động) thành các bộ dữ liệu để sẵn sàng chia sẻ (mở/thu phí) qua chợ dữ liệu của kho dùng chung.
Một số ví dụ triển khai kho dữ liệu dùng chung trong chính phủ số
Sự khác biệt quan trọng nhất trong triển khai các dự án phục vụ chuyển đổi số là phải đáp ứng được mục tiêu hoàn thiện đầy đủ vòng đời quy trình thu thập, xử lí, lưu trữ, chia sẻ, khai thác thông tin và dữ liệu. Cách tiếp cận tạo ra nguồn dữ liệu số chỉ bằng các chiến dịch thực hiện thu thập, số hóa và tích hợp đã không còn mang lại hiệu quả trong bối cảnh ứng dụng CNTT hiện nay. Chúng ta cần có tư duy tạo ra một “dòng chảy” dữ liệu xuyên suốt trong toàn hệ thống thông qua các kho dữ liệu dùng chung. Hiện nay, việc xây dựng các kho dữ liệu dùng chung đang được quan tâm triển khai tại các bộ ngành, tỉnh thành qua các ví dụ sau đây.
Ở cấp Bộ ngành, Bộ Khoa học và Công nghệ (KHCN) đã thực hiện xây dựng một CSDL dùng chung để tích hợp các nguồn dữ liệu về thông tin KHCN. Hệ thống đang được vận hành tại địa chỉ (http://khcn.vista.gov.vn) cho phép tra cứu, tìm kiếm tập trung các thông tin về tổ chức, chuyên gia, nhiệm vụ, công bố, tiêu chuẩn, sáng chế trong KHCN. Cách tiếp cận xây dựng CSDL trong dự án đi theo đúng mô hình kiến trúc của kho dữ liệu dùng chung đã trình bày ở trên và đồng thời có áp dụng các tiêu chuẩn thế giới trong lĩnh vực thông tin KHCN vào mô hình hóa dữ liệu.
Để phục vụ xây dựng CSDL dùng chung của ngành, Bộ Giao thông Vận tải (GTVT) đã triển khai nhiệm vụ xây dựng 2 tiêu chuẩn kĩ thuật quốc gia (TCVN) quy định mô hình, cấu trúc dữ liệu dùng để quản lí phương tiện, người điều khiển phương tiện, hoạt động vận tải và kết cấu hạ tầng GTVT. Đây là tiền đề cho việc xây dựng các CSDL nền tảng dùng chung làm cơ sở cho việc kết nối liên thông, chia sẻ dữ liệu số đối với tất cả các hệ thống thông tin, CSDL nghiệp vụ của ngành GTVT trên toàn quốc. Công nghệ dữ liệu mở liên kết đã được lựa chọn áp dụng trong quá trình biên soạn các tiêu chuẩn này.
Ví dụ ở cấp Tỉnh thành, Thành phố Hồ Chí Minh (TPHCM) đã triển khai xây dựng kho dữ liệu dùng chung từ năm 2019 (giai đoạn 1) để tích hợp nhiều CSDL thành phần chứa các dữ liệu nền tảng như người dân, doanh nghiệp, bản đồ số và danh mục điện tử dùng chung. Hiện nay, kho dữ liệu dùng chung của TPHCM được xây dựng trên cơ sở nền tảng công nghệ gồm Hệ thống tích hợp và chia sẻ dữ liệu (Data Integration Platform – DIP) và Hệ thống tích hợp lưu trữ và chia sẻ dữ liệu phi cấu trúc (File Storage Platform – FSP). Mô hình này có cấu trúc tương tự với kiến trúc tổng quát của kho dữ liệu dùng chung như đã được trình bày. TPHCM hiện đang cung cấp dữ liệu mở cho người dân và doanh nghiệp khai thác từ kho dữ liệu dùng chung qua cổng trực tuyến tại địa
Tổng kết chung, xây dựng kho dữ liệu dùng chung chính là nhiệm vụ, giải pháp căn bản trong chương trình/kế hoạch chuyển đổi số của các bộ ngành, tỉnh thành. Mức độ sẵn sàng, đầy đủ và chính xác của các loại dữ liệu có trên kho dùng chung cần được xem là chỉ số quan trọng nhất dùng để đánh giá sự thành công trong phát triển chính phủ số tại giai đoạn hiện nay.
Nguồn: Internet