Chúng ta đều biết rằng ngành khoa học dữ liệu liên tục phát triển kéo theo các chức danh và vai trò công việc liên tục được tăng thêm. Trong những ngày đầu, hầu hết các vai trò trong ngành đều đi kèm với thuật ngữ “ big data”. Tuy…
Python là một trong những ngôn ngữ phổ biến nhất được các chuyên gia khoa học dữ liệu và nhà phát triển phần mềm sử dụng cho các dự án khoa học dữ liệu. Nó có thể được sử dụng để dự đoán kết quả, tự động hóa nhiệm vụ,…
Dữ liệu thử nghiệm (test data) quan trọng trong kiểm thử tự động (automation testing) cũng như kiểm thử thủ công (manual testing). Với việc cân nhắc kiểu dữ liệu ngay từ đầu cho test data: dữ liệu động hay dữ liệu tĩnh sẽ giúp test code rõ ràng, dễ…
Data Warehouse và các hệ thông OLAP được xây dựng theo mô hình dữ liệu đa chiều (multi-dimensional model) Kiến trúc khối (cube) OLAP Dữ liệu trong kho dữ liệu được thể hiện dưới dạng đa chiều (Multi Dimension) gọi là khối (cube). Mỗi chiều mô tả một đặc trưng nào…
Trong thời đại Big Data, Data Catalog đã trở thành tiêu chuẩn cho việc quản lý MetaData. Data Catalog tập trung vào datasets (kho dữ liệu có sẵn) và kết nối các dataset với dữ liệu để cung cấp thông tin dữ liệu cho các bên liên quan. Trong đó,…
Xử lý dữ liệu với Pandas Pandas là một Python thư viện cung cấp nhanh dữ liệu cấu trúc, mạnh mẽ, linh hoạt và mang ý nghĩa hàm. Thư viện tên được bắt nguồn từ dữ liệu bảng (table data). Pandas được thiết kế để làm việc dễ dàng và…
Khi nghiên cứu về hệ thống dữ liệu trong doanh nghiệp, bạn có thể từng thắc mắc ODS là gì? ODS (Operational Data Store) là một cơ sở dữ liệu trung tâm dùng để thu thập và lưu trữ dữ liệu từ nhiều nguồn khác nhau, hỗ trợ các quyết…
Data Model là gì? Cách hiểu sai Data Model Trong ví dụ này ta có 3 bảng độc lập gồm bảng Product, Sale và Return. Nếu 3 bảng này nằm hoàn toàn độc lập với nhau thì nó sẽ không có bất kỳ kết nối hay mối quan hệ nào,…
Bạn là một nhà lập trình và muốn tìm kiếm cho mình khoảng không gian để học tập và trau dồi kỹ năng, hãy tìm hiểu trên HackerRank. Bạn là một nhà tuyển dụng và muốn tìm kiếm cho mình những nhà phát triển web hàng đầu, cũng nên đến…
Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, mô hình này cho phép…
