Blog

Lộ trình trở thành Data Science

Khoa học dữ liệu (data science) ở cấp độ cơ bản nhất được định nghĩa là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Ở mức cao hơn, khoa học dữ liệu là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích dữ liệu và thu thập thông tin giá trị từ số lượng lớn dữ liệu.

Gần đây, ngành Data Sience đã được bình chọn trở thành một ngành có “độ hấp dẫn cao nhất thế kỷ 21” đứng đầu trong những ngành có thu nhập khủng trên toàn cầu.

Nhiên liệu mới của các ngành công nghiệp thế kỷ 21 chính là dữ liệu. Các ngành công nghiệp cần dữ liệu để cải thiện hiệu suất của họ, làm cho doanh nghiệp của họ phát triển và cung cấp sản phẩm tốt hơn cho khách hàng. Cùng khám phá lộ trình học hoàn chỉnh để có thể trở thành một nhà khoa học dữ liệu nhé!

1. Data Science (Nhà khoa học dữ liệu) là ai?

Data Science sử dụng xác suất thống kê, toán, lập trình như Python, Machine Learning, Deep Learning ở cấp độ cơ bản (Junior) là khai thác, sử dụng dữ liệu để có được insights và thông tin có giá trị. Vì sự gia tăng nhanh chóng của Data (dữ liệu) vì vậy nên Data Science trở thành nghề nghiệp hot trong thời đại ngày nay.

Lộ trình trở thành kỹ sư dữ liệu (Data Engineer)

Lộ trình dành cho những bạn nam kĩ thuật

2. Data Science làm những công việc gì?

Công việc chính của Data Science chủ yếu đó là:

  • Machine Learning
  • Khai thác dữ liệu
  • Thu thập dữ liệu
  • Xử lý, làm sạch dữ liệu được sử dụng để phân tích
  • Thực hiện phân tích ad-hoc và trình bày kết quả

3. Con đường trở thành Data Science

1. Toán cơ bản

Toán học chính là xương sống của Khoa học dữ liệu. Bạn có thể nghe thấy ở đâu đó người ta nói rằng các mô hình ML/DL nào đó giống như hộp đen đối với môn Khoa học dữ liệu. Thực ra không phải vậy. Người ta không cần phải trở thành bậc thầy về toán học để bắt đầu sự nghiệp trong Khoa học dữ liệu, nhưng nếu bạn giỏi toán thì bạn sẽ trở làm chủ được cuộc chơi khi tham gia vào ngành này.

Thống kê, mô hình hồi quy, mô hình đồ họa, hình học 2d và 3d cơ bản, ma trận, mô hình phân phối, vân vân được sử dụng mỗi ngày trong khoa học dữ liệu. Nếu không có khả năng xử lý tốt với môn toán, bạn sẽ rất khó để trở thành một nhà khoa học dữ liệu. Mình khuyên bạn nên đọc các bài viết liên quan đến khoa học dữ liệu và lĩnh vực bạn chọn để biết chính xác những gì bạn cần học rồi dành thời gian mỗi ngày nghiêm túc nghiên cứu về các chủ đề cần thiết để nâng cao trình độ của bản thân và tiến gần hơn đến ngành khoa học dữ liệu.

Các chủ đề cần được chú ý:

  • Đại số tuyến tính – Vector, Phép toán ma trận, Các loại ma trận, Giá trị Eigen và Vectơ Eigen, Lý thuyết tập hợp, Hàm số, Hàm số logarit, Hàm số mũ.
  • Phép tính vi phân
  • Hoán vị và kết hợp
  • Kỹ thuật tối ưu hóa: Lập trình tuyến tính, Maxima / Minima

2. Ngôn ngữ lập trình

Về ngôn ngữ lập trình phục vụ cho Data science nói chung, những người đam mê dữ liệu dễ bị nhầm lẫn giữa R và Python. Để quyết định ngôn ngữ nào là cần thiết, hãy xem xét khảo sát do Analytics India Magazine thực hiện năm 2019 cho biết ngôn ngữ lập trình ưa thích của các nhà tuyển dụng:

Như bạn đã thấy, nhu cầu về các chuyên gia Python là cao nhất khi phân tích nhu cầu của các nhà tuyển dụng. Gần 17% trong số tất cả các công việc phân tích được quảng cáo ở Ấn Độ đòi hỏi Python như một kỹ năng cốt lõi trong khi 16% yêu cầu Java. 8/10 nhà khoa học dữ liệu muốn giới thiệu Python là ngôn ngữ chính. Python rất dễ học và ngôn ngữ lập trình được chấp nhận rộng rãi.

Để trở thành một nhà khoa học dữ liệu, chúng ta phải phân phối các dự án từ đầu đến cuối, bắt đầu từ việc xác định vấn đề, thu thập dữ liệu liên quan đến vấn đề, thực hiện việc làm sạch dữ liệu và phân tích dữ liệu khám phá, sau đó xây dựng mô hình và cuối cùng là xử lý. Python có thể hỗ trợ bạn làm được điều này.

3. Xác suất và Thống kê

Tại sao Khoa học dữ liệu lại cần đến phân tích thông kê? Câu trả lời đơn giản thôi, chúng ta cần nó để tồn tại. Có 4 loại phân tích thống kê cần thiết cho ngành này:

  • Thống kê mô tả (Descriptive Statistics )
    • Đo lường trung tâm – Mean, Median, Mode
    • Đo lường mức độ lây lan – Phạm vi, Độ lệch chuẩn, biến số, Phạm vi giữa các nhóm
    • Đo hình dạng – Skewness và Kurtosis.
  • Suy luận thống kê (Statistical Inference) 
    • Ước tính tham số (Parameter Estimation)
    • Kiểm định giả thuyết (Hypothesis Testing: z-test, t-test, chi-square test và f-test)
  • Thống kê chênh lệch (Differential Statistics) — 2 sample Hypothesis testing, ANOVA, MANOVA, ANCOVA và MANCOVA.
  • Thống kê liên kết (Associative Statistics) — Tìm mối quan hệ giữa 2 biến. Correlation — Pearson, Spearman và Kendall.

4. Thu thập, sắp xếp và trực quan hóa dữ liệu

Sắp xếp dữ liệu là quá trình chuyển đổi và ánh xạ dữ liệu từ một dạng dữ liệu thô sang định dạng khác với mục đích làm cho nó phù hợp và có giá trị hơn cho mục đích phân tích. Tham khảo các bước sắp xếp dữ liệu dược đây để có thể có một dự án Khoa học dữ liệu thành công:

  • Data Cleaning (Làm tinh dữ liệu): Missing Value Treatment, Outlier Treatment, Data Validation
  • Data Manipulation (Thao tác dữ liệu) : Subsetting, Indexing, Groupby, Aggregation, Pivot tables, Data Merge, Reshaping, Creating new variables, Sorting.

Trong Khoa học dữ liệu, kỹ năng trình bày dữ liệu trực quan là một điều vô cùng cần thiết. Không ai có thể gọi mình là một nhà khoa học dữ liệu nếu người đó không giỏi ở việc trực quan hoá. Trực quan hóa dữ liệu và thiết kế biểu đồ là cả một môn nghệ thuật và khoa học. Các nhà khoa học dữ liệu phải biết về các công cụ và cách để thể hiện dữ liệu theo dạng trực quan. Rất nhiều tổ chức đã tạo ra hàng tỷ đô bằng cách gây ấn tượng với khách hàng chỉ bằng cách thuyết trình với các dữ liệu trực quan.

Các chủ đề cần quan tâm:

  • Kỹ thuật trực quan hóa dữ liệu và cách sử dụng
  • Line chart, Boxplot, Histogram, Scatter plot
  • Bubble chart, bar chart, Heatmap, world map

5. Machine Learning/Deep Learning

Học máy (Machine Learning – ML) là một tập hợp con của trí tuệ nhân tạo (AI) cho phép các ứng dụng phần mềm thực hiện một nhiệm vụ dù không được lập trình rõ ràng để làm như vậy. Machine Learning là bộ não của những người máy. Khi nói đến học máy, mọi người thường nghĩ ngay đến các thuật toán và thực hiện chúng mà không biết về các phụ trợ của thuật toán. Triển khai mô hình ML không phải là một nhiệm vụ lớn, mọi người đã viết mã cho bạn và trong 5 dòng mã bạn sẽ có thể thực hiện và đánh giá bất kỳ thuật toán ML nào. Nhưng đó không phải là mục tiêu. Ở đây mục tiêu là để thực hiện chúng theo một cách chính xác. Bạn cũng cần có hiểu biết về Deep learning và Big Data để khai thác kho dữ liệu khổng lồ này.
Để bắt đầu Machine Learning, trước tiên hãy hiểu các thuật ngữ xung quanh học máy và các loại của nó. Sau đó học về các thuật toán ứng với mỗi nhánh được vẽ ra trong hình trên.

Đặc biệt quan trọng, bạn nên thử thách bản thân ở những cuộc thi về data science, lựa chọn cho mình những công ty tốt để thực tập/nghiên cứu. Nếu bạn mới tham gia vào lĩnh vực khoa học dữ liệu, thực tập trong ngành tài chính sẽ là một khởi đầu tuyệt vời. Nó sẽ giúp bạn hiểu tất cả các quy trình kinh doanh. Thêm vào đó, bạn sẽ có ý tưởng về các loại dự án mà một nhà khoa học dữ liệu đảm nhận.

4. Ai thích hợp làm Data Science?

  • Sinh viên CNTT có kiến thức lập trình
  • Sinh viên ngành kinh tế, sư phạm,.. có kiến thức nền tảng về toán
  • Chuyên viên làm việc trong các mảng kinh tế, ngân hàng,…

>>> Đọc thêm:

Data engineer là gì? Công việc chính của DE? Các kỹ năng cần thiết

Lộ trình trở thành Data Engineer – Kỹ sư dữ liệu

Chúng tôi chuyên cung cấp những khoá học để trở thành chuyên gia trong ngành Phân tích dữ liệu, đăng ký ngay để nhận được tư vấn chi tiết lộ trình dành riêng cho bạn nhé!

Đăng ký nhận tư vấn

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *