Một trong những câu hỏi tôi nhận được nhiều nhất là: “Kỹ năng dữ liệu quan trọng nhất là gì?” Dựa trên kinh nghiệm của tôi, tôi tin rằng 5 kỹ năng sau đây là quan trọng nhất để chuyển dữ liệu thành những hiểu biết sâu sắc:
1 Kỹ năng kinh doanh
Bất kỳ một nhà khoa học dữ liệu xuất sắc nào cũng đều nên có một sự hiểu biết tường tận về điều gì sẽ khiến cho doanh nghiệp trì trệ, điều gì sẽ làm cho doanh nghiệp phát triển và liệu nó có đang đi đúng hướng hay không. Việc này bao gồm sự hiểu biết về các quy trình kinh doanh chính, những mục tiêu, và các chỉ số chính được sử dụng để đánh giá hiệu suất của công ty, cũng như những gì giúp công ty trở nên nổi bật hơn so với các đối thủ cạnh tranh (và nếu nó không nổi bật, thì tại sao không và cần phải thay đổi những gì?). Kỹ năng giao tiếp cũng là một thành phần quan trọng trong việc trích xuất số lượng tối đa giá trị từ dữ liệu, từ các kỹ năng truyền đạt giữa các cá nhân một cách hiệu quả cho đến khả năng trình bày các kết quả từ dữ liệu một cách rõ ràng, hấp dẫn.
2 Kỹ năng phân tích
Tất cả những khả năng phát hiện các kiểu mẫu, phân biệt mối liên hệ giữa nguyên nhân và kết quả, và xây dựng các mô hình mô phỏng có thể được gắn kết chặt chẽ với nhau cho đến khi chúng tạo ra kết quả mong muốn đều là những kỹ năng quan trọng. Việc này bao gồm một nền tảng vững chắc trong các gói phân tích tiêu chuẩn ngành như SAS Analytics, IBM Predictive Analytics và Oracle Data Mining, cũng như hiểu biết sâu sắc về việc diễn giải các báo cáo và hình ảnh để phát hiện ra câu trả lời cho các câu hỏi kinh doanh then chốt.
3 Khoa học máy tính
Máy tính là xương sống của bất kỳ chiến lược dữ liệu nào, vì vậy danh mục mở rộng này bao gồm tất cả mọi thứ từ việc kết nối hệ thống cáp cho đến việc tạo ra các thuật toán học máy phức tạp và xử lý ngôn ngữ tự nhiên. Đặc biệt, việc các ứng cử viên phải nắm vững các công nghệ mã nguồn mở quan trọng như hệ thống Hadoop đang thịnh hành, vì đây là những nền tảng của các kế hoạch dữ liệu của nhiều tổ chức.
4 Thống kê và toán học
Những kỹ năng của một nhà thống kê chỉ cho biết về mỗi khía cạnh nhất định trong những hoạt động dữ liệu của tổ chức, từ việc xác định các tập hợp có liên quan và kích thước mẫu thích hợp khi bắt đầu mô phỏng để phục vụ cho việc báo cáo kết quả khi kết thúc. Do đó, việc nắm bắt những số liệu thống kê cơ bản là rất cần thiết, nhưng việc thực hiện một sự giáo dục toàn diện hơn trong môn học này là một điều đáng mong đợi. Toán học cũng vậy, vẫn luôn hữu ích bởi lẽ mặc dù số lượng dữ liệu phi cấu trúc và bán cấu trúc mà chúng ta đang phân tích là rất lớn và còn đang gia tăng, nhưng phần lớn trong đó vẫn được biết đến như những con số lỗi thời nhưng vẫn còn có ích.
5 Sự sáng tạo
Điều này rất quan trọng khi làm việc với dữ liệu lớn. Xét cho cùng, đó là một ngành khoa học mới nổi và không có những quy tắt “bất di bất dịch” nào về mục đích mà một công ty nên sử dụng dữ liệu lớn. Sự sáng tạo ở đây có nghĩa là khả năng áp dụng các kỹ năng kỹ chuyên môn được đã đề cập ở trên và sử dụng chúng để tạo ra một thứ có giá trị (chẳng hạn như một sự hiểu biết sâu sắc) bằng một cách khác hơn là làm theo một cách thức đã được xác định từ trước. Bất kỳ ai cũng có thể đi theo một công thức – ngày nay, các doanh nghiệp đều muốn một sự đổi mới có thể khiến cho họ trở nên khác biệt so với những doanh nghiệp khác, cả về kết quả kinh doanh lẫn hình ảnh mà họ thể hiện trước người tiêu dùng của mình. Với sự bùng nổ về số lượng các tổ chức tận dụng dữ liệu để có được hiểu biết sâu sắc, thì khả năng tạo ra những cách thức mới đầy sáng tạo để làm việc với dữ liệu cũng là một kỹ năng thực sự rất đáng được mong đợi.
Sự đa dạng hóa các loại kỹ năng này là những gì mà chúng ta đang nhìn thấy trên toàn bộ ngành công nghiệp dữ liệu lớn. Như Tye Rattenbury, giám đốc khoa học dữ liệu tại Trifacta đã nói với tôi: Nếu bạn nhìn vào phần mô tả công việc của ngành khoa học dữ liệu từ 5 năm trước, về cơ bản nó là “trình độ cao cấp, có kỹ năng máy tính, mô hình tiên đoán”. Giờ đây chúng chỉ là 1/3 trong số những yêu cầu đặt ra – 2/3 còn lại là “phối hợp tốt với những người khác”, “biết cách báo cáo và giao tiếp”…
Khi các tổ chức tìm kiếm để có được ngày càng nhiều từ dữ liệu, thì việc chúng ta mong đợi nhiều hơn từ những người làm việc với dữ liệu cũng là lẽ tự nhiên. Rattenbury đồng ý rằng, “Thật tuyệt vời khi mọi người thật thông minh và có thể làm việc một cách thành thạo, nhưng họ cần phải có khả năng ứng dụng sự tuyệt vời đó vào doanh nghiệp để từ đó chúng tôi có thể làm nên chuyện”.
Sự đa dạng ngày càng tăng của các loại kỹ năng cũng một phần là kết quả của cách thức mà những tổ chức được cấu trúc hiện nay. Trong khi khoa học dữ liệu trước đó đã từng là một nhóm tài năng riêng biệt, có vị trí vững chắc trong lĩnh vực công nghệ thông tin, thì bây giờ nó đang bắt đầu thấm nhuần vào các phòng ban riêng lẻ trong toàn bộ tổ chức. Như Rattenbury giải thích: “Phiên bản hiện đại là nhắm vào nhóm khoa học dữ liệu tập trung và tách họ ra – hai trong số các nhà khoa học dữ liệu sẽ thực hiện marketing, một trong số họ sẽ thiết kế sản phẩm, một người khác sẽ bán hàng… và họ sẽ được gắn bó hoàn toàn với những nhóm đó.”
Huỳnh Hữu Tài (Trích từ Data Strategy-Chiến lược dữ liệu)