Carrie Grimes, kỹ sư của Google, phụ trách công việc phân tích thống kê dữ liệu để giúp cải thiện công cụ tìm kiếm của công ty. |
Mỗi người chỉ là một phần nhỏ trong “đội quân tinh nhuệ” bao gồm những chuyên gia phân tích dữ liệu mới sử dụng các công cụ tinh vi và thường thông thạo cả kinh tế học, khoa học máy tính và toán học…
Tại Đại học Harvard, Carrie Grimes học chuyên ngành nhân loại học và khảo cổ học. Nhưng rồi cô bị thu hút bởi những gì liên quan đến máy tính và toán học, vốn là một phần của việc học tập chuyên ngành khảo cổ. Grimes nói: “Mọi người thường nghĩ khảo cổ học giống như những gì mà nhân vật Indiana Jones làm trong bộ phim cùng tên, tuy nhiên phần lớn những gì bạn thật sự làm là phân tích dữ liệu”.
Ứng dụng đa dạng
Năm 2003, cô Grimes có bằng tiến sĩ tại Đại học Stanford và bắt đầu làm việc cho Google từ cuối năm đó. Hiện nay, cô cũng đang làm công việc khai quật, nhưng là một kiểu khai quật khác. Là thành viên của một nhóm 250 chuyên gia phân tích dữ liệu tại Google, cô sử dụng việc lập mô hình thống kê để giúp cải thiện công nghệ tìm kiếm của công ty.
Cô Grimes là một trong số ngày càng nhiều chuyên gia thống kê thời Internet đang chứng kiến nhu cầu đối với công việc này đang gia tăng. Hal Varian, nhà kinh tế trưởng của Google, nhận định: “Tôi thường nói rằng công việc hấp dẫn trong mười năm tới sẽ là thống kê. Và tôi không đùa chút nào”.
Vị thế gia tăng của chuyên gia thống kê, người có thể kiếm được 125.000 đô-la Mỹ tại những công ty hàng đầu trong năm làm việc đầu tiên sau khi có được bằng tiến sĩ, là hệ quả của sự bùng nổ dữ liệu số trong thời gian gần đây.
Điện toán và web đang tạo ra những nguồn dữ liệu mới cần được thăm dò trong nhiều lĩnh vực khác nhau, từ an ninh, lưu trữ hồ sơ công cho đến mạng xã hội. Theo công ty nghiên cứu IDC, dung lượng dữ liệu số được dự báo sẽ tăng gấp năm lần vào năm 2012.
Erik Brynjolfsson, một nhà kinh tế học và là Giám đốc Trung tâm Kinh doanh số thuộc Viện Công nghệ Massachusetts của Mỹ, nói: “Chúng ta đang nhanh chóng tiến vào một thế giới nơi mọi thứ có thể được theo dõi và đo đạc. Nhưng vấn đề lớn sẽ là khả năng sử dụng, phân tích và thấu hiểu dữ liệu của con người”. Thế hệ chuyên gia phân tích mới nói trên giải quyết vấn đề này thông qua những máy tính mạnh và mô hình toán học phức tạp. Ứng dụng của công việc này rất đa dạng, như cải thiện công cụ tìm kiếm trên Internet và quảng cáo trực tuyến, thu thập thông tin di truyền để phục vụ công việc nghiên cứu ung thư, phân tích dữ liệu cảm biến và vị trí để tối ưu hóa quá trình vận chuyển thực phẩm…
Tuy nhiên, các nhà phân tích chỉ là một phần nhỏ của một đội quân chuyên gia dùng những kỹ thuật thống kê hiện đại để phân tích dữ liệu. Các chuyên gia cho rằng những kỹ năng điện toán và số học còn quan trọng hơn nhiều so với bằng cấp. Vì thế, thế hệ chuyên gia phân tích dữ liệu mới ngày nay thường thông thạo cả kinh tế học, khoa học máy tính và toán học.
Ngày càng được doanh nghiệp quan tâm
Nhìn thấy cơ hội tăng trưởng của các dịch vụ phân tích dữ liệu, hãng IBM đã lập ra nhóm Dịch vụ tối ưu hóa và Phân tích doanh nghiệp vào tháng Tư vừa qua. Bộ phận này sẽ tận dụng kỹ năng của hơn 200 nhà toán học, thống kê và chuyên gia phân tích dữ liệu khác trong các phòng thí nghiệm của mình. Tuy nhiên, IBM cho rằng con số này vẫn chưa đủ và có kế hoạch đào tạo lại hoặc tuyển thêm 4.000 nhà phân tích nữa.
Trong một dấu hiệu khác cho thấy sự quan tâm ngày càng tăng đối với lĩnh vực này, Hiệp hội Thống kê Mỹ cho biết khoảng 6.400 người đã tham gia hội nghị thường niên của ngành thống kê tại Washington vào đầu tháng Tám, tăng khoảng 1.000 người so với những hội nghị các năm gần đây.
Dù vậy, các chuyên gia cảnh báo rằng dữ liệu web cũng có những hiểm họa của nó. Dung lượng khổng lồ của dữ liệu có thể dễ dàng áp đảo các mô hình thống kê. Ngoài ra, các chuyên gia thống kê cần thận trọng vì những mối tương quan mạnh mẽ nào đó của dữ liệu không nhất thiết chứng minh được một sự liên hệ nhân quả nào đó.
Chẳng hạn như vào cuối thập niên 40 của thế kỷ trước, trước khi có vắc-xin bại liệt, các chuyên gia y tế công cộng ở Mỹ ghi nhận rằng số ca bại liệt tăng cùng với lượng kem và nước ngọt được tiêu thụ. Khi đó, theo David Alan Grier, một sử gia và chuyên gia thống kê tại Đại học George Washington, việc loại bỏ những món này thậm chí đã được đề nghị như là một phần của chế độ ăn uống chống bại liệt. Người ta sau đó phát hiện ra rằng dịch bại liệt thường xảy ra phổ biến nhất vào những tháng nóng của mùa hè, thời điểm món kem được tiêu thụ nhiều hơn. Mặt khác, nếu sự bùng nổ của dữ liệu làm gia tăng những vấn đề có từ lâu đời của ngành thống kê, nó đồng thời cũng sẽ mở ra những lĩnh vực hoàn toàn mới.
Daniel Gruhl, một nhà nghiên cứu tại IBM, nói: “Điều quan trọng là để máy tính làm những gì mà chúng được thiết kế để làm tốt nhất: tìm ra những khác thường về toán học trong những đống dữ liệu. Điều này sau đó giúp con người dễ dàng hơn trong việc làm điều mà họ có khả năng làm tốt nhất: giải thích những điều bất thường nói trên”.
(Theo Minh Phương // Thời báo kinh tế Sài Gòn // New York Times)
Chuyển nhượng, cho thuê hoặc hợp tác phát triển nội dung trên các tên miền:
Quý vị quan tâm xin liên hệ: tieulong@6vnn.com