Nhận diện tầng lớp công nhân dữ liệu trong thời đại trí tuệ nhân tạo

“Mọi bước tiến của nền văn minh đều được xây dựng trên cơ sở lực lượng lao động dùng một lần.”

Nhận diện tầng lớp công nhân dữ liệu trong thời đại trí tuệ nhân tạo

Quách Mai ngồi trước máy tính, tất cả công việc của cô là “dạy” trí tuệ nhân tạo (AI) nhận dạng hình ảnh và chữ, như thể dạy một đứa trẻ lần đầu tiên được tiếp xúc với thế giới.

Trong công ty nơi cô làm việc, có gần 200 đồng nghiệp ngày ngày lặp đi lặp lại công việc máy móc và đầy đơn giản như vậy. Và, nếu nhìn vào tấm biển lớn trên cửa công ty, nó có dòng chữ “Công ty dán nhãn dữ liệu trí tuệ nhân tạo”. Và không chỉ những người ngồi đây, hàng triệu người ở khắp Trung Quốc đã tham gia vào ngành nghề đầy mới mẻ này: Những người dán nhãn dữ liệu cho trí tuệ nhân tạo.

Họ là những người công nhân trong thời đại của AI.

Công việc chính của những người này là đào tạo và điều chỉnh dữ liệu cho AI. Nhiệm vụ lúc đầu tương đối đơn giản, chẳng hạn như đánh giá xem ý nghĩa của một câu có trôi chảy hay không. Còn theo thời gian tăng lên, nhiệm vụ nâng cao là xác định các hình ảnh và mã vạch. Trong số đó, hình ảnh nhận dạng bao gồm nhận dạng khuôn mặt, đòi hỏi họ phải đánh dấu đường viền và vị trí của các đặc điểm trên khuôn mặt trong các điều kiện khác nhau về góc độ, ánh sáng và mức độ rõ ràng. Mỗi khuôn mặt phải được đánh dấu với hơn 100 điểm nhận dạng, bao gồm các vị trí chủ chốt như mắt, mũi, miệng và khớp hàm.

Bản chất của việc đào tạo AI theo cách này là cấu trúc dữ liệu hình ảnh.

Một quả táo có thể được bạn xác định chính xác chỉ bằng một cái nhìn trong một môi trường có độ chiếu sáng và rõ nét khác nhau. Mặc dù nguyên tắc về cách bộ não con người xử lý các tín hiệu của nó vẫn còn gây tranh cãi trong giới học thuật, nhưng về cơ bản đó là sự chính xác. Nhưng khi một máy tính nhìn thấy một quả táo, nó chỉ có thể nhận được một mạng lưới các pixel khác nhau và không thể xác định nó như một tổng thể, ví dụ như quả táo vào một ngày nắng và vào một ngày mưa sẽ xuất ra một ma trận hình ảnh pixel khác nhau cho máy tính.

Do đó, chỉ sau khi con người thực hiện xử lý một cách có cấu trúc các chú thích của video, hình ảnh, văn bản, âm thanh và các thông tin khác thì máy tính mới có thể nhận dạng được.

Quá trình cung cấp dữ liệu thông qua việc gắn nhãn này cho hệ thống trí tuệ nhân tạo chính là thứ được gọi là “đào tạo”. Mức độ tiên tiến của trí tuệ nhân tạo liên quan mật thiết đến quy mô và độ chính xác của dữ liệu đào tạo, càng nhiều dữ liệu và càng chính xác thì hệ thống càng thông minh.

Lái xe thông minh, chẩn đoán thông minh, nhận dạng khuôn mặt, ký hiệu cử chỉ, nhận dạng nông sản, thông tin hàng hóa, dịch vụ tài chính… Trí tuệ nhân tạo đã và đang được ứng dụng vào tất cả các khía cạnh của cuộc sống đô thị. Các gã khổng lồ công nghệ đã phát động một cuộc cạnh tranh khốc liệt xoay quanh trí tuệ nhân tạo. Nhưng phía sau tất cả vẫn là những đội quân dán nhãn như thế này và họ chính là những người sẽ quyết định kết quả của cuộc cạnh tranh trí tuệ nhân tạo giữa các gã khổng lồ công nghệ.

Cuộc sống của hàng triệu “công nhân dữ liệu cho AI”

Qingjian, một quận nhỏ với dân số chỉ 200.000 người bên sông Hoàng Hà, nằm ở thành phố Ngọc Lâm, tỉnh Thiểm Tây, Trung Quốc. Năm 2019, Alibaba hợp tác với chính quyền địa phương để phát triển một dự án xóa đói giảm nghèo mang tên “Đậu AI”. Theo thỏa thuận, Alibaba sẽ cung cấp các đơn đặt hàng cho khu công nghiệp và chịu trách nhiệm đào tạo, còn chính quyền địa phương sẽ cung cấp địa điểm và thiết bị để tham gia xây dựng chung. Hội chợ việc làm của dự án rõ ràng cho thấy nó ủng hộ các nhóm người yếu thế trong xã hội, và 80% thu nhập được sử dụng để phân phối vào tiền lương, thậm chí không được phép phân chia lợi nhuận.

Nội dung công việc chính của nhân viên tham gia “AI Dou” là gắn nhãn cho trí tuệ nhân tạo, và nó nhanh chóng trở thành công ty có số lượng nhân viên lớn nhất quận. Không chỉ tại đây, 7 tỉnh và 8 quận khác trên cả nước cũng đã thành lập dự án hợp tác xóa đói giảm nghèo “Đậu AI”.

Về cơ bản, nó là một dự án xóa đói giảm nghèo thuần túy. Tuy nhiên, những người có liên quan ở Alibaba cũng thẳng thắn thừa nhận rằng nếu chỉ dựa vào “Đậu AI” thì còn lâu mới đảm bảo nguồn cung ứng hậu cần cho trí tuệ nhân tạo của Alibaba.

“Nhu cầu cho toàn bộ ngành công nghiệp là quá lớn”, họ cho biết.

Trên thực tế, không chỉ riêng Alibaba, mọi gã khổng lồ công nghệ ở Trung Quốc với nhu cầu dữ liệu lớn đều đã thiết lập chuỗi cung ứng dán nhãn dữ liệu cho AI của riêng mình. Hầu hết trong số đó đã xây dựng các nền tảng để tìm nguồn cung ứng từ cộng đồng, chẳng hạn như Tencent Souhuobang, Baidu Smart Cloud, JD Zhongzhi và iFlytek.

Tìm nguồn cung ứng từ cộng đồng là một mô hình việc làm linh hoạt. Người tham gia không cần thiết lập mối quan hệ việc làm với nền tảng hoặc người yêu cầu dữ liệu. Họ chỉ hoàn thành việc cộng tác thông qua mạng lưới và nhận được thu nhập dựa trên gói nhiệm vụ đã hoàn thành.

Thông qua mô hình nguồn cung ứng cộng đồng, các ông lớn công nghệ Trung Quốc có thể nhanh chóng thu thập một lượng lớn lao động nhàn rỗi và linh hoạt, dù là toàn thời gian hay bán thời gian, và có thể trực tiếp làm việc sau khi hoàn thành khóa đào tạo. Đối với các công ty, hoàn thành nhiệm vụ trước khi trả lương cũng là một lựa chọn rất an toàn và có thể giải tỏa gánh nặng tiền lương của công ty.

Ví dụ, thử nghiệm trên nền tảng Sohuobang của Tencent. Sau khi vượt qua nhiều bài kiểm tra như nhận dạng văn bản, mức độ liên quan của tìm kiếm, đánh giá nội dung… người dùng có thể lấy đơn đặt hàng cho các nhiệm vụ tương ứng. Sau khi vượt qua bài kiểm tra nhận dạng văn bản tương đối khó, hai bộ nhiệm vụ với phần thưởng là 150 điểm đã được hoàn thành, mất khoảng 3 phút rưỡi.

Cứ 1.000 điểm sẽ đổi được 1 nhân dân tệ, và nếu tính theo giờ làm việc bình thường, thu nhập hàng tháng có thể khoảng 1.800 nhân dân tệ. Với việc cải thiện khả năng làm việc và tăng phần thưởng cho các câu hỏi khó, hiệu quả đạt được khi hoàn thành nhiệm vụ cũng sẽ tăng lên. Dựa trên phần thưởng nhiệm vụ hiện tại, một người dán nhãn có tay nghề cao dự kiến ​​sẽ nhận được mức lương mỗi tháng 3.000 nhân dân tệ, khoảng 10 triệu đồng, hoặc thậm chí cao hơn.

Việc chọn nguồn cung ứng từ cộng đồng hoặc các công ty bên thứ ba để cung cấp dịch vụ ghi nhãn có thể linh hoạt hơn, nhưng nếu các công ty cần dịch vụ ghi nhãn chất lượng cao hoặc ổn định, hoặc nội dung của nhiệm vụ liên quan đến quyền sở hữu trí tuệ cốt lõi, thì các nhóm do chính họ tự xây dựng sẽ an toàn hơn.

Theo báo cáo của các phương tiện truyền thông, có hơn 3.000 nhân viên dãn nhãn thuộc cơ sở Dữ liệu Trí tuệ Nhân tạo ở tỉnh Sơn Tây của Baidu, chủ yếu xây dựng các chú thích có nội dung liên quan tới lái xe tự động và nhận dạng khuôn mặt. Trong đó, 86% nhân viên là những người sinh năm 90 trở lại đây. Toutiao cũng tuyển dụng 40.000 chuyên gia dán nhãn dữ liệu ở Thiên Tân, Tế Nam và Vũ Hán.

Ngoài các công ty Internet lớn tự xây dựng và tổ chức các nguồn cung ứng từ cộng đồng, còn có các nhà cung cấp dịch vụ bên thứ ba đang hoạt động trên thị trường như Totoro, Yunce, Datatang, Aishu Wisdom và Haiti AAC.

Và tổng số nhân sự trong ngành nghề mới mẻ này ở Trung Quốc đã vượt quá một triệu lao động.

Sự phát triển nhanh chóng khiến Bộ Nhân lực và An sinh Xã hội nước này đã chính thức công nhận “nhân viên dán nhãn trí tuệ nhân tạo” là một nghề mới và được đưa vào danh mục phân loại nghề quốc gia, vào tháng 4/2020. Ước tính đến năm 2022, số lao động có liên quan dự kiến ​​sẽ đạt 5 triệu người.

Điều này cho thấy quy mô và tầm ảnh hưởng của nhóm lao động này đang tăng lên, do đó họ đã hoàn toàn lọt vào tầm nhìn của các cơ quan quản lý.

Những người công nhân cuối cùng

Màu sắc của bầu trời, khung cảnh bên đường, tình trạng giao thông, vết thương được chiếu trên phim CT … tất cả thông tin hình ảnh, âm thanh hay văn bản đều là những mảnh ghép tạo nên thế giới. Nếu không có công việc ghi nhãn dữ liệu, con người sẽ không thể khiến cho máy móc nhận thức được toàn bộ hành tinh này.

Trong quá trình máy học, các tập dữ liệu tham gia được chia thành tập huấn luyện, tập xác minh và tập kiểm tra. Nhiệm vụ của máy là khớp các điểm dữ liệu của tập huấn luyện, điều chỉnh mô hình dự đoán thông qua tập xác minh và thực hiện tập kiểm tra để đánh giá mức độ chính xác.

Việc dạy AI bằng nhãn dán được gọi là quá trình học máy “có giám sát”. Nhưng khi trí tuệ nhân tạo dần được trau dồi, khả năng nhận dạng của nó sẽ có độ chính xác ngày càng được cải thiện. Đó là khi hệ thống sẽ chuyển sang chế độ hợp tác giữa người và máy. Cho đến khi độ chính xác và hiệu quả của trí tuệ nhân tạo trong một mô hình nào đó hoàn toàn vượt qua con người, lúc này, hệ thống chính thức rời bỏ các nhãn dán và bước vào máy học không được giám sát.

Về lý thuyết, với sự phát triển của công nghệ, mọi kịch bản trong tương lai đều cho rằng trí tuệ nhân tạo có thể đi vào trạng thái học tập không giám sát. Và đó cũng là khi ngành nghề này sẽ bị mai một.

Nhưng, ít nhất trong ngắn hạn, đây vẫn là công việc không thể thiếu. Có 4 lý do cho quan điểm này.

Một, lĩnh vực thị giác máy tính vẫn đang trong giai đoạn sơ khai và hệ thống dữ liệu vẫn đang được tích lũy. Hai, từ góc độ đào tạo nhận dạng hình ảnh thực tế, các công ty hiện vẫn đang thực hiện việc học có giám sát. Ba, trong môi trường đầy tính cạnh tranh hiện nay, tất cả các bên đều không có động lực để thiết lập một cơ sở dữ liệu công cộng, vì vậy giá trị của dữ liệu có cấu trúc và tự gắn nhãn vẫn sẽ nổi bật hơn. Cuối cùng, từ góc độ kỹ thuật, vẫn chưa có một giải pháp tối ưu nào được công nhận trong công nghệ nhận dạng trên thị trường. Vẫn rất cần phải gắn nhãn dữ liệu theo cách thủ công trước khi các giải pháp tối ưu được công nhận .

Trong thế giới thực luôn có những tình huống bất ngờ xảy ra. Không ai biết trí thông minh nhân tạo sẽ nhận ra được một chiếc xe jeep hay một chiếc xe đạp hay một chiếc xe tải hạng nặng. Nó vẫn đòi hỏi phải liên tục bổ sung dữ liệu khổng lồ, đa dạng và thực tế hơn nữa.

Đã có lúc, người ta lo lắng rằng sự kết thúc của AI sẽ giải phóng con người khỏi những công việc đơn giản, máy móc và lặp đi lặp lại. Từ đó, con người chỉ cần tập trung vào những vị trí đòi hỏi sự sáng tạo, cảm xúc và giao tiếp xã hội.

Nhưng, hiếm có ai nghĩ rằng quá trình xây dựng trí tuệ nhân tạo sẽ tạo ra nhiều vị trí lao động đơn giản, máy móc và lặp đi lặp lại đến như vậy. Và họ, có lẽ sẽ chính là những người công nhân cuối cùng của loài người.

Ở tuổi 33 tuổi, Quách Mai, người từng có kinh nghiệm làm việc nhiều năm ở một mỏ than ở tỉnh Thái Nguyên, chưa bao giờ nghĩ rằng công việc trong tương lai của mình sẽ liên quan đến trí tuệ nhân tạo.

Trung bình một ngày, cô phải chấm 600.000 điểm trước màn hình, và có ngày cô đã chấm hơn 1,08 triệu điểm. Nhưng trong mắt người phụ nữ này, công việc lặp đi lặp lại tưởng chừng nhàm chán đó lại mang một ý nghĩa khác. Bởi mỗi điểm được đánh dấu lại giống như một viên gạch được thêm vào cho sự phát triển của AI, và công việc này cũng cho phép gia đình cô có cuộc sống tốt hơn.

Trong số những giá trị mà trí tuệ nhân tạo AI mang lại cho xã hội, hoạt động tìm kiếm con người của Baidu khiến cô, một người mẹ, trở nên đặc biệt đồng cảm. Khi lần đầu tiên trở thành chuyên gia dán nhãn, cô thực sự không hiểu tại sao mình phải đánh dấu 106 điểm trên khuôn mặt. Nhưng sau thời gian làm việc, cô biết rằng mình đã đánh dấu các điểm dữ liệu để cho phép AI có thể học một cách độc lập. Từ đó, công nghệ vào Baidu sẽ giúp đỡ tìm kiếm mọi người, như giúp trẻ em bị thất lạc hoặc bị buôn bán trái phép tìm thấy cha mẹ của chúng. Cho đến nay, tính năng truy tìm bằng AI của Baidu đã giúp hơn 10.000 gia đình đoàn tụ. Điều này khiến Quách Mai lần đầu tiên cảm thấy công việc của mình có ý nghĩa như vậy, vì bản thân cô cũng là một người mẹ có con gái 7 tuổi.

Khi máy móc thay thế sức người và trở thành sức mạnh của thời đại, một số người đã mất việc làm. Tuy nhiên, các ngành như năng lượng, sản xuất, bảo trì và vận tải mới lại được tạo ra xung quanh máy móc, và một loạt công việc khác đã ra đời.

Trong tương lai gần, trí tuệ nhân tạo có thể trở thành sức mạnh của kỷ nguyên mới. Khi đó, một trật tự nghề nghiệp mới có thể sẽ được thiết lập lại xung quanh trí tuệ nhân tạo.

Còn việc trí tuệ nhân tạo trong tương lai sẽ mang lại điều gì, thì chúng ta chỉ có thể chờ đợi trong một tương lai xa hơn. Trong bộ phim khoa học viễn tưởng “Blade Runner 2049”, nhân vật Niander Wallace có một câu nói rằng: “Mọi bước tiến của nền văn minh đều được xây dựng trên cơ sở lực lượng lao động dùng một lần.”

Vậy, hãy cùng chờ xem loại thế giới, thứ mà các công nhân dán nhãn đã và đang dạy cho các hệ thống trí thông minh nhân tạo, sẽ có hình hài như thế nào.

Theo PHÁP LUẬT & BẠN ĐỌC / IFENG 

Tags: , , ,