Các dòng code ngầm đã cho phép các ứng dụng theo dõi điện thoại của bạn.

Khi đại dịch Corona mới nổ ra, một bản đồ động tới từ công ty Tectonix đã được lan truyền rộng rãi. Trên bản đồ này, ta có thể thấy hàng ngàn sinh viên nghỉ xuân đang rời Florida để về nhà trên khắp nước Mỹ – dưới hình dạng vô số các chấm cam nhỏ tụ tập trên cùng một bờ biển vào đầu tháng 3, rồi dần tỏa ra khắp nước Mỹ chỉ trong 2 tuần.

Qua bản đồ này, ta có thể thấy rõ mức độ lan truyền virus khủng khiếp chỉ từ một bãi biển duy nhất tới khắp đất nước. Dữ liệu đã cho ta thấy một sự thật không thể thấy bằng mắt thường,” video nói.

Tuy nhiên, lại có một sự thật khác mà chẳng mấy ai thấy được qua câu chuyện này, đó là: dữ liệu chi tiết về chúng ta đang bị thu thập thông qua các công cụ theo dõi ẩn giấu bên trong các ứng dụng smartphone, và chúng đang được gửi tới những công ty mà chẳng ai hay biết. Hiện tượng này đã diễn ra trong suốt nhiều năm, và hầu như là một sự tồn tại thiết yếu của nền công nghiệp ứng dụng di động. Và chỉ tới nay, trong bối cảnh đại dịch Covid-19, thì những công ty này, cũng như năng lực của chúng, mới được đưa ra ngoài ánh sáng.

Chiếc điện thoại của bạn là một công cụ lý tưởng cho các nhà quảng cáo và những kẻ môi giới dữ liệu, thông qua việc bán dữ liệu của bạn, cũng như đưa ra các quảng cáo từ các dữ liệu đó. Điều này thường được thực hiện thông qua các SDK (software development kits) mà những công ty này phân phối miễn phí tới các nhà phát triển ứng dụng, để đổi lấy thông tin mà các ứng dụng này thu thập được, hoặc một phần hoa hồng từ quảng cáo. Như vậy, khi bạn bật định vị trên các ứng dụng thời tiết, thì rất có thể, dữ liệu vị trí của bạn đang được chuyển tới cho một công ty khác.

Và đây cũng chính là cách X-Mode lấy được dữ liệu giúp tạo ra chiếc bản đồ Tectonix đình đám ngày nào. Một công ty mang tên Unacast cũng đang dùng định vị trong SDK để đánh giá mức độ giãn cách xã hội của người dùng của họ trên nhiều hạt khác nhau. Ngoài ra cũng phải kể tới Cuebiq – một công ty thu thập dữ liệu qua SDK, sau đó chia sẻ các thông tin này với tờ New Yorks Times – nơi sau đó đã cho ra đời rất nhiều bài báo về mức độ thay đổi của giãn cách xã hội sau khi Mỹ hủy bỏ lệnh giới nghiêm và các bang dần mở cửa trở lại. Kỳ lạ thay, sự việc này lại xảy ra chỉ vài tháng sau khi chính tờ báo này đã chỉ trích các hành vi thu thập dữ liệu vị trí của Cuebiq – cho thấy rõ sự thay đổi trong quan điểm đại chúng về các hành vi nêu trên trong bối cảnh đại dịch.

Ta cũng đã chứng kiến nhiều lần những dữ liệu này không được sử dụng để làm lợi cho công chúng. Theo một bài viết gần đây của tờ Wall Street Journal, dữ liệu vị trí không chỉ được chia sẻ tới các nhà quảng cáo và môi giới dữ liệu, mà còn được chuyển tới cả cơ quan hành pháp, nhằm định vị được người nhập cư bất hợp pháp. Một ví dụ gần đây hơn là khi công ty dữ liệu Mobilewalla tự công bố rằng, hãng có thể theo dấu điện thoại của những người biểu tình, thậm chí xác định được tuổi tác, giới tính, và màu da của họ, mặc cho những dữ liệu này vốn là phải được ẩn danh.

Đáng tiếc thay, trong khi đa số, thậm chí là tất cả ứng dụng trên điện thoại của ta đều dùng SDK, thì lại rất ít người hiểu được những công cụ này là gì, dữ liệu của họ đang được thu thập như thế nào, và chúng đang được sử dụng cho thương mại ra sao. Bài viết này sẽ lí giải tất cả những câu hỏi đó.

SDK là gì và nó theo dõi chúng ta như thế nào?

Về bản chất, SDK không phải là công cụ theo dõi, song chúng lại là phương tiện trung gian, mà thông qua đó, việc theo dõi qua ứng dụng được thực hiện. Lí giải cơ bản thì SDK là một gói công cụ cho phép ứng dụng vận hành, và các công ty như Apple và Android thường cung cấp các SDK cho hệ điều hành, mà với chúng, các nhà phát triển có thể xây dựng các ứng dụng cho những thiết bị tương ứng. Ngoài ra, các bên thứ 3 cũng sẽ cung cấp SDK, giúp các nhà phát triển có thể dễ dàng và nhanh chóng thêm tính năng cho ứng dụng.

“Có một cuộc đua vẫn đang diễn ra trong suốt nhiều năm qua với mục tiêu là làm sao cho mọi người có thể phát triển ứng dụng một cách đơn giản nhất,” Norman Sadeh, Viện trưởng Phòng nghiên cứu Thương mại Di động và Quản lý Chuỗi cung ứng số, trực thuộc Đại học Carnegie Mellon University, kiêm đồng giám đốc Chương trình MSIT-Privacy Engineering Program, chia sẻ.

Các SDK, hay software development kit, thường được các nhà phát triển ứng dụng sử dụng để xây dựng hồ sơ người dùng. Tuy nhiên, những thông tin trong hồ sơ, thay vì chỉ được lưu trong ứng dụng, lại thường được chia sẻ cho cả các bên thứ 3, để bán cho nhà quảng cáo và môi giới dữ liệu. Ảnh: Mark Makela/Getty Images.

Cụ thể, nếu như một nhà phát triển muốn người dùng của mình có thể log in bằng tài khoản Facebook, họ sẽ cần SDK Login của mạng xã hội này. Còn nếu ứng dụng của họ cần tới bản đồ hoặc dữ liệu bản đồ, thì họ sẽ cần tới SDK Map của Google. Điều này có nghĩa là, nếu không có SDK, thì các nhà phát triển sẽ phải xây dựng mọi thứ từ đầu – một quá trình vô cùng tốn thời gian, phức tạp, và cực kỳ tốn kém. Ngoài ra, SDK cũng giúp ứng dụng có thể tương tác với các bên thứ 3 thông qua API (application programming interface). Như vậy, nếu ứng dụng cần Login Facebook, thì SDK sẽ giúp nhà phát triển xây dựng và ứng dụng tính năng sign-in này, còn API thì cho phép ứng dụng và Facebook có thể giao tiếp với nhau để tiến hành sign in.

Có rất nhiều API và thư viện tới từ bên thứ 3 tồn tại trong hệ sinh thái ứng dụng, với nhiều mục đích, từ quảng cáo, tích hợp mạng xã hội, tới phân tích dữ liệu,” Sadeh nói. “Hệ sinh này do đó đã trở nên vô cùng phức tạo, còn các dòng dữ liệu phát sinh từ đó thì lại vô cùng đa dạng và rất đáng quan ngại.”

SDK do đó cũng có thể thu thập và lấy dữ liệu về cho bên thứ 3 cung cấp chúng – mặc dù điều này hoàn toàn không nằm trong tính năng của ứng dụng. Vài tháng trước, ứng dụng Zoom trên iOS cũng đã bị phát hiện gửi dữ liệu về Facebook thông qua SDK, một hành động mà theo Zoom là hoàn toàn không có chủ ý. Và rất nhiều ứng dụng khác cũng đang làm điều tương tự.

Và đây chính là nơi phát sinh việc theo dõi. Các dữ liệu mà ứng dụng của bạn gửi cho bên thứ 3 có thể được sử dụng để xây dựng hồ sơ người dùng ứng dụng, mà thông qua đó, các nhà quảng cáo có thể định vị quảng cáo tới người dùng. Bạn thậm chí sẽ không biết về sự thu thập này, cách bạn bị theo dõi, hay nơi đang thu thập dữ liệu của bạn. Ta đang chú trọng phần nhiều vào dữ liệu địa điểm, bởi lẽ đối với nhiều người, thì đây là hành vi xâm phạm riêng tư nghiêm trọng nhất, song ứng dụng của bạn vẫn có thể theo dõi bạn bằng nhiều hình thức khác, để biết được bạn là ai và bạn đang quan tâm tới những quảng cáo nào. Các công ty đồng thời lại muốn SDK của mình tồn tại trên càng nhiều ứng dụng càng tốt, để thu thập thông tin của thêm nhiều người. Và chính các nhà phát triển ứng dụng cũng không biết (hoặc không quan tâm) về việc người dùng của họ đang bị đánh cắp dữ liệu.

Nếu tôi là một startup, thì tôi sẽ cần làm ra một app càng nhanh càng tốt. Vậy nên tôi sẽ dùng một loạt các SDK, tạo ra ứng dụng, và rồi đăng tải nó lên App Store. Như vậy, chính tôi, người tạo ra ứng dụng, còn không biết được các thành phần của nó,” Sean O’Brien, nhà sáng lập kiêm giám đốc chỉ đạo Phòng Nghiên cứu Bảo mật Yale, chia sẻ với báo giới.

Cũng đã có rất nhiều câu chuyện về việc các SDK cố tình thu thập nhiều dữ liệu hơn mức cho phép mà các nhà phát triển, và người dùng, không hề hay biết. O’Brien cũng khuyến khích các nhà phát triển kiểm tra bảo mật ứng dụng của mình để phòng tránh hiện tượng này, tuy nhiên, kể cả các công ty lớn như Zoom, cũng ít muốn phải tốn tài nguyên để thực hiện tác vụ đó.

Hệ sinh thái ứng dụng

Việc theo dõi qua SDK đã trở thành một phần không thể tách rời khỏi hệ sinh thái ứng dụng – tương tự như Internet và đời sống của chúng ta bây giờ. Cụ thể, hầu như mọi thứ ta đang làm online đều đang bị theo dõi và thương mại hóa ngay từ đầu (ví dụ: cookies). Và vì ứng dụng được cài đặt trực tiếp trên điện thoại (thay vì phải truy cập qua website), sở hữu rất nhiều tính năng, còn chúng ta thì lại mang điện thoại theo mình tới mọi nơi – chúng có thể thu thập được rất nhiều dữ liệu.

“SDK giống như một phiên bản di động của cookies, có điều mạnh hơn rất nhiều,” Whitney Merrill, một luật sư bảo mật kiêm nhà kỹ thuật, chia sẻ.

Các nhà phát triển thường cài SDK ad network (mạng quảng cáo) trong ứng dụng của họ, và SDK này sẽ giúp họ định vị quảng cáo, cũng như thu thập thông tin người dùng. Hãy thử lấy Facebook làm ví dụ: SDK quảng cáo của mạng xã hội này sẽ định vị quảng cáo cho bạn dựa trên các thông tin trên Facebook, cũng như trong các ứng dụng có SDK của bạn – mà theo công ty MightySignal, SDK tồn tại trong hàng trăm ngàn ứng dụng phổ biến.

Theo báo cáo State of Mobile năm 2020 của App Annie, trong năm 2019, các công ty đã dành ra tổng cộng 190 triệu USD cho việc quảng cáo trên điện thoại, trong đó chủ yếu bao gồm các quảng cáo định vị sử dụng thông tin từ SDK và các nguồn khác. Thông thường, các ứng dụng miễn phí (hay thậm chí là có trả phí) chỉ tồn tại được thông qua tiền kiếm từ quảng cáo và dữ liệu vị trí thu được. Trong khi đó, quảng cáo mà không được định vị thì chẳng có chút giá trị nào, còn thuê người để làm định vị quảng cáo thì quá tốn kém – trong khi SDK lại có thể thực hiện điều này tự động và miễn phí.

Đa số các công ty sở hữu SDK sẽ bao biện rằng, dữ liệu mà họ thu thập là không thể định danh (thông thường, điều này có nghĩa là dữ liệu đó được gắn với ID thiết bị, thay vì ID người dùng), và các chính sách bảo mật sẽ luôn cung cấp thông tin về mục đích sử dụng của các dữ liệu này. Tuy nhiên, các chuyên gia bảo mật lại khẳng định rằng, các dữ liệu ẩn định danh hoàn toàn có thể bị định danh trở lại, và việc ẩn danh là hầu như không thể, đặc biệt là khi các bên mối giới thông thường có quá nhiều dữ liệu từ quá nhiều nguồn.

Khối lượng dữ liệu mà họ có về chúng ta lớn tới mức khó có thể tưởng tượng,” Sadeh chia sẻ. “Môi giới thường rất giỏi việc lắp ráp các mẩu dữ liệu này.”

X-Mode và Cuebiq sở hữu SDK trong lần lượt là 300 và 180 ứng dụng khác nhau, với tỷ lệ bật định vị trong các ứng dụng này lần lượt là ở ngưỡng 55-85% và 20-45%, đều khẳng định rằng, các công ty này rất chú trọng quyền riêng tư của người dùng, đảm bảo chấp hành luật về bảo mật, và tin tưởng rằng, có cách để bảo mật người dùng, trong khi vẫn trích xuất được giá trị từ các dữ liệu thu thập được.

Tôi tin vào tầm quan trọng của big data. Nhưng tôi cũng tin rằng nó phải được thực hiện một cách đúng đắn,” Antonio Tomarchio, CEO của Cuebiq, chia sẻ.

Làm sao để hạn chế tối đa việc bị theo dõi?

Qua nhiều năm, app store và các hệ điều hành đã phần nào hạn chế được những sự theo dõi trên. Cụ thể, người dùng đã có thể lựa chọn mức độ cấp quyền truy cập cho từng ứng dụng trên điện thoại, loại bỏ các kẽ hở bảo mật cho phép ứng dụng theo dõi vị trí kể cả khi người dùng đang tắt GPS, đồng thời tạo ra các đặc điểm định danh cho quảng cáo để thay thế các đặc điểm định danh của thiết bị – thứ mà ta không thể thay đổi, và cũng là một trung gian chính giúp các công ty dữ liệu và nhà quảng cáo theo dõi người dùng qua ứng dụng.

Biển quảng cáo của Apple có ghi “Những gì xảy ra trên iPhone thì mãi được giữ ở trên iPhone”, tại Las Vegas, Nevada, được chụp vào 6/1/2018. Ảnh: Robyn Beck/AFP via Getty Images.

Quá trình này cũng phần nào gợi ta nhớ về trò chơi đập chuột: Trong khi các hãng dữ liệu đang liên tục tìm thêm cách để theo dõi người dùng, thì các nhà phát triển hệ điều hành lại tìm cách để ngăn chặn, hoặc hạn chế những hành vi theo dõi này.

Còn nếu bạn không muốn tin vào các hãng dữ liệu, bên môi giới dữ liệu, hoặc những công ty quảng cáo “bảo mật”, thì bạn có thể thực hiện một số biện pháp để ngăn không cho dữ liệu của mình bị thu thập. Cụ thể, Apple và Android đã cho phép người dùng hạn chế theo dõi quảng cáo trên thiết bị. Bạn cũng cũng có thể hạn chế theo dõi này trên các mạng xã hội như Facebook, Google, và Twitter. Ngoài ra, nếu ứng dụng muốn được cấp quyền sử dụng tính năng của thiết bị (như theo dõi vị trí), thì hãy chỉ đồng ý nếu bạn thực sự cần, và chỉ bật tính năng địa điểm khi bạn cần dùng các ứng dụng đó. Ngoài ra, hãy đọc các chính sách bảo mật của những ứng dụng mà bạn tải về, nhằm hiểu rõ được những ứng dụng đó đang thu thập các thông tin gì và đang chia sẻ những thông tin này với ai, đồng thời tắt chia sẻ dữ liệu vị trí nếu có thể (X-Mode và Cuebiq đều hỗ trợ tắt trực tiếp). Theo nhiều chuyên gia bảo mật, việc ngăn chặn theo dõi toàn bộ trên thiết bị và qua ứng dụng là bất khả thi, tuy nhiên, nếu tuân theo các gợi ý trên, thì bạn sẽ vẫn giảm bớt phần nào các chế độ theo dõi này.

Tương lai mập mờ 

Chỉ vài năm trước, ta vẫn chẳng có cách nào ngoài việc mong đợi các công ty tự điều tiết chính họ – và rất nhiều công ty vẫn khẳng định, họ có làm điều này. Tuy nhiên, ta khó có thể biết được cam kết này có là sự thật hay không, nhất là khi tính minh bạch của việc xử lý thông tin còn thấp. và đã có rất nhiều sự việc hi hữu trong quá khứ. Có lẽ, thay đổi sẽ chỉ phát sinh khi xuất hiện áp lực từ bên ngoài.

Ở mức độ hệ điều hành, Apple đã cho ra rất nhiều cải tiến về bảo mật và quản lý dữ liệu qua từng năm, và cũng mới công bố rằng, iOS 14 mới sẽ tiếp tục sự tiến bộ này. Trong số đó, một số cải tiến mới bao gồm: Ứng dụng sẽ phải thông báo tới người dùng là nó muốn theo dõi họ, và phải được người dùng cho phép; chúng cũng sẽ phải chia sẻ với người dùng rằng thông tin nào của họ đang bị thu thập, và liệu rằng các thông tin này có thể được sử dụng để định danh họ hay không.

Tuy nhiên, Apple cũng phải cân bằng nhu cầu của khách hàng – những người không muốn bị theo dõi, và cũng không muốn tốn quá nhiều công sức để hạn chế theo dõi, với nhu cầu của các nhà phát triển – những người đang dựa vào quảng cáo để kiếm lời.

Và cũng có rất nhiều người cảm thấy mệt mỏi khi phải lựa chọn quá nhiều,” Merrill nói. Quả nhiên, người dùng sẽ rất mệt mỏi nếu họ mở một ứng dụng mới, và phải trả lời tới 20 câu hỏi cấp phép khác nhau trên thiết bị.

Merrill cũng bổ sung: “Đó sẽ là một trải nghiệm tồi tệ, bởi lẽ bạn sẽ liên tục phải trả lời những pop-up này, trong khi bạn chỉ muốn được dùng ứng dụng.”

Apple chia sẻ rằng, công ty đang liên tục hoàn thiện hệ điều hành iOS, nhằm hạn chế tối đa dữ liệu thu thập từ thiết bị, nhưng không gây ảnh hưởng tới tính năng và trải nghiệm người dùng.

Ngoài ra, cũng có rất nhiều điều luật yêu cầu các công ty phải công khai và được người dùng đồng thuận, và rất nhiều sắc lệnh đang được nhen nhúm hoặc chờ duyệt, từ Quy định bảo vệ dữ liệu chung của Liên minh Châu Âu cho tới Đạo luật bảo mật người tiêu dùng California. Rất nhiều bang khác cũng đang tiếp nối California với các đạo luật bảo mật riêng, song song với đó là nhiều điều luật được trình lên cấp quốc gia. Và nếu làm đúng, thì các chuyên gia bảo mật tin rằng, luật pháp sẽ điều chỉnh lại nền công nghiệp dữ liệu với rất nhiều tồn tại ở hiện tại. Đáp lại xu thế này, nhiều CEO của các công ty dữ liệu cũng bày tỏ thái độ tích cực.

Thị trường sẽ trở nên trưởng thành hơn và hợp pháp hơn,” Joshua Anton, nhà sáng lập kiêm CEO của X- chia sẻ.Các sự kiện hiện nay đang dường như phỏng theo CAN-SPAM vào đầu những năm 2000… Có thêm luật là một dấu hiệu tích cực. Và tôi tin rằng, chúng tôi, cũng như nhiều công ty khác, cũng rất ủng hộ việc có thêm luật pháp, giúp người tiêu dùng nắm nhiều quyền kiểm soát dữ liệu vị trí của họ hơn.”

O’Brien thì lại tin rằng, pháp luật không phải là lời giải cho vấn đề ở hiện tại, bởi lẽ, nó chỉ có thể được giải quyết bằng chính nguồn gốc gây ra nó: tiền.

Tôi nghĩ lợi nhuận là quan trọng. Ngành công nghiệp định vị quảng cáo đang dần đi xuống, và các công ty cũng đang dần chịu ảnh hưởng. Đã có rất nhiều công ty ngừng quảng cáo trên Facebook, không phải là vì lí do chính trị hay đạo đức, mà bởi vì họ không cảm thấy giá trị đạt được thông qua quảng cáo Facebook là xứng đáng với số tiền mà họ bỏ ra,” O’Brien nói.

Một số nghiên cứu cũng đã chỉ ra rằng, với nhiều nhãn hàng, quảng cáo định vị không hề vượt quá giá trị so với các quảng cáo thông thường, hay thậm chí là ít giá trị khi người dùng mất niềm tin vào quảng cáo, còn chi phí quảng cáo và chi phí cho công cụ bảo mật theo quy định thì ngày một đội lên.

Những công ty từng đổ tiền vào quảng cáo trên Google, Facebook, hay các ứng dụng tương tự, đang không còn chắc chắn,” O’Brien chia sẻ. “Họ đang mất dần đi khả năng liên tục quăng tiền vào quảng cáo như đang ở trong casino.”

Doanh thu từ quảng cáo của Twitter trong năm ngoái cũng đã sụt giảm đáng kể, bởi lẽ công ty này đã chia sẻ rằng, họ phải cắt giảm dữ liệu thu thập (mạng xã hội này từng “vô tình” thu thập quá nhiều thông tin từ người dùng, kể cả khi người dùng trực tiếp yêu cầu Twitter không làm như vậy) cho việc định vị quảng cáo. Và điều này đã cho thấy rằng, nhu cầu bảo mật của người dùng, cũng như các đạo luật và quy định mới đang tác động mạnh mẽ lên công nghiệp quảng cáo – và rất dễ dẫn tới thay đổi.

Tuy nhiên, ở hiện tại, thì hệ sinh thái ứng dụng vẫn đang thu thập dữ liệu của bạn cho mục đích quảng cáo. Tất nhiên, nếu những dữ liệu này được sử dụng cho việc ngăn chặn virus Corona, thì sẽ không mấy ai cảm thấy phiền lòng. Còn nếu chúng đang được sử dụng để định danh người biểu tình và truyền bá tư tưởng, thì đây lại là một hành vi hoàn toàn không phù hợp. Và trong bối cảnh còn thiếu các quy định của chính phủ về việc hạn chế các thông tin được thu thập và hình thức sử dụng các thông tin này, thì bạn sẽ chẳng còn cách nào khác ngoài việc tin vào các công ty dữ liệu, cũng như các nhà phát triển ứng dụng của bạn.

Theo VOX

Tin liên quan: