Do cuộc khủng hoảng lưu trữ dữ liệu, Hoa Kỳ đang đầu tư đến 48 triệu USD để phát triển các ADN thành ổ cứng sống.

Mỗi khi thực hiện các công việc như gửi email, tìm kiếm thông tin trên Google, tải ảnh lên Facebook hay xem phim trên Netflix, ta đều cần dữ liệu từ ổ cứng. Những ổ cứng này có số lượng lên tới hàng triệu chiếc và được lưu trữ tại các trung tâm rộng lớn trên khắp thế giới.

Mặc dù các trung tâm lưu trữ dữ liệu vẫn đang xây dựng thêm, nhưng về lâu dài, các hệ thống lưu trữ hiện tại khó có thể đáp ứng được nhu cầu dữ liệu ngày càng lớn như hiện nay. Nhà nghiên cứu tại Viện nghiên cứu công nghệ Georgia, ông Nicholas Guise cho rằng: “Chúng ta khó có thể lưu trữ được hết lượng dữ liệu khổng lồ như hiện tại.” Ông cũng đưa ra giải pháp cho vấn đề này, đó là tìm ra cách lưu trữ mới, chứa được nhiều dữ liệu và tiết kiệm không gian hơn.

Các trung tâm lưu trữ dữ liệu lớn tại Hoa Kỳ đã tiêu tốn hàng trăm triệu đô la để duy trì hoạt động và chiếm gần 2% mức tiêu thụ điện của cả nước. Trong tương lai, những con số này dự kiến sẽ còn tăng lên gấp nhiều lần. Vì vậy, chính phủ Hoa Kỳ đã vừa đầu tư 48 triệu đô la vào một giải pháp khả thi hơn, đó là lưu trữ dữ liệu trong ADN.

Nếu như trước đây, các phương pháp mã hóa bài hát, hình ảnh hay tệp vào trong ADN còn đắt và tốn thời gian, thì giờ đây, một phương pháp mới đã được ra đời. Theo IARPA, mục tiêu mà cơ quan này phát triển phương pháp lưu trữ mới là để lưu trữ một exabyte dữ liệu, tương đương với một triệu ổ cứng cỡ terabyte, chỉ trong một thiết bị để bàn giá cả phải chăng.

Quản lý chương trình của IARPA, ông David Markowitz cho biết: “Chúng ta đang bước vào kỷ nguyên mới, với big data và nhu cầu lưu trữ, sử dụng dữ liệu vô cùng lớn. Do đó, người dùng phải lựa chọn chi tiền cho nhiều tài nguyên lưu trữ hơn hoặc xoá bỏ một phần dữ liệu của họ.”

Vào tháng 1, IARPA đã chi 25 triệu đô la cho nhóm nghiên cứu của Guise để thực hiện dự án này. Nhóm này hợp tác với các công ty như công ty tổng hợp ADN Twist Bioscience tại San Francisco, công ty khởi nghiệp Roswell Biotechnologists tại San Diego và một nhóm nghiên cứu tại Đại học Washington,  hợp tác với Microsoft để phát triển hệ thống lưu trữ dữ liệu ADN hoàn toàn tự động. Trong khi đó, IARPA cũng ký kết một hợp đồng riêng trị giá 23 triệu đô la với nhóm nghiên cứu từ Viện nghiên cứu tại trường đai học MIT, Harvard và Công ty DNA Script Pháp để nghiên cứu cách mã hóa và trích xuất dữ liệu từ ADN.

Giống như các công ty công nghệ lớn, chính phủ cũng cần một phương pháp lưu trữ dữ liệu mới với giá cả phải chăng hơn các hệ thống thông thường. Chính phủ liên bang thu thập và lưu trữ dữ liệu về mọi thứ, từ thuế, tội phạm đến y tế và khí hậu. Vì thế, ADN trở thành một phương tiện cực kỳ nhỏ gọn, có thể lưu trữ lượng dữ liệu khổng lồ. Tại một nơi cần lưu trữ dữ liệu lớn như siêu thị Walmart, dữ liệu có thể được thu nhỏ lại bằng kích thước của một viên đường.

Vệt ADN màu hồng có thể lưu trữ được khoảng 10.000 gigabyte, tương ứng với 10 terabyte. Ảnh: Tara Brown Photography/Đại học Washington.

Việc đưa dữ liệu vào ADN giống như mã hóa thông thường, cộng thêm một vài bước khác. Mã hóa thông tin ADN đòi hỏi một chuỗi được tạo thành từ các liên kết gọi là nucleotide. Các nucleotide này là bốn khối xây dựng nên sự sống và được đánh dấu bằng các chữ cái gồm A,C,G và T. Các chuỗi nhị phân của dữ liệu gồm 0 và 1 sau đó sẽ được dịch thành 4 chữ cái này.

Nhóm nghiên cứu sử dụng máy móc để mã hoá các bit thông tin trong ADN. Quá trình sản xuất ADN hiện đại giúp đẩy nhanh tiến độ, nhưng nếu lượng dữ liệu cần được mã hóa lớn thì quá trình này có thể mất đến vài phút. Guise cho biết: “Chúng tôi đã phải tốn rất nhiều thời gian để tổng hợp ADN, việc này tốn thời gian hơn nhiều so với việc cơ thể nhân đôi ADN.” Ông cũng bày tỏ mong muốn cải thiện tốc độ của bước này.

Thông thường, để phục hồi hay đọc được dữ liệu, các nhà khoa học cần sử dụng một thiết bị giải trình tự ADN, nhằm xác định trình tự các bazo nucleotide (As, Ts, Cs và Gs) trong một đoạn phân tử ADN. Tuy nhiên, do kích thước ADN rất nhỏ, gây khó khăn trong việc xác định từng phần dữ liệu cụ thể, nên việc trích xuất tệp khá khó khăn. Nhóm nghiên cứu tham gia vào dự án IARPA từ Đại học Washington đang phát triển một hóa chất có thể tìm và liên kết các mẩu dữ liệu cụ thể mà người dùng muốn trích xuất. Năm 2016, nhóm nghiên cứu này thông báo rằng có thể mã hóa bốn hình ảnh kỹ thuật số trong ADN và trích xuất chúng ra thành công mà không làm mất dữ liệu.

Kể từ đó, nhóm nghiên cứu từ Đại học Washington và Microsoft đã có thể mã hóa tất cả mọi thứ trong ADN, từ một video âm nhạc OK Go đến 100 cuốn sách hàng đầu của Project Gutenberg.

Khác với các ổ đĩa cứng, ổ đĩa flash và băng từ được sử dụng ngày nay sẽ có nguy cơ bị suy giảm chất lượng trong nhiều năm, ADN có thể bảo quản được dữ liệu trong hàng trăm năm. Hơn nữa, ADN có thể được lưu trữ ở dạng lỏng hoặc bột để bảo quản lâu hơn.

Sau khi tạo ra đủ ADN tổng hợp với thông tin mã hóa, các nhà khoa học cần tìm ra cách lưu trữ những lượng chất lỏng và bột này. Theo nhà nghiên cứu tại Georgia Tech, đồng đứng đầu dự án, Adam Meier chia sẻ về phương pháp lưu trữ bằng cách làm ADN mất nước, từ đó ADN có thể tạo thành các đốm nhỏ trong ống nghiệm. Ông cũng cho biết thêm:“Tùy thuộc vào loại dữ liệu bạn muốn đọc, bạn sẽ tìm thấy các đốm bột khác nhau và đưa dữ liệu vào một thiết bị đọc ADN.”

Một phương pháp lưu trữ khác là cho ADN lỏng lên trên bề mặt các chip lưu trữ nhỏ. Theo Meier:“Càng sản xuất nhiều ADN, càng có nhiều cơ hội tìm ra giải pháp tốt nhất để lưu trữ chúng.”

Guise cho biết ADN có khả năng bảo mật dữ liệu tối ưu hơn so với các hệ thống lưu trữ thông thường, vì để đọc được dữ liệu mã hóa bên trong, tin tặc cần phải có máy giải trình tự ADN trị giá hàng trăm nghìn đô la.

Trong tương lai gần, người dùng sẽ không phải mua ADN để lưu trữ dữ liệu, mà có thể sử dụng chúng như thường một khi các công ty như Apple và Facebook chuyển phương thức lưu trữ dữ liệu từ điện toán đám mây sang ADN. Guise cho biết: “Các trang trại dữ liệu ADN quy mô exabyte khổng lồ này sẽ trở thành nơi lưu trữ chính các hình ảnh của người dùng Facebook và Apple.”

FPT TechInsight
Theo: Onezero

Tin liên quan: