Dữ liệu của 3,000 genome cây lúa đã được công bố và được khai thác miễn phí trên AWS Cloud
Dự án 3000 genome cây lúa là một dự án quốc tế với sự tham gia của nhiều đối tác trên khắp thế giới. Dự án đã giải trình tự của khoảng 3024 giống lúa có nguồn gốc từ 89 quốc gia trên thế giới. Nguồn dữ liệu khổng lồ này làn guồn tài nguyên vô cùng giá trị cho khai thác các biến dị di truyền tự nhiên của cây lúa cũng như khám phá các gen mới liên quan đến các đặc tính nông học và hiệu quả kinh tế. Dự án này cũng sẽ giúp tăng tốc độ cải tiến các giống lúa trên toàn cầu nhằm hướng đến mục tiêu an ninh lương thực cho một dân số đang tăng trưởng nhanh chóng và sẽ đạt ngưỡng hơn 9.6 tỉ người vào năm 2050 mà trong đó, hơn phân nữa dân số thế giới phụ thuộc vào nguồn lương thực là lúa gạo.
Ngân hàng gen lúa quốc tế tại IRRI (Philippines) hiện lưu trữ hơn 127.000 giống lúa từ khắp nơi trên thế giới. Những giống lúa này mang nguồn gen/tính trạng quý chưa được khai thác để tạo ra các giống lúa canh tác theo hướng bền vững trong một môi trường ngày càng bất lợi do các thay đổi khí hậu toàn cầu. Các tính trạng được tập trung khai thác cho việc cải tiến giống bao gồm chọn giống lúa giàu dinh dưỡng, chống chịu sâu bệnh hại và môi trường bất lợi như lũ lụt, khô hạn, giảm phát thải khí nhà kính.
Ba viện nghiên cứu gồm viện hàn lâm khoa học nông nghiệp Trung Quốc (CAAS), viện gen Bắc Kinh (BGI) và viện lúa quốc tế IRRI đã hợp tác với nhau để giải trình tự genome của 3024 giống và dòng lúa được lưu trữ tại các ngân hàng gen của IRRI (82%) và tại CAAS (18%). Việc giải trình tự và phân tích dữ liệu được tài trợ bơi quỹ Bill & Melinda Gates kết hợp nguồn tài trợ từ bộ KH&CN Trung Quốc. Cơ sở dữ liệu này chứa hàng triệu trình tự gen từ các giống lúa khác nhau. Khi kết hợp dữ liệu về trình tự gen với các đo đạc về kiểu hình, sự biểu hiện gen và các thông tin khác sẽ cung cấp nền tảng quan trọng để thiết lập các liên kết giữa gen-tính trạng nhằm xây dựng các mô hình dự đoán và ứng dụng các mô hình này cho các chương trình chọn giống trong tương lai.
Thông qua sự tài trợ của chương trình “đối tác khoa học về lúa gạo trên toàn cầu”, 3024 bộ gen của cây lúa đã được lặp lại quá trình giải mã và so sánh đối chiếu với năm giống lúa phổ biến (năm giống này đại diện cho các nhóm phụ đã được trồng phổ biến bao gồm lúa indica, japonica và aus). Dự án 3K RGP đã thu được nguồn dữ liệu khổng lồ lên đến 120 tetrabytes và hiện vượt quá khả năng tính toán của hầu hết các viện nghiên cứu. Tuy vậy, các dữ liệu mới này giờ đây đã được cung cấp miễn phí trên nguồn internet như một nguồn dữ liệu công cộng (Amazon Web Services = AWS). Việc tiếp cận nguồn dữ liệu là hoàn toàn miễn phí và quá trình sử dụng nguồn dữ liệu được kiểm soát bởi các chuyên gia phân tích dữ liệu và người dùng tuân thủ theo tuyên bố Toronto (Toronto Statement). Thông tin chi tiết tại: http://irri.org/news/media-releases/big-data-on-3-000-rice-genomes-available-on-the-aws-cloud