👨🏼‍🎨 🍯 🤗 Menghasilkan angka acak menggunakan DNA #⃣ 👩🏼 🐽

Kecelakaan. Bagi beberapa orang, semua yang terjadi di sekitar adalah satu kecelakaan belaka. Dan seseorang mengklaim bahwa tidak ada kecelakaan. Anda dapat berfilsafat dan berdebat tentang topik ini selama berjam-jam, tetapi masih akan ada banyak kesimpulan. Beralih dari pemikiran metafisik ke yang lebih nyata, kita dapat melihat bahwa bilangan acak telah menemukan penerapannya dalam banyak aspek kehidupan kita: dari mesin slot hingga sistem pengkodean informasi. Proses di mana urutan angka / simbol acak dihasilkan yang tidak dapat diprediksi disebut pembuatan nomor acak (RNG). Selama sejarah panjang umat manusia, banyak metode RNG telah dibuat. Beberapa di antaranya cukup sederhana dan mudah: dadu, koin (kepala / ekor), setumpuk kartu, dll.

Yang lain menggunakan proses fisik yang jauh lebih kompleks: misalnya, karena pergerakan elektron frekuensi tinggi, hambatan listrik kawat tidak konstan, mis. bervariasi secara acak. Dengan mengukur kebisingan latar belakang ini, urutan bilangan acak dapat diperoleh. Tetapi teknik RNG tidak terbatas pada fisika saja. Sekelompok ilmuwan dari Swiss Higher Technical School of Zurich (atau disingkat ETHZ) telah menciptakan metode baru untuk menghasilkan angka acak berdasarkan sintesis DNA. Bagaimana tepatnya ini dicapai, seberapa acak angka-angka itu diperoleh, dan dapatkah mereka diprediksi? Jawaban atas pertanyaan-pertanyaan ini menunggu kami dalam laporan para ilmuwan. Pergilah.

Dasar penelitian

Apa salah satu batasan utama dadu sebagai penghasil bilangan acak? Fakta bahwa angka-angka ini tidak akan terlalu banyak (36 kombinasi dadu, jika dilebih-lebihkan, yaitu tanpa probabilitas dan hal-hal lain). Semakin sedikit variasi yang kita miliki, semakin mudah untuk memprediksi kemungkinan hasil. Oleh karena itu, untuk lebih kompleks dan sebagai konsekuensinya, pengkodean yang aman berdasarkan RNG, diperlukan bilangan yang dihasilkan lebih besar dan lebih kompleks. Ini adalah penjelasan yang sangat sederhana, namun penjelasan tersebut menyampaikan esensi dari masalah tersebut.

Varian kombinasi dua dadu.

Oleh karena itu, penggunaan proses fisik yang tidak dapat diprediksi secara akurat telah menjadi dasar dari banyak metode RNG modern. Namun, perlu diingat bahwa ada dua area utama RNG - pembuatan bilangan acak (benar-benar acak) dan pseudo-random. Dalam kasus pertama, sumber non-deterministik (kacau) digunakan untuk menghasilkan bilangan acak. Yang kedua menciptakan urutan angka deterministik yang bergantung pada masukan (benih). Jika benih masukan diketahui, seluruh urutan bilangan acak dapat diperbanyak. Sekilas, Pseudo-RNG tampaknya kurang efisien, tetapi metode ini memiliki sifat statistik yang lebih baik dan seringkali dapat menghasilkan bilangan acak jauh lebih cepat daripada RNG.

Sangat jelas bahwa tidak hanya proses fisik atau algoritma perangkat lunak, tetapi juga reaksi kimia cocok untuk menghasilkan angka yang benar-benar acak. Di satu sisi, reaksi kimia adalah proses statistik di mana pembentukan produk kimia mengikuti distribusi probabilitas tertentu tergantung pada energi aktivasi reaksi. Namun di sisi lain, kemampuan untuk mengidentifikasi molekul individu setelah sintesis praktis nihil, meskipun kemampuan untuk memprediksi hasil reaksi secara statistik.

Penelitian telah dilakukan tentang penggunaan kimia untuk menghasilkan bilangan acak. Misalnya, dalam karya inisebuah perangkat dijelaskan yang memberikan kumpulan entropi yang mengesankan dari keadaan makro yang dapat dideteksi dari kristal yang tumbuh dalam proses reaksi kimia. Masalahnya adalah bahwa ketidakmampuan untuk mengidentifikasi molekul individu menyebabkan hilangnya keacakan saat menganalisis proses kimia stokastik. Dengan kata lain, tampaknya reaksi kimia tidak sesuai untuk RNG. Namun, seperti yang dinyatakan oleh penulis karya yang kami pertimbangkan hari ini, situasi dengan sintesis DNA sama sekali berbeda.

Produksi DNA sintetis adalah proses kimia stokastik dengan keuntungan penting: molekul individu dalam urutan DNA yang disintesis dapat dengan mudah diidentifikasi dan dianalisis menggunakan teknologi sekuensing modern (NGS dari pengurutan generasi berikutnya ). Pengurutan sendiri telah ada sejak tahun 1970-an, tetapi teknik saat ini memungkinkan Anda membaca molekul individu dan dengan demikian menggunakan DNA sebagai sumber untuk menghasilkan bilangan acak.

Hasil penelitian

Perlu dicatat bahwa dalam biologi, metode untuk mengidentifikasi skema global dari komponen mikroba membutuhkan sintesis nukleotida acak pada posisi primer tertentu untuk mengevaluasi daerah hipervariabel (misalnya, untuk gen 16S rRNA) untuk klasifikasi taksonomi. Penggunaan lain sintesis nukleotida acak dapat ditemukan di bar-coding, di mana dengan bantuan pengenal unik molekuler (UMI pengidentifikasi molekul unik ) dapat dihilangkan amplifikasi perpindahan PCR * .

Polymerase chain reaction (PCR) * - metode yang memungkinkan Anda mencapai peningkatan yang signifikan dalam konsentrasi kecil fragmen asam nukleat (DNA) tertentu dalam bahan biologis.

Para ilmuwan mencatat bahwa nukleotida acak semacam itu ditandai dengan huruf N (menurut standar NC-IUB, yaitu komite tata nama komunitas internasional tentang biokimia). Akibatnya, para ilmuwan menggunakan kesempatan untuk mensintesis nukleotida acak untuk setiap posisi yang ditunjukkan oleh huruf N dalam desain DNA yang digunakan.

Gambar # 1

Untaian DNA yang digunakan dalam penelitian ini dirancang sedemikian rupa sehingga daerah acak 64 nukleotida mengalir dari daerah yang telah ditentukan dari primer depan * di satu ujung dan daerah yang telah ditentukan dari primer terbalik di ujung lainnya (Gbr. 1).

Primer * adalah fragmen pendek dari asam nukleat.

Panjang total untai DNA yang direkayasa adalah 105 nukleotida, termasuk dua wilayah primer dan wilayah acak.

Gambar # 2

Untai DNA yang dirancang kemudian diimplementasikan secara fisik menggunakan teknologi sintesis solid-state modern (gambar # 2).

Mencampur blok pembangun nukleotida DNA juga menemukan aplikasi di bidang penyimpanan DNA. Penelitian sebelumnya telah menunjukkan bahwa memperluas alfabet * DNA dengan terlebih dahulu menentukan rasio pencampuran keempat nukleotida DNA pada posisi tertentu dalam urutan DNA dapat meningkatkan kepadatan penyimpanan logis dengan menggunakan huruf majemuk untuk sintesis DNA.

* — : A ( ), T (), G () C ().

Urutan DNA acak disintesis tiga kali: dua kali oleh Microsynth dan sekali oleh Eurofins Genomics . Perusahaan pertama diberi tugas tambahan untuk mencampur blok bangunan sebelum melakukan penggabungan (sintesis 1). Perusahaan kedua menghasilkan sintesis tanpa intervensi tambahan dalam prosesnya (sintesis 2).

Hasilnya, sintesis 1 menghasilkan 204 μg DNA kering yang disintesis dari arah 3 'sampai 5'. Untuk menentukan keacakan, kumpulan DNA diurutkan dan kemudian disaring secara digital.

Jika Anda melihat komposisi untaian DNA sebagai fungsi posisi di wilayah acak (gambar # 3), Anda dapat melihat dua tren umum:

: G , A C;
: A C 60 , G 5' 3', T 5' 3'. Microsynth ( ), Eurofins ( ).

Gambar # 3

Tren yang diamati memberikan indikasi pertama tentang keandalan data dan sebagian dapat dijelaskan oleh proses kimiawi yang terjadi selama sintesis DNA. Perbedaan persentase nukleotida G, T dan A, C (ketidaksetaraan nukleotida) dapat disebabkan oleh beberapa faktor. Menurut Microsynth, volume blok bangunan individu selama sintesis tidak dikontrol ke mikroliter terdekat.

Akibatnya, perbedaan konsentrasi dapat menyebabkan distribusi nukleotida yang kurang seragam di sepanjang rantai. Selain itu, efisiensi pengikatan berbeda untuk setiap blok penyusun dan bergantung pada variabel seperti periode penggunaan reagen untuk sintesis oleh pabrikan atau kelompok pelindung yang dipasang pada setiap blok penyusun. Hasil dari efisiensi pengikatan yang berbeda kemungkinan besar terkait dengan distribusi keempat nukleotida yang tidak merata.

Penurunan G dan peningkatan T dari 5 'menjadi 3' (non-ekivalen posisi) mungkin disebabkan oleh prosedur kimiawi yang dialami untai DNA selama sintesis. Saat sintesis DNA berlangsung dalam arah 3 '- 5', nukleotida pada posisi 60 (gambar # 3) pertama-tama ditambahkan ke untai DNA. Karena fragmen DNA yang disintesis tetap berada dalam ruang sintesis sampai panjang untai DNA yang diinginkan diperoleh, nukleotida yang ditambahkan ke untai DNA pada awal sintesis tetap berada dalam lingkungan sintesis paling lama. Jadi, nukleotida ini telah melalui sebagian besar tahap sintesis dan, oleh karena itu, sebagian besar tahap oksidasi.

Karakteristik kinerja sintesis DNA kimia ini dapat menjadi penjelasan untuk tren # 2 (posisi non-ekivalen), ketika komposisi G menurun sepanjang rantai dalam arah 5 '- 3', dan komposisi T meningkat pada arah 5 '- 3'.

Oksidasi dapat menyebabkan fenomena yang disebut transversi G - T ( 3e ), di mana basa G diubah secara kimiawi sedemikian rupa sehingga dapat digantikan oleh basa T selama langkah replikasi DNA.

Selain tren yang dijelaskan di atas, perbedaan kurva pada grafik dapat dikaitkan dengan perbedaan dalam strategi sintesis (dengan dan tanpa mencampur blok bangunan).

Ada dua sumber bias potensial utama yang dapat memengaruhi hasil: bias cakupan (di mana beberapa item yang diselidiki berada di luar ROI) dan bias karena kesalahan.

Opsi pertama terutama ditunjukkan oleh kesalahan yang dapat dikaitkan dengan pengaturan spasial pada chip sintesis dan stochasticity PCR. Pilihan kedua adalah hasil dari penyisipan, penghapusan (penataan ulang kromosom, ketika sebagian dari kromosom hilang) atau penggantian nukleotida yang salah selama tahap sintesis, PCR dan sekuensing.

Dalam studi khusus ini, bias cakupan mempengaruhi distribusi nukleotida hanya jika ada perbedaan yang signifikan antara cakupan setiap urutan acak. Namun, analisis data menunjukkan bahwa varian kesalahan ini tidak dapat menjadi penyebab ketiadaan nukleotida yang diamati dan ketiadaan posisi.

Berkenaan dengan bias karena kesalahan, sangat sulit untuk membedakan antara kesalahan sintesis dan sekuensing, karena kedua proses tersebut tidak dapat dipisahkan sepenuhnya, karena akses ke morfologi molekuler DNA hanya dimungkinkan melalui sekuensing DNA. Namun, penelitian telah menunjukkan bahwa dengan pemrosesan data yang sesuai, kesalahan pengurutan terjadi di lokasi acak.

Selama sintesis DNA, pertumbuhan untaian dapat terganggu hingga panjang yang diinginkan tercapai dan dengan demikian menyebabkan kesalahan pada kumpulan. Namun proses sekuensing tidak menunjukkan pengaruh yang signifikan terhadap hasil ( 3a - 3c ). Oleh karena itu, bias akibat kesalahan hanya disebabkan oleh proses sintesis DNA, dan bukan oleh sekuensing.

Dengan menormalkan sintesis 1 ( 3a ), peta panas diperoleh yang menggambarkan dominasi pengikatan dua nukleotida ( 3d ). Ini juga memungkinkan Anda untuk melihat kesalahan ketiga: dominasi ikatan nukleotida.

Pengikatan basa tunggal ke nukleotida yang ada sebagian bergantung pada sifat nukleotida yang ada: G kecil kemungkinannya untuk berikatan dengan A jika ia bebas berikatan dengan A, T, C, atau G; selain itu, G lebih mungkin untuk mengikat ke G jika dapat dengan bebas mengikat ke A, T, C, atau G.

Dari sudut pandang sintesis, ketidakakuratan ini dapat dikoreksi secara sederhana. Misalnya, Anda dapat menambahkan lebih banyak blok T daripada G (dengan demikian mengubah rasio target nukleotida A, G, T dan C), yang akan meningkatkan offset dari transversi.

Namun, karena kerumitan proses ini, para ilmuwan memutuskan untuk tidak melakukan pengeditan "fisik" sebagai bagian dari penelitian, tetapi menggunakan algoritma komputasi pasca-pemrosesan untuk menghilangkan bias yang dibuat selama sintesis DNA, meningkatkan keandalan dan reproduktifitas seluruh prosedur.

Pada tahap pemrosesan data (yaitu pada tahap persiapan RNG), pool yang diperoleh dari sintesis 1 (Microsynth) digunakan. Meskipun varian ini menunjukkan perpindahan terkuat yang dihasilkan dari transversi, kurva halus menunjukkan pencampuran dan penggabungan yang paling seragam selama langkah sintesis.

Pembacaan keacakan dari untaian DNA yang disintesis memerlukan pembacaan untaian individu, yang dilakukan dengan menggunakan sekuensing (dalam hal ini, sistem iSeq100 digunakan). Setelah pengurutan, data keluaran (file digital) diproses untuk memilih urutan yang benar (yaitu, tidak ada kesalahan) dari kumpulan.

Kesalahan yang mungkin terjadi termasuk kesalahan penghapusan, penyisipan, dan penggantian. Mereka dapat menyebabkan untai DNA menjadi terlalu pendek, terlalu panjang, atau mengandung basis yang rusak. Untuk meminimalkan efek kesalahan (terutama kesalahan karena penghapusan) pada keacakan, semua urutan dikurangi menjadi 60 nukleotida. Dari rantai yang diperoleh, hanya yang dipilih yang berisi panjang nukleotida acak yang benar.

Setelah kumpulan DNA yang diproses komputer dibatasi (hanya urutan panjangnya 60 nukleotida), nukleotida DNA dipetakan menjadi bit menggunakan skema berikut: A → 0, C → 0, T → 1, G → 1. Hasilnya, untai DNA terdigitalisasi telah diubah menjadi biner.

Bitstring (bitstream) yang diperoleh setelah pencocokan kemudian diperiksa keacakan menggunakan rangkaian uji statistik NIST. Para ilmuwan mengklaim bahwa metode mereka untuk menilai peluang sangat sulit: urutan dianggap cukup acak hanya jika semua tes berhasil dilalui secara terpisah (jika setidaknya satu tes gagal, urutan tersebut dikeluarkan).

Evaluasi bitstream awal menggunakan rangkaian pengujian statistik NIST menunjukkan bahwa tidak semua pengujian berhasil lulus. Ini berarti bahwa aliran bit yang dihasilkan tidak memiliki properti statistik yang sama dengan urutan yang benar-benar acak, mis. mereka masih mengandung beberapa redundansi dan bias. Oleh karena itu, pemrosesan bit tambahan diperlukan untuk menghilangkan perpindahan yang muncul pada tahap sintesis DNA.

Untuk memecahkan masalah pergeseran bit keluaran (ketika beberapa bilangan lebih dari yang lain), ilmuwan memutuskan untuk menggunakan algoritma von Neumann. Algoritme menganggap bit secara berurutan berpasangan, dan kemudian melakukan salah satu dari tiga tindakan: jika dua bit berturut-turut sama, bit tersebut akan dihapus (tidak diperhitungkan); urutan "1, 0" diubah menjadi satu; urutan "0, 1" diubah menjadi nol.

Dalam konteks penelitian ini, diharapkan algoritma von Neumann dapat bekerja sebagai berikut:

jika masukannya adalah "0, 1" atau "1, 0", digit pertama menjadi keluaran, dan digit kedua dibuang;
jika masukan adalah "0, 0" atau "1, 1", tidak ada keluaran, jadi kedua digit masukan akan dibuang.

Salah satu kelemahan terbesar dari metode ini adalah banyak kehilangan data: sekitar 75% data masukan dibuang karena pengoperasiannya. Akibatnya, masukan harus cukup besar untuk mengkompensasi kerugian lebih lanjut.

Gambar # 4

Efek perataan offset (diagram di atas) terlihat jelas saat menganalisis perbedaan antara aliran bit mentah (berisi offset) dan bitstream yang diproses (tanpa offset).

Jumlah kumulatif dari setiap aliran bit mentah (masing-masing panjangnya 60 nukleotida) dan setiap aliran bit yang diproses (masing-masing kurang dari 60 nukleotida panjangnya) dihitung dengan menetapkan setiap 0 menjadi "-1" dan masing-masing 1 menjadi "1". Selanjutnya, semua aliran bit tanpa offset digabungkan menjadi satu blok bit.

Para ilmuwan mencatat bahwa meskipun kehilangan data signifikan (lebih dari 75% dari semua bit hilang), dan efisiensi komputasi cukup rendah (laju keluaran data rata-rata empat kali lebih lambat dari kecepatan input data rata-rata), penghapusan bias dilakukan dengan sempurna (pada keluaran, bias sepenuhnya tidak hadir).

Blok bit yang diperoleh setelah diproses dengan algoritma von Neumann dievaluasi ulang melalui sistem NIST.

Tabel 1: Hasil Uji Statistik NIST.

Semua bitstream yang diproses lulus uji statistik NIST dengan skor kelulusan> 54/56 untuk setiap pengujian, yang melebihi persyaratan statistik minimum (52/56). Evaluasi lebih lanjut dari bitstream menunjukkan bahwa P-value ≥ 0,001. Artinya urutannya acak dengan tingkat kepercayaan 99,9%.

Gambar # 5

Diagram di atas adalah proses lengkap untuk menghasilkan bilangan acak menggunakan sintesis DNA. Seperti yang kita ingat, sebagai hasil sintesis, 204 μg DNA diperoleh, yang sesuai dengan kira-kira 4x10 ¹⁵ untai DNA. Proses sintesis DNA dalam jumlah ini membutuhkan waktu sekitar 8,75 jam, dan biaya produksinya sekitar $ 100.

Sampel DNA kering mengandung entropi teoritis 28 PB (jika tidak ada bias dalam data) dan 7 PB keacakan ketika offset dihilangkan menggunakan algoritma von Neumann (yaitu setelah kehilangan bit 75%). Oleh karena itu, tidak seperti menyimpan data dengan DNA, sintesis itu sendiri bukanlah penghambat (faktor pembatas kinerja) dalam pembuatan bilangan acak, karena dapat menghasilkan keacakan dengan kecepatan 225 gigabyte per detik dengan biaya $ 0,000014 / GB.

Namun, pengurutan, sebaliknya, merupakan hambatan dalam hal waktu dan biaya pemrosesan. Sistem iSeq yang digunakan dalam pekerjaan ini memiliki opsi yang lebih efisien (misalnya, NovaSeq 6000), yang mampu melakukan hingga 20 miliar pembacaan urutan dalam 36 jam. Biaya keuangannya cukup mengesankan ($ 22.000). Oleh karena itu, dengan mempertimbangkan semua tahapan RNG, hasilnya dapat diperoleh dengan kecepatan 300 kilobyte per detik dengan harga $ 600 per GB. Anda dapat mengurangi biaya dengan menggabungkan beberapa proses sintesis dan pengurutan.

Untuk pengenalan yang lebih mendetail tentang nuansa penelitian ini, saya menganjurkan agar Anda melihat laporan para ilmuwan dan bahan tambahan padanya.

Epilog

Generator nomor acak telah ada selama ribuan tahun (dadu tertua yang ditemukan di Iran berusia sekitar 5200 tahun), bahkan jika orang-orang pada masa itu tidak mengetahui potensi penuh mereka. Teknologi modern dan kemajuan ilmiah telah memungkinkan mereka untuk membuat algoritme dan perangkat kompleks yang mampu menghasilkan keacakan yang tidak dapat diprediksi oleh seseorang. Namun, di mana orang tersebut tertinggal, teknologi akan menyusul. Dengan kata lain, di mana ada sandi, di sana juga ada pengurai sandi. Oleh karena itu, peningkatan bertahap metode pengkodean informasi, di mana generator bilangan acak digunakan, menyebabkan peningkatan paralel dalam metode peretasan sistem tersebut. Perlombaan kunci dan kunci utama yang tak ada habisnya ini mengharuskan kedua belah pihak untuk terus-menerus menemukan metode baru yang semakin banyak.

Banyak RNG modern didasarkan pada proses fisik dan algoritme. Tetapi reaksi kimia tidak lagi terjadi selama bertahun-tahun, karena diyakini bahwa mereka tidak dapat menjadi fondasi yang dapat diandalkan untuk RNG. Dalam penelitian ini, para ilmuwan telah menunjukkan bahwa sintesis DNA, sebagai proses kimia, tidak hanya dapat menjadi versi dasar yang layak untuk RNG, tetapi juga melampaui pesaing "fisiknya" dalam banyak aspek.

Secara alami, metode ini masih merupakan berlian kasar yang membutuhkan penggilingan dalam bentuk penelitian tambahan, yang bertujuan untuk meningkatkan produktivitas dan mengurangi biaya. Namun demikian, pembuatan bilangan acak melalui DNA adalah arah yang sangat menjanjikan saat ini.

Terima kasih atas perhatiannya, tetap penasaran dan semoga minggu kerja Anda bagus, guys.

Sedikit iklan

Terima kasih untuk tetap bersama kami. Apakah Anda menyukai artikel kami? Ingin melihat konten yang lebih menarik? Dukung kami dengan memesan atau merekomendasikan kepada teman, cloud VPS untuk pengembang mulai $ 4,99 , analog unik dari server level awal yang kami ciptakan untuk Anda: The Whole Truth About VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps dari $ 19 atau bagaimana membagi server dengan benar? (opsi tersedia dengan RAID1 dan RAID10, hingga 24 core dan hingga 40GB DDR4).

Apakah Dell R730xd 2x lebih murah di pusat data Equinix Tier IV di Amsterdam? Hanya kami yang memiliki 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV dari $ 199 di Belanda!Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - Dari $ 99! Baca tentang Bagaimana membangun infrastruktur bldg. sekelas dengan server Dell R730xd E5-2650 v4 seharga € 9000 untuk satu sen?

Menghasilkan angka acak menggunakan DNA

Dasar penelitian

Hasil penelitian

Epilog

Sedikit iklan

More articles: