Bagaimana Bioinformatika Berbeda dari Biologi Komputasi - Pengantar Singkat



Beberapa hari yang lalu, Alsu Missarova, lulusan Fakultas Mekanika dan Matematika Universitas Negeri Moskow, PhD di bidang biologi sistem (genomik fungsional dalam ragi) di Universitat Ponepu Fabra di Barcelona, ​​berbicara di YouTube kami. Sekarang Alsou adalah postdoc di lab JOhn Marioni (EBI, Cambridge, UK), terlibat dalam RNA-seq sel tunggal dan integrasi dengan transkriptomik spasial.



Juga memberikan pengantar singkat tentang apa itu bioinformatika dan apa bedanya dengan biologi komputasi. Kami membagikan rekaman dan transkrip siarannya kepada Anda: kami berharap ini menjadi pengantar bagi seluruh rangkaian pembicara yang terlibat dalam bioinformatika.






Nama saya Alsu Missarova. Saya diminta untuk berbicara tentang bioinformatika - khususnya, masalah apa yang saya selesaikan, jenis data apa yang saya proses, jenis masalah apa yang ada dalam biologi komputasi untuk para teknisi, untuk orang-orang dengan bias dalam ilmu komputer, analisis data, dan sebagainya.



Saya sendiri bukan ahli bioinformat, saya adalah ahli biologi komputasi. Kedua konsep ini sangat berkorelasi dan garis di antara keduanya kabur, tetapi perbedaannya penting untuk dipahami. Untuk keduanya, tujuannya adalah untuk menjawab beberapa pertanyaan biologis, atau untuk meningkatkan pemahaman kita tentang bagaimana proses biologis bekerja. Pendekatan mereka serupa: pemrosesan dan analisis data dari sejumlah besar data yang tidak dapat diproses dengan mata dan tangan. Perbedaannya terletak pada prioritas. Ahli biologi komputasi lebih suka memiliki pertanyaan biologis yang relatif spesifik dan perlu memahami jenis data apa yang harus dikumpulkan. Anda harus memiliki akses ke data ini, Anda harus dapat memproses, menganalisis, menafsirkan, dan, pada kenyataannya, menjawab pertanyaan dengan benar. Ketika tujuannya adalah informatika, itu lebih merupakan penciptaan algoritma, badan, metode untuk bekerja dengan data biologis.Tugas akan diletakkan di atas, kemungkinan besar, dan datanya akan dalam format yang lebih industri. Artinya, mereka akan memiliki format data tertentu yang akan mereka proses, yang perlu diproduksi untuk sejumlah besar individu atau organisme, dan seterusnya.



Anda dapat mengambilnya seperti ini: ahli biologi komputasi lebih cenderung adalah ahli biologi yang dapat membuka beberapa perpustakaan dan menggunakan beberapa alat, dan ahli bioinformat lebih cenderung menjadi ilmuwan komputer yang tidak peduli tentang biologi, yang tidak benar-benar memahaminya, dan dia hanya bekerja dengan angka, dengan string, dengan data. Faktanya, tidak, tentu saja. Hal ini berlaku untuk bidang apa pun, tetapi ketika Anda bekerja dengan data - dalam bidang apa pun - Anda benar-benar perlu memahami jenis data yang Anda miliki dan dari mana Anda mendapatkan gangguan dalam data tersebut. Dan akan ada banyak gangguan dalam data biologis yang akan Anda terima. Secara kasar, ini dapat diuraikan menjadi kebisingan teknis dan biologis. Kebisingan teknis berasal dari fakta bahwa mesin yang membuat data tidak sempurna dan cacat. Dan gangguan biologis terjadi karena ada banyak variasi dalam sistem apapun.Bahkan di antara dua sel organisme yang sama, sekalipun sel kulit berdekatan, akan ada perbedaan biologis. Hal ini diperlukan untuk membedakan kebisingan teknis dari biologis, menghilangkan teknis dan meninggalkan biologis, dan ini membutuhkan pemahaman tentang biologi.



Mari beralih ke jenis data apa yang kita miliki dalam biologi. Pertama-tama, ketika orang mendengarkan bioinformatika, mereka berpikir tentang pengurutan DNA (yang pada prinsipnya dapat dibenarkan). Saya pikir semua orang tahu apa itu: itu, secara relatif, kemampuan untuk menentukan urutan DNA yang dimiliki organisme. Artinya, DNA adalah molekul yang sangat panjang; bagi manusia itu sekitar 3,1 miliar "huruf". 4 huruf - ACDH - ini adalah nukleotida. Karena itu, orang telah belajar membaca DNA makhluk hidup. Itu sangat keren. Sekarang Anda dapat, misalnya, menentukan urutan dua orang, membandingkannya dan kontras, apa perbedaan antara urutan ini dan apa perbedaan antara orang-orang ini, dan mencoba menemukan hubungan sebab-akibat. Begitulah cara DNA memengaruhi fenotipe Anda, apa perbedaan antara dua orang. Demikian juga, dalam biologi komputasi:Anda dapat mengambil dua organisme dari spesies tetangga, mengurutkan mereka dengan cara yang sama - menentukan urutan DNA dan, karenanya, mencoba memahami apa perbedaan antara kedua organisme tersebut, dan apa yang sebenarnya dipengaruhi oleh DNA.



Sekarang Anda dapat pergi ke dimensi yang berbeda dan mengajukan pertanyaan berikut: jika Anda mengambil dua sel dari satu organisme, dari satu orang, lalu apa perbedaan di antara mereka? Artinya, secara relatif, sel epitel kulit akan berbeda dari neuron. Di sini DNA tidak lagi cocok. Ada suatu aksioma, yang pada umumnya keliru: bahwa urutan DNA dari sel-sel suatu organisme selalu sama. Itu keliru karena organisme hidup adalah struktur yang dinamis; itu tumbuh, berbagi, mati. Dalam proses ini, mutasi terakumulasi. Proses replikasi DNA tidak sempurna, dan terkadang terjadi kerusakan; DNA berulang dengan sendirinya, tetapi berulang dengan tidak sempurna. Mutasi bisa netral, yang tidak menghasilkan apa-apa, atau berbahaya, yang menyebabkan disfungsi sel. Tentu saja, jika kita abstrak, urutan DNA masih kurang lebih identik antara dua sel,tapi fungsinya berbeda. Dengan demikian, sejumlah besar pertanyaan biologis ditujukan untuk memahami apa perbedaan antara sel yang berbeda dan apa yang mempengaruhinya. Komunitas memiliki permintaan untuk jenis data ini. Anda harus bisa menyorot, menghitung, membaca perbedaan ini.



Di sinilah kita sampai pada apa yang saya lakukan. Format data utama (atau salah satu utama) yang digunakan orang di sini adalah pengurutan RNA. Sekarang saya akan berbicara secara singkat tentang apa itu RNA, dan tentang evolusi urutan RNA secara umum.



Ini adalah versi yang sangat singkat, pada kenyataannya, semuanya lebih rumit. Dua pilar yang mendukung biosintesis sel adalah transkripsi dan translasi. DNA adalah kata yang sangat panjang yang menyandikan informasi tertentu. Informasi oleh sel ini dapat diolah, dibaca, diolah menjadi elemen fungsional.



Protein adalah contoh utama dari ini. Ini adalah mesin kecil di dalam sel yang menjalankan fungsi tertentu dan menyediakan kehidupan serta fungsionalitas sel ini sehingga berfungsi sebagaimana mestinya. Protein dikodekan oleh gen. Gen adalah sub kata dalam urutan DNA. Transkripsi adalah ketika mesin molekuler besar duduk di atas heliks ganda panjang dari molekul DNA - polimerase, yang berjalan melalui gen, membuat salinan dan melemparkannya ke dalam sitoplasma sel. Salinan DNA ini (bukan salinan sebenarnya) dibuat dalam jumlah tertentu. Karena itu, dua sel yang berbeda memiliki jumlah RNA yang berbeda dari gen yang berbeda. Untuk sel epitel, lebih banyak gen A dibutuhkan, untuk neuron - lebih banyak gen B, dan jumlah yang berbeda diproduksi. Kemudian RNA diproses, dan kemudian, dalam format yang lebih final, mesin lain "duduk" di thread tersebut. Masing-masing,ketika orang berbicara tentang pengurutan RNA, yang mereka maksud, secara relatif, menghitung berapa banyak RNA mana dari gen mana yang diproduksi dalam sel. Ini adalah komposisi RNA, atau urutan RNA.



Faktanya, sangat keren bahwa orang telah belajar melakukan ini. Untuk waktu yang lama, batasan utama dari teknologi ini adalah membutuhkan banyak sel untuk mendapatkan materi RNA. Artinya, perlu untuk menyatukan puluhan ribu sel (secara alami, sudah tidak dapat hidup), membuang RNA dan mengurutkan.



Masalahnya adalah bahwa sel akan sering berbeda satu sama lain. Akan ada banyak variasi biologis, karena untuk banyak proses - misalnya, perkembangan, atau imunologi, atau onkologi - akan ada interaksi besar antara sel-sel dengan fungsi yang berbeda. Dan ketika, misalnya, biopsi dilakukan dan banyak sel ditarik keluar, diperoleh campuran. Dan jika Anda hanya mengambil ekspektasi dari RNA ini untuk semua sel, maka Anda kehilangan varian. Dan Anda tidak mengerti dan tidak bisa mempelajarinya.



Dan, karenanya, ada permintaan dari komunitas untuk melakukan ini di level sel tunggal. Dan mereka belajar melakukan ini 10 tahun lalu. Ini sangat keren, untuk banyak area ini sangat penting. Anda dapat melihat lebih dalam ke dalam sistem, melihat jenis sel apa yang berada pada tingkat mikroskopis. Tetapi ada juga batasan. Salah satunya adalah Anda kehilangan informasi spasial. Secara relatif, untuk melakukan pengurutan RNA, Anda perlu mengambil selembar jaringan, memotong menjadi sel, dan melakukan pengurutan RNA sel tunggal Anda.



Namun, dengan cara yang bersahabat, banyak fungsinya adalah bagaimana sel berinteraksi satu sama lain di ruang angkasa. Dan untuk ini mereka datang dengan teknologi transcriptomics khusus - kemampuan untuk mengukur RNA tanpa kehilangan informasi spasial.



Salah satu teknik utama untuk ini adalah menggunakan mikroskop: Anda mengambil jaringan Anda, memperbaikinya - yaitu, mengambil satu set sel, dan Anda memasangnya di mikroskop. Dan kemudian Anda mengirim probe kecil ke jaringan ini, yang mengandung dua elemen: salah satunya sangat spesifik untuk RNA Anda, dan hanya akan mengikat gen yang penting. Dan yang kedua akan menjadi tanda fluorescent bercahaya. Anda dapat menyorotkan mikroskop pada frekuensi gelombang tertentu pada jaringan, dan Anda dapat menentukan berapa banyak kunang-kunang di dalam sel yang akan menyala. Karenanya, akan ada banyak sekali molekul RNA. Sebenarnya, tugas yang saya lakukan berada di persimpangan transkriptomik khusus dan pengurutan RNA sel tunggal. Secara relatif, di sini saya sedang melakukan pengembangan, mengamati tikus kecil; Saya memiliki data tentang sel tunggal dan transkriptomik khusus,dan saya mencoba mencocokkan sel yang saya lihat dalam konteks khusus dengan sel yang saya lihat di RNA-seq sel tunggal.



Saya akan beralih ke masalah yang, pada prinsipnya, mungkin menarik bagi teknisi dan insinyur ML. Saya telah mengidentifikasi tiga jenis tugas yang saat ini dibutuhkan, dan semuanya di bidang kedokteran; obat sekarang menerima banyak sumber daya, banyak uang, banyak data.



Jenis tugas pertama adalah penemuan obat. Ada penyakit, perlu disembuhkan, untuk ini Anda perlu mencari obat. Bagaimana meringkas tugas ini secara lebih rinci; Anda perlu menemukan komposisi bahan kimia yang dapat ditempatkan dalam pil atau kapsul, dikirim ke tubuh, dan setelah itu molekul akan mengikat secara khusus pada protein tersebut, target tersebut, yang, jika keadaannya diubah, akan mengubah keadaan penyakit - secara relatif, menyembuhkan.



Ada beberapa tahapan disini. Salah satunya adalah identifikasi / validasi target. Kita harus bisa memprediksi molekul mana yang perlu diikat agar keadaan penyakit berubah. Untuk ini, sekumpulan besar data dikumpulkan: Anda mengambil orang sakit, Anda mengambil orang sehat, Anda mengukur banyak parameter berbeda dari mereka. Anda mengurutkan DNA, RNA, transkriptomik, proteomik - status protein.



Selanjutnya, Anda mencoba menentukan parameter mana dari sel orang sakit yang merujuk secara khusus kepada orang sakit, dan parameter mana yang merujuk pada orang sehat. Artinya, mencoba menentukan molekul mana yang berpotensi berkorelasi dengan penyakit. Ini di satu sisi. Di sisi lain, Anda masih perlu menemukan molekul yang dapat digunakan untuk obat - yaitu, yang berpotensi mengikat bahan kimia aktif yang Anda kirim ke tubuh untuk disembuhkan. Di sini Anda perlu mengukur banyak parameter: pengikatan, pelipatan protein, dan sebagainya.



Untuk ini, Machine Learning aktif sekarang digunakan. Artinya, Anda melihat senyawa protein yang berbeda dan mencoba memprediksi, berdasarkan target yang diketahui, apakah target tertentu akan baik. Selain itu, seseorang juga harus mensintesis obat yang benar. Artinya, Anda perlu menemukan komposisi kimiawi dari molekul yang dapat mengikat secara khusus ke protein yang perlu Anda hubungi, dan pada prinsipnya dapat masuk ke dalam tubuh, dapat larut dalam air, dan seterusnya. Ada banyak fitur yang perlu dioptimalkan. Melakukannya dengan tangan memang sulit, tetapi dapat diprediksi berdasarkan fakta bahwa Anda sudah mengetahui obat, dan Anda membandingkan obat potensial baru dengan yang sudah dikenal dan memprediksi seberapa sukses obat tersebut. Semua ini ada di level prediksi; maka itu perlu divalidasi, benar-benar ditampilkan,bahwa itu berhasil. Tetapi prediksi obat adalah kunci untuk mengurangi uang dan waktu yang dihabiskan untuk penelitian. Ini sangat relevan.



Jenis masalah kedua yang terkait dengan yang pertama, secara relatif, menemukan biomarker penyakit. Kanker adalah contoh yang bagus. Sebagian alasan mengapa dia begitu sulit diperlakukan adalah karena dia sangat berbeda dan ada begitu banyak perbedaan di antara dua orang. Secara umum, apa itu kanker adalah ketika sejumlah mutasi telah terakumulasi, yang menyebabkan kerusakan sel. Dan sel, alih-alih menjalankan fungsinya, justru mulai membelah dengan sangat cepat dan menggantikan sel-sel sehat. Ini secara bertahap membunuh tubuh. Tetapi ada banyak mekanisme yang menyebabkan sel rusak. Kanker satu orang bukanlah kanker orang lain, dan obat yang berhasil untuk satu orang mungkin tidak berhasil untuk orang lain. Oleh karena itu, sangat penting untuk dapat dengan cepat menentukan gen dan parameter lain yang perlu dilihat untuk memahami bahwa seseorang sakit dengan penyakit tertentu. Artinya, kita perlu mencari biomarker.Untuk ini, database digunakan. Sekarang data dalam berbagai format dikumpulkan secara aktif dari sejumlah besar orang, sehat dan sakit. Anda perlu mengkristalkan hasilnya; seseorang mungkin atau mungkin tidak disembuhkan, dan Anda perlu memahami orang seperti apa yang sakit dengan apa. Jika Anda dengan cepat menemukan apa yang rusak, maka Anda dapat menyembuhkannya.



Area ketiga yang sedang berkembang itu lucu, tapi ini penambangan teks. Ada banyak literatur dalam biologi sekarang, sejumlah besar laboratorium terlibat dalam banyak hal. Faktanya, orang sering menemukan sesuatu - katakanlah, interaksi protein-protein atau interaksi obat-protein. Itu terjadi secara mandiri, di berbagai belahan dunia, dan mereka tidak tahu bagaimana hal itu dapat berinteraksi. Penambangan teks melihat berbagai artikel yang diterbitkan dan membangun database. Artinya, jika di satu tempat ditentukan bahwa satu protein berinteraksi dengan protein kedua, dan di tempat lain - bahwa protein kedua dapat dipengaruhi oleh obat tertentu, ternyata obat ini juga dapat memengaruhi protein aslinya. Grafik interaksi dibuat, dan Anda dapat memprediksi interaksi baru yang sebelumnya tidak ditemukan.



Jenis masalah lain yang ingin saya sebutkan dan, menurut saya, cukup menarik - ini adalah analisis gambar. Secara umum, gambar adalah format data yang kuat, yang sangat sering digunakan dan banyak digunakan dalam biologi, karena Anda dapat memahami banyak tentangnya dari tampilan sel.



Jika sejumlah besar gambar mikroskopis terkumpul, Anda perlu menganalisisnya dengan cepat dan dapat membuat prediksi. Contoh umum, sekali lagi, kanker; Anda melakukan biopsi dan melihat bagaimana sel yang sehat dan yang sakit terhubung. Anda mengecatnya - inti dalam satu warna, sitoplasma dengan warna lain. Lalu coba anda prediksi: apakah jaringan ini ada tumor atau bukan?



Untuk penelitian yang lebih mendasar - memproses gambar dari mikroskop sudah lebih sulit; orang ingin melihat organel, atau molekul, atau protein tertentu, dan, karenanya, melacak bagaimana sel akan berinteraksi satu sama lain, bagaimana berkembang, dan seterusnya. Orang telah belajar mewarnai berbagai elemen sel, dan ini dilakukan dengan bantuan protein fluoresen. Anda mengambil apa yang Anda butuhkan dan menempelkan protein yang ditandai itu ke dalamnya. Dan jika Anda menyorotkannya, itu akan menyala, dan Anda akan memahami bahwa organel, atau protein, atau RNA ini terletak di tempat tertentu. Dan kemudian Anda melacak bagaimana sel berinteraksi. Ini juga memerlukan analisis gambar, karena ada banyak gambar, dan biasanya, resolusinya tidak terlalu bagus. Dan Anda perlu mendapatkan resolusi yang bagus dari gambar berlumpur. Nyatanya, masyarakat tidak tinggal diam;orang menulis jaringan saraf, mengubah parameter yang berbeda, dan sebagainya. Tetapi data berkembang, dan metode harus berkembang dengannya. Artinya, hal-hal ini harus berjalan seiring.



Tren saat ini, yang dipikirkan banyak laboratorium, adalah "bagaimana menaklukkan waktu." Artinya, sangat sering dalam pengurutan, dan dalam analisis gambar, dll., Ada masalah seperti itu: ada snapshot dari sistem, tetapi statis. Anda melakukan pengukuran pada waktu tertentu. Dan Anda tidak mengerti bagaimana sel akan berkembang lebih jauh. Salah satu pendekatan untuk mengatasi masalah ini adalah pencitraan kehidupan. Jika Anda tidak membunuh sel, tetapi menempatkannya di lingkungan tempat mereka berkembang, berinteraksi, dan seterusnya, dan dengan mikroskop setiap 10 detik, ambil foto setiap menit, lalu Anda dapat memulihkan lintasan pergerakan, interaksi, dan seterusnya. Tetapi ada batasannya: misalnya, stempel fluoresens tidak terlalu baik untuk digunakan dalam pencitraan kehidupan, karena ketika Anda menyinari stempel dengan cahaya, ia memancarkan radiasi, dan ini beracun bagi sel. Sel itu mulai mati.Sebuah kompromi harus ditemukan: di satu sisi, Anda ingin menjaga sangkar sesehat mungkin, tetapi di sisi lain, Anda ingin membuat lebih banyak foto - tetapi semakin banyak Anda mengambilnya, semakin cepat ia mati.



Dan di sini ada pendekatan seperti itu: orang sekarang mencoba untuk menentukan nasib sel dengan bantuan jumlah minimum tanda fluoresen, tetapi kenyataannya - hanya dengan bantuan mikrokontur inti dan sel. Ini seperti pengenalan wajah: sebelumnya Anda dapat melakukannya dengan mata, mulut, hidung, dan fitur lain yang terlihat, tetapi sekarang Anda harus melakukannya hanya dengan hidung, karena Anda dapat memiliki kacamata hitam di mata, dan masker di mulut. Artinya, masalahnya menjadi lebih rumit, dan di sini hal yang sama. Diperlukan untuk menghitung parameter biologis menggunakan sedikit informasi, dan ada banyak tugas.



Ada banyak tugas, ada banyak tipe data. Semua parameter sel, organisme dan hal lain diukur. Ini adalah area yang sangat menarik. Saya harap jika Anda memikirkannya sebelumnya, maka saya tidak mempercayai Anda.




Apa yang terjadi sebelumnya



  1. , Senior Software Engineer Facebook — ,
  2. , ML- — , Data Scientist
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —
  16. , - Google — Google-
  17. .
  18. Data Science ? Unity
  19. c Revolut
  20. : ,
  21. — IT-
  22. — «Docker » , Devops,









All Articles