Bagaimana pembelajaran mesin dan kecerdasan buatan mempercepat penemuan obat

Cahaya dalam diri saya oleh Wilvarin-Liadon



Tim Solusi Awan Mail.ru menerjemahkan esai ringkasan oleh Kevin Wu yang membahas apa yang telah dicapai industri farmasi dan perawatan kesehatan dengan kecerdasan buatan dan pembelajaran mesin, dan kapan teknologi baru akan membantu menemukan obat-obatan dari semua penyakit.



Mengapa sepertinya tidak ada kemajuan



Beberapa orang mengungkapkan rasa frustrasinya terhadap kehidupan seperti ini: "Jika ini adalah masa depan, lalu di mana jetpack saya?" Sekilas, kerinduan akan masa depan yang retro tampak aneh di era komputasi di mana-mana, sel yang dapat diprogram , dan eksplorasi ruang angkasa yang bangkit kembali . Tetapi bagi sebagian orang, futurisme nostalgia ini ternyata bertahan dengan sangat baik. Mereka berpegang teguh pada prediksi yang terlihat aneh dalam retrospeksi, mengabaikan kenyataan mengejutkan yang tidak dapat diprediksi oleh siapa pun.



Siapa yang menyangka bahwa berkat deep learning kita bisa memprediksi khasiat obat yang belum ada? Ini sangat penting bagi industri farmasi.



Berkenaan dengan kecerdasan buatan, keluhan mungkin terdengar seperti ini: “Hampir delapan tahun telah berlalu sejak penemuan jaringan saraf AlexNet [ kira-kira. penerjemah : pada tahun 2012, Aleksey Krizhevsky menerbitkan desain jaringan saraf konvolusional AlexNet, yang memenangkan kompetisi ImageNet dengan selisih besar], jadi di mana mobil self-driving saya? " Memang, ekspektasi di pertengahan tahun 2010 tampaknya belum terpenuhi. Di antara orang yang pesimis, prakiraan stagnasi berikutnya dalam penelitian AI mendapatkan momentum .



Tujuan esai ini adalah untuk membahas kemajuan pembelajaran mesin yang signifikan dalam tantangan penemuan obat dunia nyata. Saya ingin mengingatkan Anda tentang pepatah lama lainnya, kali ini dari para peneliti AI. Untuk sedikit mengulanginya, bunyinya seperti ini: "AI disebut AI sampai berfungsi, lalu hanya perangkat lunak."



Apa yang hingga beberapa tahun lalu dianggap sebagai penelitian fundamental mutakhir dalam pembelajaran mesin kini sering disebut sebagai "hanya ilmu data " (atau bahkan analitik) - dan sedang merevolusi industri farmasi. Ada kemungkinan kuat bahwa penggunaan pembelajaran mendalam untuk menemukan obat-obatan secara dramatis akan mengubah hidup kita menjadi lebih baik.



Visi komputer dan pembelajaran mendalam dalam pencitraan biomedis



Begitu ilmuwan mendapatkan akses ke komputer dan kesempatan untuk mengunggah gambar di sana, mereka segera mencoba memprosesnya. Pada dasarnya, kita berbicara tentang gambar biomedis: hasil radiografi, ultrasound dan MRI. Kembali ke masa AI lama yang baik, pemrosesan biasanya berarti menyimpulkan pernyataan logis secara manual berdasarkan atribut sederhana seperti kontur dan kecerahan.



Tahun 1980-an terjadi pergeseran menuju algoritma pembelajaran mesin yang diawasi, tetapi mereka masih mengandalkan tag hand-set. Model pembelajaran yang diawasi sederhana (seperti regresi linier atau pendekatan polinomial) dilatih pada fitur yang diekstraksi oleh algoritme seperti SIFT (Scale Invariant Feature Transformation) dan HOG (Histogram of Directed Gradients). Seharusnya tidak mengherankan bahwa perkembangan yang mengarah pada penggunaan praktis pembelajaran mendalam saat ini dimulai beberapa dekade yang lalu.



Jaringan saraf konvolusional pertama kali digunakan untuk analisis gambar biomedis pada tahun 1995, ketika Law dan rekannyamempresentasikan model untuk pengenalan tumor kanker di paru-paru pada fluorogram. Metode mereka sedikit berbeda dari yang biasa kita lakukan saat ini, penurunan hasil membutuhkan waktu sekitar 15 detik, tetapi konsepnya pada dasarnya sama - dengan belajar melalui propagasi mundur hingga inti konvolusional jaringan saraf. Model mereka melibatkan dua lapisan tersembunyi, sedangkan arsitektur jaringan dalam yang populer saat ini sering kali memiliki seratus atau lebih lapisan.



Maju cepat ke 2012. Jaringan saraf konvolusional membuat percikan dengan kedatangan sistem AlexNet, yang menyebabkan lompatan dalam kinerja set data ImageNet yang sekarang terkenal. Keberhasilan AlexNet, sebuah jaringan dengan lima konvolusional dan tiga lapisan yang digabungkan erat yang dilatih pada GPU game, telah menjadi begitu terkenal dalam pembelajaran mesin sehingga orang-orang sekarang membicarakan tentang “Moments of ImageNet ”di berbagai relung pembelajaran mesin dan AI.



Misalnya, "Pemrosesan Bahasa Alami mungkin telah melampaui momen ImageNet dengan pengembangan transformer besar pada tahun 2018" atau "Pembelajaran Penguatan masih menunggu momen ImageNet-nya."



Hampir sepuluh tahun telah berlalu sejak AlexNet. Visi komputer dan model pembelajaran mendalam secara bertahap meningkat. Aplikasi telah melampaui klasifikasi. Hari ini mereka telah belajar bagaimana membagi gambar, memperkirakan kedalaman, dan secara otomatis merekonstruksi pemandangan 3D dari beberapa gambar 2D. Dan ini bukanlah daftar lengkap dari kemampuan mereka.



Pembelajaran mendalam untuk analisis pencitraan biomedis telah menjadi bidang penelitian yang panas. Efek sampingnya adalah peningkatan kebisingan yang tak terhindarkan. Diterbitkan pada 2019sekitar 17.000 artikel ilmiah tentang pembelajaran mendalam . Tentu saja, tidak semuanya layak dibaca. Sepertinya banyak peneliti terlalu banyak menyesuaikan model pada kumpulan data sederhana mereka.



Kebanyakan dari mereka belum memberikan kontribusi apa pun pada sains dasar atau pembelajaran mesin. Semangat untuk pembelajaran mendalam telah mencengkeram peneliti akademis yang sebelumnya tidak menunjukkan minat padanya, dan untuk alasan yang bagus. Ia dapat melakukan apa yang dilakukan algoritma visi komputer klasik (lihat teorema pendekatan universal Tsybenko dan Hornik), dan sering melakukannya lebih cepat dan lebih baik, menyelamatkan para insinyur dari desain manual yang membosankan dari setiap aplikasi baru.



Kesempatan langka untuk melawan penyakit yang "diabaikan"



Hal ini membawa kita ke topik penemuan obat hari ini, sebuah industri yang sedang mengalami guncangan yang baik. Perusahaan farmasi dan kontraktornya senang sekali menegaskan kembali biaya yang sangat besar untuk membawa obat baru ke pasar. Biaya ini sebagian besar disebabkan oleh fakta bahwa banyak obat memerlukan waktu lama untuk dipelajari dan diuji sebelum dikonsumsi.



Biaya pengembangan obat baru bisa mencapai $ 2,5 miliar atau lebih . Kadang-kadang, karena biaya tinggi dan profitabilitas yang relatif rendah, sejumlah karya tentang golongan obat tertentu diturunkan ke latar belakang .



Hal ini juga menyebabkan lonjakan insiden dalam kategori "penyakit yang diabaikan", termasuk sejumlah penyakit tropis yang tidak proporsional .yang menimpa orang di negara termiskin dan dianggap tidak menguntungkan untuk pengobatan, dan penyakit langka dengan tingkat insiden rendah. Relatif sedikit orang yang menderita masing-masing, tetapi jumlah orang dengan semua penyakit langka cukup besar. Diperkirakan sekitar 300 juta orang. Dan bahkan angka ini mungkin diremehkan karena penilaian para ahli yang suram: sekitar 30% dari mereka yang menderita penyakit langka tidak hidup sampai lima tahun.



" Ekor panjang»Penyakit langka memiliki potensi signifikan untuk meningkatkan kehidupan banyak orang, dan di sinilah pembelajaran mesin dan data besar membantu. Titik buta untuk penyakit langka (yatim piatu) yang tidak memiliki pengobatan yang disetujui secara resmi membuka peluang inovasi dari tim kecil ahli biologi dan pengembang pembelajaran mesin.



Salah satu perusahaan rintisan di Salt Lake City, Utah mencoba melakukan hal itu. Para pendiri Recursion Pharmaceuticals memandang kurangnya obat penyakit langka sebagai celah dalam industri farmasi. Mereka menerima data dalam jumlah besar dengan menganalisis hasil mikroskop dan uji laboratorium. Dengan bantuan jaringan saraf, dimungkinkan untuk mengidentifikasi fitur penyakit dan mencari metode pengobatan.



Pada akhir 2019, perusahaan telah menjalankan ribuan eksperimen dan mengumpulkan lebih dari 4 petabyte informasi. Mereka memposting sebagian kecil dari data ini (46 GB) untuk kompetisi NeurIps 2019, Anda dapat mengunduhnya dari situs web RxRx dan bermain - main sendiri.



Alur kerja yang dijelaskan dalam artikel ini sebagian besar didasarkan pada informasi dari buku putih [ pdf ] Obat Rekursi, tetapi pendekatan ini mungkin juga berfungsi sebagai inspirasi untuk area lain. Startup



lain di bidang ini termasuk Bioage Labs (penyakit penuaan), Notable Labs (onkologi) dan TwoXAR.(berbagai penyakit yang tidak ada pilihan pengobatannya). Biasanya, startup muda terlibat dalam teknik pemrosesan data yang inovatif dan menerapkan berbagai metode pembelajaran mesin sebagai tambahan atau alih-alih pembelajaran mendalam dengan computer vision.



Selanjutnya, saya akan menjelaskan proses analisis gambar dan seberapa dalam pembelajaran cocok dengan alur kerja penemuan obat penyakit langka. Kami akan melihat proses tingkat tinggi yang dapat diterapkan pada berbagai bidang penemuan obat lainnya.



Misalnya, dapat dengan mudah digunakan untuk menyaring obat kanker untuk mengetahui efeknya pada morfologi sel tumor. Bahkan mungkin untuk menganalisis respons sel pasien tertentu terhadap pilihan obat yang berbeda. Pendekatan ini menggunakan konsep dari analisis komponen utama nonlinier, hashing semantik [ pdf ] dan klasifikasi citra jaringan saraf konvolusional lama yang baik.



Klasifikasi dalam kebisingan morfologi



Biologi itu berantakan. Oleh karena itu, mikroskop multiparameter throughput tinggi merupakan sumber frustrasi konstan bagi ahli biologi sel. Gambar yang dihasilkan sangat berbeda dari satu percobaan ke percobaan berikutnya. Fluktuasi suhu, waktu pemaparan, jumlah reagen, dan lainnya menyebabkan perubahan yang tidak terkait dengan fenotipe yang dipelajari atau aksi obat, dan oleh karena itu menyebabkan kesalahan dalam hasil yang diperoleh.



Mungkin kontrol iklim di laboratorium bekerja secara berbeda di musim panas dan musim dingin? Mungkin seseorang makan siang di samping slide sebelum memasukkannya ke mikroskop? Mungkin pemasok salah satu bahan media kultur telah berubah? Atau apakah pemasok mengubah pemasoknya sendiri? Sejumlah besar variabel memengaruhi hasil eksperimen. Melacak dan menyoroti kebisingan yang tidak disengaja adalah salah satu tantangan utama dalam penemuan obat berdasarkan data.



Gambar mikroskopis bisa sangat berbeda dalam percobaan yang sama. Kecerahan gambar, bentuk sel, bentuk organel, dan banyak karakteristik lainnya berubah karena efek fisiologis yang sesuai atau kesalahan acak.



Jadi, gambar pada gambar di bawah ini didapat dari yang samasatu set mikrograf sel kanker metastatik yang tersedia untuk umum yang disusun oleh Scott Wilkinson dan Adam Marcus. Variasi saturasi dan morfologi harus mencerminkan ketidakpastian data eksperimen. Mereka dibuat dengan memasukkan distorsi ke dalam pemrosesan. Ini adalah sejenis analog dari augmentasi yang digunakan para peneliti untuk mengatur jaringan saraf dalam dalam masalah klasifikasi. Oleh karena itu, tidak mengherankan bahwa kemampuan untuk menggeneralisasi model besar ke kumpulan data besar adalah pilihan logis untuk menemukan fitur yang signifikan secara fisiologis di lautan kebisingan.





Tanda-tanda efektivitas pengobatan dan efek samping di antara data bising



Penyebab utama penyakit langka biasanya adalah mutasi genetik. Untuk membangun model untuk menemukan obat untuk penyakit ini, perlu untuk memahami efek dari berbagai mutasi dan hubungannya dengan fenotipe yang berbeda. Untuk membandingkan pengobatan yang mungkin secara efektif untuk penyakit langka tertentu, jaringan saraf dilatih berdasarkan ribuan mutasi yang berbeda.



Mutasi ini dapat ditiru dengan menekan ekspresi gen menggunakan RNA kecil yang mengganggu(siRNA). Ini seperti bayi yang memegang pergelangan kaki Anda: bahkan jika Anda dapat berlari cepat, kecepatan Anda akan turun secara dramatis dengan keponakan Anda tergantung di setiap kaki. siRNA bekerja dengan cara yang sama: urutan kecil RNA yang mengganggu menempel pada bagian yang sesuai dari RNA pembawa pesan dari gen tertentu, mencegah ekspresi penuhnya.



Dengan belajar dari ribuan mutasi alih-alih model seluler tunggal dari penyakit tertentu, jaringan saraf belajar untuk mengkode fenotipe dalam ruang tersembunyi multidimensi. Kode yang dihasilkan memungkinkan untuk mengevaluasi obat sesuai dengan kemampuannya untuk membawa fenotipe penyakit mendekati fenotipe yang sehat, yang masing-masing diwakili oleh kumpulan koordinat multidimensi. Demikian pula, efek samping obat dapat tertanam dalam representasi fenotipe yang dikodekan, dan obat dievaluasi tidak hanya untuk hilangnya gejala penyakit, tetapi juga untuk meminimalkan efek samping yang berbahaya.





Diagram menunjukkan pengaruh pengobatan pada model seluler penyakit (diwakili oleh titik merah). Pengobatan adalah pergerakan fenotipe yang dikodekan lebih dekat ke fenotipe yang sehat (titik biru). Ini adalah representasi 3D yang disederhanakan dari pengkodean fenotipik dalam ruang tersembunyi multidimensi



Model pembelajaran mendalam yang digunakan untuk alur kerja ini sangat mirip dengan masalah klasifikasi lain dengan kumpulan data besar, meskipun jika Anda terbiasa bekerja dengan sejumlah kecil kategori, seperti dalam kumpulan data CIFAR-10 dan CIFAR-100, Anda tidak akan langsung terbiasa dengan ribuan tanda klasifikasi yang berbeda.



Selain itu, metode penemuan obat berbasis gambar ini berfungsi baik dengan arsitektur DenseNet atau ResNet yang sama dengan ratusan lapisan, yang memberikan performa optimal pada kumpulan data seperti ImageNet.



Nilai aktivasi lapisan, yang dikodekan dalam ruang multidimensi, mencerminkan fenotipe, patogenesis penyakit, hubungan antara pengobatan, efek samping dan penyakit lainnya. Oleh karena itu, semua faktor ini dapat dianalisis dengan perpindahan dalam ruang berkode. Kode fenotipik ini dapat dikenakan regularisasi khusus (misalnya, dengan meminimalkan kovarians antara aktivasi lapisan yang berbeda) untuk mengurangi korelasi pengkodean atau untuk tujuan lain.



Gambar di bawah ini menunjukkan model yang disederhanakan. Panah hitam mewakili operasi konvolusi + penggabungan. Garis biru menunjukkan koneksi yang erat. Untuk mempermudah, jumlah lapisan dikurangi dan koneksi sisa tidak ditampilkan.





Ilustrasi yang disederhanakan dari model pembelajaran mendalam untuk penemuan obat



Masa Depan Pembelajaran Mendalam dalam Penemuan Obat dan Industri Farmasi



Tingginya biaya membawa obat baru ke pasar telah menyebabkan perusahaan farmasi sering memilih hit pasar daripada meneliti obat untuk penyakit serius. Tim analitik data yang lebih kecil di perusahaan rintisan lebih siap untuk berinovasi di bidang ini, sementara penyakit yang terabaikan dan langka memberikan peluang untuk memasuki pasar dan menunjukkan nilai pembelajaran mesin.



Efektivitas pendekatan ini telah terbukti. Kami melihat kemajuan penelitian yang signifikan dan beberapa obat sudah dalam tahap pertama uji klinis. Misalnya, tim yang hanya terdiri dari beberapa ratus ilmuwan dan insinyur di perusahaan seperti Recursion Pharmaceuticals mencapai ini. Startup lainnya dekat: TwoXAR memiliki beberapa kandidat obat yang menjalani uji praklinis dalam kategori penyakit lainnya.



Pembelajaran mendalam dan pendekatan visi komputer untuk pengembangan obat dapat diharapkan memiliki dampak yang signifikan pada perusahaan farmasi besar dan perawatan kesehatan secara umum. Kita akan segera melihat bagaimana hal ini akan mempengaruhi perkembangan pengobatan baru untuk penyakit umum (termasuk penyakit jantung dan diabetes), serta penyakit langka yang tidak terlihat hingga hari ini.



Apa lagi yang harus dibaca tentang topik ini:



  1. Format file dalam data besar: program pendidikan singkat .
  2. Menganalisis Big Data di Cloud: Bagaimana Perusahaan Dapat Menjadi Berdasarkan Data .
  3. Saluran Telegram kami tentang transformasi digital .



All Articles