Untuk genetika gandum, tugas penting adalah menentukan ploidi (jumlah set kromosom identik dalam inti sel). Pendekatan klasik untuk memecahkan masalah ini didasarkan pada penggunaan metode genetik molekuler, yang mahal dan padat karya. Penentuan jenis tanaman hanya mungkin dalam kondisi laboratorium. Oleh karena itu, dalam pekerjaan ini, kami menguji hipotesis: apakah mungkin untuk menentukan ploidi gandum menggunakan metode penglihatan komputer, hanya berdasarkan gambar telinga.
Deskripsi Data
Untuk mengatasi masalah tersebut, bahkan sebelum lokakarya dimulai, sebuah set data telah disiapkan di mana ploidi diketahui untuk setiap spesies tanaman. Secara total, kami memiliki 2.344 foto heksaploid dan 1259 tetraproid yang kami miliki.
Sebagian besar tanaman difoto menggunakan dua protokol. Kasus pertama - di atas meja dalam satu proyeksi, yang kedua - di atas jepitan dalam 4 proyeksi. Dalam foto-foto, palet warna ColorChecker itu selalu hadir , diperlukan untuk menormalkan warna dan menentukan skala.
Sebanyak 3603 foto dengan 644 nomor benih unik. Dataset berisi 20 spesies gandum: 10 heksaploid, 10 tetraploid; 496 genotipe unik; 10 vegetasi unik. Tanaman ditanam antara 2015 dan 2018 di rumah kacaICG SB RAS . Materi biologi diberikan oleh Akademisi Nikolai Petrovich Goncharov .
Validasi
Satu pabrik dalam kumpulan data kami dapat memuat hingga 5 foto yang diambil menggunakan protokol berbeda dan dalam proyeksi berbeda. Kami membagi data menjadi 3 set bertingkat: train (sampel pelatihan), valid (sampel validasi) dan tahan (sampel tertunda), dengan rasio masing-masing 60%, 20%, dan 20%. Saat membagi, kami memperhitungkan bahwa semua foto dari genotipe tertentu akan selalu muncul dalam satu subsampel. Skema validasi ini digunakan untuk semua model terlatih.
Mencoba metode CV dan ML klasik
Pendekatan pertama yang kami gunakan untuk menyelesaikan masalah didasarkan pada algoritma yang ada yang kami kembangkan sebelumnya. Algoritme ini memungkinkan ekstraksi serangkaian fitur kuantitatif yang berbeda dari setiap gambar. Misalnya panjang telinga, luas tenda , dll. Untuk penjelasan rinci tentang algoritme, lihat Genaev dkk., Morfometri Lonjakan Gandum dengan Menganalisis Gambar 2D, 2019 . Dengan menggunakan algoritma dan metode pembelajaran mesin ini, kami melatih beberapa model untuk memprediksi jenis ploidi.
Kami menggunakan metode regresi logistik , hutan acak dan peningkatan gradien . Data telah dinormalisasi sebelumnya... Kami memilih AUC sebagai ukuran akurasi .
| metode | Melatih | Sah | Tahan |
| Regresi logistik | 0.77 | 0.70 | 0.72 |
| Hutan acak | 1.00 | 0.83 | 0.82 |
| Meningkatkan | 0,99 | 0.83 | 0.85 |
Akurasi terbaik pada pengambilan sampel yang ditangguhkan ditunjukkan oleh metode peningkatan gradien; kami menggunakan implementasi CatBoost.
Menafsirkan hasil
Untuk setiap model, kami menerima perkiraan "pentingnya" setiap sifat. Hasilnya, kami mendapatkan daftar semua fitur kami, diberi peringkat berdasarkan signifikansi dan memilih 10 fitur teratas: Area tenda, indeks Keliling, Kebulatan, Keliling, Panjang batang, xu2, L, xb2, yu2, ybm. (penjelasan dari setiap fitur dapat ditemukan di sini ).
Panjang telinga dan keliling adalah contoh fitur penting. Distribusi nilai sifat-sifat ini dalam tetraploid dan heksaploid ditunjukkan pada histogram. Terlihat bahwa distribusi heksaploid bergeser ke arah nilai yang lebih tinggi.
Kami telah mengelompokkan 10 fitur teratas menggunakan metode t-SNE
Secara umum, ploidi yang lebih besar memberikan nilai sifat yang lebih bervariasi. Hexaploid dicirikan oleh sebaran / varians yang lebih besar dari nilai-nilai sifat tersebut. Ini karena jumlah salinan gen dalam heksaploid lebih banyak dan oleh karena itu jumlah varian "kerja" gen tersebut meningkat.
Untuk mengkonfirmasi hipotesis kami tentang variabilitas fenotipik yang lebih besar dalam heksaploid, kami menerapkan statistik F. Statistik F menunjukkan signifikansi dari perbedaan varians dari dua distribusi. Kami mempertimbangkan kasus-kasus ketika nilai-p kurang dari 0,05 untuk menyangkal hipotesis nol bahwa tidak ada perbedaan antara kedua distribusi. Kami menjalankan tes ini secara independen untuk setiap sifat. Kondisi pengujian: harus ada sampel pengamatan independen (dalam kasus beberapa gambar, ini tidak terjadi) dan distribusi normal. Untuk memenuhi kondisi tersebut, kami menguji satu gambar untuk setiap telinga. Mereka mengambil foto hanya dalam satu proyeksi sesuai dengan protokol βdi atas mejaβ. Hasilnya ditunjukkan di tabel. Terlihat bahwa varians heksaploid dan tetraploid memiliki perbedaan yang signifikan untuk 7 karakter. Selain itu, dalam semua kasus, nilai dispersi lebih tinggi pada heksaploid.Variabilitas fenotipik yang lebih besar dalam heksaploid dapat dijelaskan dengan banyaknya salinan dari satu gen.
| Name | F-statistic | p-value | Disp Hexaploid | Disp Tetraploid |
| Awns area | 0.376 | 1.000 | 1.415 | 3.763 |
| Circularity index | 1.188 | 0.065 | 0.959 | 0.807 |
| Roundness | 1.828 | 0.000 | 1.312 | 0.718 |
| Perimeter | 1.570 | 0.000 | 1.080 | 0.688 |
| Stem length | 3.500 | 0.000 | 1.320 | 0.377 |
| xu2 | 3.928 | 0.000 | 1.336 | 0.340 |
| L | 3.500 | 0.000 | 1.320 | 0.377 |
| xb2 | 4.437 | 0.000 | 1.331 | 0.300 |
| yu2 | 4.275 | 0.000 | 2.491 | 0.583 |
| ybm | 1.081 | 0.248 | 0.695 | 0.643 |
Data kami mencakup 20 spesies tumbuhan. 10 gandum heksaploid dan 10 tetraploid.
Kami telah mewarnai hasil pengelompokan sehingga warna + bentuk setiap titik sesuai dengan tampilan tertentu.
Sebagian besar spesies menempati area yang cukup padat pada bagan. Meski area ini bisa banyak tumpang tindih dengan yang lain. Di sisi lain, di dalam satu spesies terdapat gugus yang jelas, misalnya, untuk T compactum, T petropavlovskyi.
Kami menghitung rata-rata nilai untuk setiap spesies untuk 10 fitur, memperoleh tabel 20 kali 10. Di mana masing-masing dari 20 spesies tersebut sesuai dengan vektor 10 fitur. Untuk data ini, matriks korelasi dibangun dan analisis cluster hirarkis dilakukan. Kotak biru pada grafik menunjukkan tetraploid.
Pada pohon yang dibangun, secara umum jenis gandum dibedakan menjadi tetraploid dan heksaploid. Spesies heksaploid jelas dibagi menjadi dua kelompok: berambut sedang - T. macha, T. aestivum, T. yunnanense dan berambut panjang - T. vavilovii, T. petropavlovskyi, T. spelta. Satu-satunya pengecualian adalah bahwa satu-satunya spesies poliploid liar (tetraploid) T. dicoccoides diklasifikasikan sebagai heksaploid.
Pada saat yang sama, spesies tetraploid termasuk gandum heksaploid dengan jenis telinga kompak - T. compactum, T. antiquorum, dan T. sphaerococcum, dan garis isogenik buatan manusia ANK-23 dari gandum biasa.
Mencoba CNN
Untuk mengatasi masalah penentuan ploidi gandum dari citra telinga, kami melatih jaringan saraf konvolusional dari arsitektur EfficientNet B0 dengan bobot yang telah dilatih sebelumnya di ImageNet. CrossEntropyLoss digunakan sebagai fungsi kerugian; Pengoptimal Adam; ukuran satu batch adalah 16; gambar diubah ukurannya menjadi 224x224; kecepatan pembelajaran diubah sesuai dengan strategi fit_one_cycle dengan awal lr = 1e-4. Kami melatih jaringan selama 10 periode, menerapkan augmentasi berikut secara acak: rotasi sebesar -20 +20 derajat, mengubah kecerahan, kontras, saturasi, pencerminan. Model terbaik dipilih berdasarkan metrik AUC , yang nilainya dihitung pada akhir setiap epoch.
Hasilnya, akurasi pada sampel yang ditangguhkan AUC = 0,995 , yang sesuai dengan nilai_akurasi= 0,987 dan kesalahan 1,3%. Hasilnya sangat bagus.
Kesimpulan
Karya ini adalah contoh yang baik tentang bagaimana tim yang terdiri dari 5 siswa dan 2 kurator dapat memecahkan masalah biologis yang mendesak dan memperoleh hasil ilmiah baru dalam beberapa minggu.
Saya ingin mengucapkan terima kasih kepada semua peserta dalam proyek kami: Nikita Prokhoshin , Alexei Prikhodko , Evgeny Zavarzin , Artem Pronozin , Anna Paulish , Evgeny Komyshev, Mikhail Genaev .
Koval Vasily Sergeevich dan Kruchinina Yulia Vladimirovna karena menembak telinga jagung.
Nikolai Petrovich Goncharov dan Afonnikov Dmitry Arkadyevich atas materi biologis yang disediakan dan bantuan dalam menafsirkan hasil.
Kepada Pusat Matematika Universitas Negeri Novosibirsk dan Institut Sitologi dan Genetika SB RAS untuk mengatur acara dan daya komputasi.
PS Kami berencana untuk mempersiapkan bagian kedua dari artikel, di mana kami akan berbicara tentang segmentasi telinga dan pemilihan spikelet individu.