Teknologi untuk Menguji Dikte Total: Apa yang Bisa Diperbaiki?

Saya menjadi juri World AI & Data Challenge... Ini adalah kompetisi internasional bagi pengembang teknologi untuk menyelesaikan berbagai masalah sosial, seperti memerangi kemiskinan, membantu penyandang tuna rungu dan penglihatan, meningkatkan umpan balik antara masyarakat dan organisasi pemerintah, dan sebagainya. Sekarang tahap kedua kompetisi sedang berlangsung, akan berlangsung hingga Oktober. Sebagai bagian dari tahap ini, kami memilih solusi terbaik untuk implementasi proyek lebih lanjut. Karena kami di ABBYY banyak mengerjakan teks dan artinya, saya paling tertarik untuk memeriksa teks dalam kerangka proyek Total Dictation. Mari kita gunakan masalah ini sebagai contoh untuk mencari tahu mengapa pemrosesan bahasa alami adalah salah satu area yang paling diremehkan dalam pembelajaran mesin modern, dan mari kita bahas mengapa, bahkan ketika harus memeriksa dikte, semuanya "sedikit lebih rumit daripada yang terlihat". Dan yang lebih menarik, tentunya.



Jadi, tugasnya: membuat algoritma untuk memeriksa "Dikte total". Tampaknya, apa yang lebih mudah? Ada jawaban yang benar, ada teks dari para peserta: ambil dan lakukan. Semua orang tahu bagaimana membandingkan garis. Dan di sini yang menarik dimulai.



Koma yang sangat berbeda; atau titik koma?



Bahasa alami adalah hal yang kompleks, seringkali dengan lebih dari satu interpretasi. Bahkan dalam tugas seperti memeriksa dikte (di mana, pada pandangan pertama, hanya ada satu-satunya solusi yang benar), orang harus memperhitungkan sejak awal bahwa selain milik penulis, mungkin ada opsi lain yang benar. Terlebih lagi, penyelenggara kompetisi bahkan memikirkannya: mereka memiliki beberapa ejaan yang dapat diterima. Setidaknya terkadang. Penting di sini bahwa penyusun tidak mungkin dapat menunjukkan semua opsi yang benar, sehingga peserta kompetisi, mungkin, harus memikirkan model yang telah dilatih sebelumnya pada kumpulan teks besar yang tidak terkait langsung dengan dikte. Pada akhirnya, tergantung pada pemahaman konteksnya, seseorang dapat meletakkan koma atau tidak meletakkan titik koma; dalam beberapa kasus segala sesuatu mungkin terjadi: menggunakan titik dua, tanda hubung (atau bahkan tanda kurung).



Fakta bahwa ini adalah dikte dan bukan esai yang perlu dievaluasi bukanlah bug, tetapi fitur. Sistem penilaian esai otomatis sangat populer di Amerika Serikat. 21 negara bagian menggunakan solusi pemeriksaan esai otomatis untuk GRE. Baru-baru ini ditemukan bahwa sistem ini memberi nilai tinggi pada teks yang lebih banyak yang menggunakan kosakata yang lebih kompleks (meskipun teks itu sendiri tidak ada artinya). Bagaimana Anda bisa tahu? Mahasiswa MIT mengembangkan program khusus Generator Basic Automatic BS Essay Language (BABEL), yang secara otomatis menghasilkan rangkaian kata-kata kompleks. Sistem otomatis menilai "esai" ini sangat tinggi. Sungguh menyenangkan menguji sistem modern berdasarkan pembelajaran mesin. Contoh lain yang sama panasnya: mantan profesor MIT Les Perelmanmenawarkan sistem e-rater dari ETS, yang menghasilkan dan menilai ujian GRE dan TOEFL, untuk memeriksa esai 5000 kata dari Noam Chomsky. Program ini menemukan 62 kesalahan tata bahasa yang tidak ada dan 9 koma yang hilang. Kesimpulan - algoritma belum bekerja dengan baik dengan makna. Karena kita sendiri dapat mendefinisikan dengan sangat buruk apa itu. Pembuatan algoritme yang memeriksa dikte masuk akal secara praktis, tetapi tugas ini tidak sesederhana kelihatannya. Dan intinya di sini bukan hanya ambiguitas dari jawaban yang benar, yang saya katakan di sini, tetapi juga bahwa dikte ditentukan oleh seseorang.



Kepribadian diktator



Dikte adalah proses yang kompleks. Cara "diktator" membaca teks - seperti yang disebut oleh penyelenggara dikte total dengan bercanda kepada mereka yang membantu melaksanakannya - dapat memengaruhi kualitas akhir pekerjaan. Sistem proofreading yang ideal akan menghubungkan hasil penulis dengan kualitas dikte menggunakan text to speech. Selain itu, solusi serupa sudah digunakan dalam pendidikan. Misalnya, Third Space LearningAdalah sistem yang dibuat oleh ilmuwan dari University College London. Sistem ini menggunakan pengenalan suara, menganalisis bagaimana guru melaksanakan pelajaran, dan berdasarkan informasi ini, membuat rekomendasi tentang bagaimana meningkatkan proses pembelajaran. Misalnya, jika seorang guru berbicara terlalu cepat atau terlalu lambat, pelan atau keras, sistem akan mengiriminya pemberitahuan otomatis. Ngomong-ngomong, berdasarkan suara siswa, algoritme dapat menentukan bahwa dia kehilangan minat dan bosan. Diktator yang berbeda dapat mempengaruhi hasil akhir dari dikte untuk peserta yang berbeda. Ada ketidakadilan yang bisa dihilangkan dengan apa? Baik! Diktator Kecerdasan Buatan! Bertobatlah, hari-hari kita diberi nomor. Oke, serius, secara online Anda bisa memberikan soundtrack yang sama kepada semua orang, atau memasukkan ke dalam algoritme penilaian kualitas "Diktator", tidak peduli seberapa kasar kedengarannya. Mereka,yang didikte lebih cepat dan kurang jelas dapat mengandalkan poin tambahan "untuk merugikan". Dengan satu atau lain cara, jika kita memiliki pidato-ke-teks, maka ide lain muncul di benak.



Robot and man: siapa yang akan menulis dikte dengan lebih baik?



Jika kami melakukan pengenalan suara dalam siaran, maka tak perlu dikatakan lagi untuk membuat peserta virtual dalam dikte. Sungguh keren membandingkan keberhasilan AI dan manusia, terutama karena eksperimen serupa di berbagai disiplin ilmu sudah aktif dilakukan di dunia. Jadi, di China pada tahun 2017, AI lulus ujian negara "gaokao" di kota Chengdu - ini seperti Ujian Negara Bersatu Rusia. Dia mencetak 105 poin dari 150 kemungkinan - yaitu, dia lulus mata pelajaran dengan "tiga" yang solid. Perlu dicatat bahwa, seperti dalam masalah "Dikte Total", hal tersulit untuk algoritme adalah memahami bahasa - dalam hal ini, bahasa Mandarin. Di Rusia, Sberbank tahun lalu dilakukankompetisi untuk mengembangkan algoritme untuk lulus tes dalam bahasa Rusia. Ujian Negara Terpadu terdiri dari tes dan esai tentang topik tertentu. Tes untuk robot dikompilasi dengan tingkat kerumitan yang meningkat dan terdiri dari tiga tahap: menyelesaikan tugas secara langsung, menyoroti contoh sesuai dengan aturan dan kata-kata yang diberikan, dan juga merekam jawaban dengan benar.



Mari kita kembali ke tugas dikte dari diskusi tentang "apa lagi yang bisa dilakukan".



Peta kesalahan



Antara lain, penyelenggara kompetisi meminta heatmap kesalahan. Alat seperti peta panas menunjukkan di mana dan seberapa sering orang melakukan kesalahan; Adalah logis bahwa mereka lebih sering melakukan kesalahan di tempat-tempat yang sulit. Dalam hal ini, selain perbedaan dengan opsi referensi, Anda dapat menggunakan peta panas berdasarkan perbedaan pengguna lain. Validasi kolektif atas hasil satu sama lain mudah diterapkan, tetapi dapat meningkatkan kualitas verifikasi secara signifikan.



Statistik "Total Dictation" yang sebagian mirip sudah dikumpulkan, tetapi dilakukan secara manual dengan bantuan sukarelawan. Misalnya berkat kerja keras merekakami mengetahui bahwa sebagian besar dari semua pengguna salah dalam mengatakan "lambat", "terlalu banyak", "terencana". Tetapi mengumpulkan data seperti itu dengan cepat dan efisien menjadi semakin sulit, semakin banyak peserta dikte. Beberapa platform pendidikan sudah menggunakan alat serupa. Misalnya, salah satu aplikasi populer untuk belajar bahasa asing menggunakan teknologi tersebut untuk mengoptimalkan dan mempersonalisasi pelajaran. Untuk melakukan ini, mereka mengembangkan model yang tugasnya menganalisis kombinasi frekuensi kesalahan jutaan pengguna. Ini membantu memprediksi seberapa cepat pengguna bisa melupakan kata tertentu. Kompleksitas topik yang dipelajari juga diperhitungkan.



Secara umum, seperti kata ayah saya: “Semua tugas dibagi menjadi omong kosong dan tuli. Omong kosong - ini adalah tugas yang telah diselesaikan, atau belum mulai diselesaikan. Orang tunarungu adalah tugas yang sedang Anda selesaikan saat ini. " Bahkan seputar masalah validasi teks, pembelajaran mesin memungkinkan Anda mengajukan banyak pertanyaan dan membuat banyak add-on yang secara kualitatif dapat mengubah pengalaman pengguna akhir. Kami akan mencari tahu apa yang akan dilakukan oleh peserta World AI & Data Challenge pada akhir tahun.



All Articles