Note [125] Perbedaan antara penglihatan manusia dan penglihatan komputer

Di foto ini ada seseorang sedang menimbang berat badannya. Diam-diam tanpa diketahui orang itu, Presiden Obama turut menaruh kakinya pada timbangan. Orang-orang di sekitarnya ada yang tertawa melihat perbuatan Obama.

Secara visual kita melihat foto tersebut dan dengan logika kita bisa menyimpulkan apa yang sedang terjadi. Misalnya, hasil timbangan orang itu akan menjadi tidak akurat lagi karena ada kaki Obama pada timbangan.

Disini ada dua aspek yang bekerja pada otak kita untuk menyimpulkan ketika melihat foto itu. Aspek visual dan aspek logika.

Aspek logika dibangun dari informasi yang bermacam-macam sumbernya, misalnya pengetahuan umum (timbangan yang mengukur berat badan), pengetahuan fisika (kaki di atas timbangan menambah beban), pengetahuan psikologis (orang akan terkejut jika berat badannya di atas biasanya), pemahaman sosial (ada yang tertawa, ada yang tidak) dsb.

Dapatkah komputer melihat foto tersebut dan dengan kemapuan logikanya komputer akan mampu menyimpulkan yang serupa seperti kesimpulan kita?

Sampai saat ini komputer belum bisa melihat dan sekaligus berlogika untuk menyimpulkan hasil penglihatannya seperti halnya yang bisa dilakukan oleh manusia.

Memang, beberapa dekade terakhir telah terlihat banyak karya inovatif di bidang Deep Learning (Pembelajaran Mendalam) yang telah membantu komputer meniru beberapa fungsi penglihatan manusia (biological vision).

Jaringan saraf tiruan di komputer dapat mengklasifikasikan gambar dengan label objek, mengelompokkan gambar (clustering), menghasilkan gambar, dan banyak lagi. Ini yang membangun kajian di bidang penglihatan komputer (computer vision).

Tetapi setiap jaringan saraf tiruan tadi hanya dapat menyelesaikan berbagai tugas satu per satu secara terpisah.

Sebaliknya pada penglihatan biologis yang dimiliki manusia dapat menjawab berbagai pertanyaan dari sebuah gambar secara serempak. Kita tidak hanya memberi label objek, kita dapat menghitung objek, kita dapat mendeskripsikan warnanya, interaksinya, ukurannya, dll.

Otak kita telah membangun jaringan saraf untuk melakukan semua hal ini secara serempak. Jaringan saraf yang seperti ini belum dimiliki oleh jaringan saraf tiruan di komputer, suatu jaringan saraf yang dapat melakukan semua hal secara bersamaan.

Penglihatan memainkan peran kunci dalam banyak hal yang kita lakukan setiap hari.

Computer vision tampaknya menjadi salah satu langkah utama untuk mengembangkan kecerdasan buatan umum (General Artificial Intelligence). Namun jalan masih panjang sebelum kita dapat membangun sistem Artificial Intelligence yang melihat dunia seperti yang kita lakukan.

Pembuatan sistem computer vision yang memiliki fleksibilitas semacam ini akan tetap menjadi tantangan utama.

Pada manusia, penglihatan sangat terintegrasi dengan fungsi otak lainnya seperti logika, penalaran, bahasa, dsb.

Area seperti bahasa dan akal sehat sendiri merupakan tantangan besar bagi komunitas pengembang Artificial Intelligence. Tetapi masih harus dilihat apakah mereka dapat diselesaikan secara terpisah atau terintegrasi bersama dengan computer vision.

Pada titik tertentu kita perlu masuk ke semua aspek kognisi lainnya, dan sulit membayangkan bagaimana mengintegrasikan kognisi tanpa referensi ke bahasa dan logika.

Diharapkan ada upaya besar yang menarik di tahun-tahun mendatang dengan memasukkan lebih banyak bahasa dan logika ke dalam model computer vision (dan sebaliknya menggabungkan computer vision ke dalam model bahasa juga).

Bisa dimengerti, bidang kajian computer vision dan natural language processing (NLP) kini sangat mendominasi di Deep Learning.

Inilah modal dasar untuk membangun General Artificial Intelligence.

Referensi:
https://bdtechtalks.com/2021/05/10/biological-computer-vision/

Kreiman, Gabriel (2021), Biological and Computer Vision.

Categories: Tags:

Leave a comment