πŸ„½πŸ„ΎπŸ…ƒπŸ„΄ [199] Learning by trial and error

Good outcomes lead to overconfidence => Overconfidence leads to bad decisions => Bad decisions lead to bad outcomes => Bad outcomes make you gain experience => Experience leads to good decisions => Good decisions lead to good outcomes => Good outcomes …. (FranΓ§ois Chollet)

Proses siklikal yang nampaknya berputar-putar ini mampu menggambarkan proses learning by trial and error.

Pada setiap tahapan putarannya akan diperoleh cara yang semakin baik untuk melakukan sesuatu.

Proses learning by trial and error akan mengadopsi prinsip exploration and exploitation dalam suatu experiment (simulasi).

Pada tahap exploration dengan berbagai cara akan dicoba sampai diperoleh hasil dengan cara ‘terbaik pertama’ dalam experimen (simulasi) di tahap permulaannya.

Suatu cara yang berhasil memberikan hasil ‘terbaik pertama’ itu akan diulang-ulang di tahap exploitation agar semakin mahir.

Sekalipun hasil ‘terbaik pertama’ sudah ditemukan, experimen masih tetap menempuh tahap exploration untuk menjajaki cara lain sampai kelak ditemukan cara ‘terbaik kedua’ yang akan diulang-ulang lagi sampai mahir di tahan exploitation.

Prosen learning akan di teruskan dengan exploration dan explotation di dalam eksperimen sampai ditemukan cara ‘terbaik ketiga’, ‘terbaik keempat, ‘terbaik kelima’ dan seterusnya.

Sehingga akhirnya suatu cara akan diputuskan sebagai cara ‘terbaik’ secara optimal.

Inilah proses learning by trial and error yang diadopsi di Reinforcement Learning (RL).

RL ini cocok untuk melatih robot untuk berperilaku selama proses simulasi di komputer.

RL juga berpotensi akan cocok pula untuk membagun trading system melalui simulasi di pasar finansial.

RL juga berpotensi akan cocok pula untuk membangun rule dengan simulasi bagi kebijakan ekonomi dsb.

Proses eksperimen (simulasi) di komputer bisa menempuh siklus learning sampai berjuta kali.

Bahkan untuk masalah yang pelik seperti permainan catur dan Go, simulasinya bisa sampai milyaran kali sampai komputer akan pintar main catur dan Go.

Dengan RL dimungknkan mesin akan belajar pada dirinya sendiri dengan segala kegagalan dan kesuksesan yang dialaminya, tidak lagi belajar pada manusia.

Referensi:
https://twitter.com/fchollet/status/1468643939745939462?t=iJx_vpNmPyq69kMzrcbb-Q&s=09

Categories: Tags:

Leave a comment