Involvement in ICAART2014, Angers, France

In the early of this March, I had a great opportunity to join an international conference named International Conference in Agents and Artificial Intelligence (ICAART) 2014 in ESEO Campus, Angers, Loire Valley, France on 6-8 March 2014. I participated in the conference to present my paper entitled “Predictive Text System for Bahasa with Frequency, N-gram, Probability Table and Syntactic Using Grammar” which I worked together with my students, Polim Kusuma, Silviana Saputra, and Garry Wong. Furthermore, I would like to give my huge thanks to French Embassy for supporting me and to BINUS as well for completing all the needs while I was there.

Derwin01

The conference was perfectly prepared by the committee. They informed me of every details of the conference and emailed me continuously to make sure this conference would run well. And it was proven; the conference schedule and all the equipments ran smoothly.

Derwin02

My presentation schedule was in the second day of the conference. While presenting my paper, the audience gave their full attention to me as well as to every other presenter. They had many questions for my paper which will be valuable input for my future work. The invited keynote speakers were also delivering their topics very well. It extended my knowledge specifically in Agents and Artificial Intelligence. I am very glad I had the chance to join this conference. Many great things were learned from the researchers there; their spirit, their dedication, and their intelligence hit me hardly.

Derwin03

ICAART 2014 received 225 paper submissions from 48 countries all over the world. Surprisingly, I am the one and only presenter coming from South East Asia. From the submission, 33 papers were published as full papers, 50 were accepted for short presentation and another 49 for poster presentation. The ICAART program also includes a Doctoral Consortium on Agents and Artificial Intelligence that brought together Ph.D. students to discuss their research in an international forum.

Derwin04

During the ocassion, I also had opportunity to have brief conversation with Isabelle Orinstein Ory and Olivier Camp from ESEO Campus. We discussed about the possibility of collaboration between BINUS and ESEO. They welcomed me very well and expected that the collaboration can happen in the future.

Source: http://web.binus.ac.id/io/Faculty.Abroad/English

ICAART2014, Angers, France… I’ll be there!

Berangkat dari announcement bahwa akan ada konferensi internasional yang membahas mengenai Intelligent Agent dan Artificial Intelligence di website http://icaart.org/, saya meletakkan dalam buku mimpi untuk bisa hadir disana. Dengan motivasi bahwa saya bisa bertukar pikiran dan brainstorming dengan para peneliti di bidang tersebut dari seluruh dunia. Hal seperti ini sangat membantu untuk meningkatkan pengetahuan saya di bidang tersebut. Lalu kenapa di Perancis, pastinya kita semua sudah tahu bahwa negeri tersebut merupakan negeri yang tersohor dengan segala keindahan dari yang ada di dalamnya. Oh ya, terkait isu dengan konferensi-konferensi “abal-abal”, saya juga mengkonsultasikan dengan beberapa dosen “senior”, dan mereka merekomendasikan konferensi ini sebagai konferensi yang baik.

icaart2014 illbethere

Gambar di atas di edit oleh Nila (teman satu komunitas di gereja) yang bisa menjadi dokumentasi akan apa yang hendak saya capai di tahun 2014.

Mimpi tanpa tindakan apa-apa adalah nol besar, saya percaya akan hal tersebut. Oleh karena itu, saya mulai mengajak beberapa mahasiswa saya yang kebetulan sedang mengerjakan skripsi untuk mengerjakan research yang secara kualitasnya cukup memadai untuk dipublikasikan secara internasional. By the way, pada waktu itu saya mengesampingkan isu mengenai pendanaan, bagaimana paper ini bisa terpublikasikan disana, transportasi kesana, akomodasi dll. Saya sama sekali tidak melihat hal itu terlebih dahulu.

Adalah Polim Kusuma, Garry Wong, dan Silviana Saputra yang merupakan mahasiswa yang bersama-sama mengerjakan penelitian ini. Tentunya peran saya adalah sebagai dosen pembimbing pada skripsi mereka. Mereka bertiga sedikit mencuri start untuk pengerjaan skripsi, karena ketika periode semester Ganjil 2013/2014 belum dimulai, mereka sudah mengerjakan penelitian ini. Seperti pada gambar di atas, submission paper untuk conference tersebut paling lambat adalah pada tanggal 24 September 2013. Padahal, semester Ganjil baru saja dimulai 23 September 2013. Jadi, paper harus sudah selesai paling tidak sebelum perkuliahan Semester Ganjil dimulai. Ketika saya ceritakan hal ini kepada ketiga mahasiswa saya ini, mereka tetap dengan semangat mau menerima tantangan ini. Alhasil tepat beberapa hari sebelum tanggal deadline tersebut, paper pun berhasil diselesaikan. Paper tersebut dibuat dengan judul “Predictive Text System for Bahasa With Frequency, N-gram, Probability Table and Syntactic Using Grammar”.

Submission saya lakukan pada H-1 due date submission paper. Ternyata, setelah saya cek kembali beberapa hari setelah due date submission paper tersebut, pengumpulan di extend selama 1 hingga 2 minggu. Tapi ya sudahlah yang penting sudah submit. Polim, Garry, dan Silviana pun melanjutkan karya mereka di skripsi, mereka tinggal memoles hal-hal yang masih kurang dan melengkapi tulisan demi tulisan yang menjadi syarat sebuah skripsi. Sedangkan untuk pengumuman diterima atau tidaknya paper kami, masih lama, yaitu tanggal 13 Desember 2013.

Pada tanggal 21 November 2013, ada email masuk dari sekretariat ICAART ke account saya. Isinya adalah seperti gambar di bawah ini:

icaart2014 conditionally accepted

Saya pikir sudah pengumuman final bahwa paper kami diterima, ternyata email tersebut hanya memberitahukan bahwa paper dalam status “conditionally accepted”. Sehingga artinya bahwa paper ini “lolos tahap pertama”. Ada beberapa perbaikan yang disampaikan oleh reviewer, dalam waktu beberapa hari kami langsung kembali submit hasil review-nya, karena kebetulan tidak ada perbaikan major yang harus dilakukan.

Tanggal 16 Desember 2013 (lewat 3 hari dari tanggal seharusnya), ada email masuk lagi dari sekretariat ICAART2014 sebagai berikut:

icaart2014 accepted

 

 

 

 

 

Hal ini artinya, paper kami sudah diterima untuk dipublikasikan di Proceeding ICAART2014 sekaligus undangan untuk mempresentasikan karya ini di Perancis. “Yeayyy!!!”, seruan ketika saya ceritakan hal ini kepada para bimbingan saya yang mengerjakan penelitian ini bersama-sama.

Jegerrrrr, tiba-tiba saya panik mengenai pendanaan untuk registrasi paper, transportasi kesana dll. Karena tahun sebelumnya, saya mendapat pendanaan untuk conference di Thailand dari DIKTI (Dinas Pendidikan Tinggi), maka saya berpikir bahwa saya bisa melakukan hal yang sama untuk tahun ini. Namun ternyata DIKTI belum membuka pendaftaran untuk pengajuan proposal anggaran, karena anggaran tahun 2014 masih belum disahkan. Kemudian untuk pengajuan anggaran ke Universitas, hanya terbatas sampai Asia saja. Pada saat itu, satu-satunya bantuan dana yang rutin bisa diperoleh oleh dosen yang terkategori masih junior seperti saya hanyalah Bantuan Seminar Luar Negeri DIKTI. Akhirnya, saya terus mengecek website tersebut setiap hari, siapa tahu pada hari tertentu saat saya cek, proposal anggaran sudah bisa dimasukkan. Ternyata hingga akhir tahun 2013, belum ada tanda-tanda bahwa pengajuan proposal anggaran BSLN (Bantuan Seminar Luar Negeri) akan dibuka.

Saya mengambil inisiatif untuk mendatangi kantor DIKTI perihal bantuan dana ini. Saya hendak menanyakan kapan pengajuan akan dibuka. Sesampai di kantor DIKTI, saya berdiskusi dengan salah satu pegawai bagian pengurusan BSLN. Ternyata, BSLN baru akan dibuka antara awal Februari hingga akhir Maret. Pihak DIKTI sendiri belum bisa memastikan kapan bantuan tersebut akan dibuka, karena masih menunggu approval anggaran dari Departemen Keuangan yang kapan waktunya juga masih belum terdefinisi. Pasrah oh pasrah, saya hanya bisa melihat website DIKTI hari demi hari, siapa tahu keajaiban bisa terjadi.

Berdoa, berdoa, dan berdoa. Saya hanya bisa berdoa supaya tetap bisa berangkat. Saya teringat cerita dari beberapa teman mengenai conference khususnya di Eropa. Pihak penyelenggara bisa memasukkan ke dalam “black list” untuk penulis yang tidak hadir untuk mempresentasikan papernya. Saya semakin kuatir, karena saya membawa nama Universitas, dan negara juga. Dan apa yang bisa saya lakukan? Yup! hanya berdoa, cek website, berdoa, cek website, berdoa, cek website….

Di sisi lain, aktivitas saya sebagai dosen masih terus berlangsung. Pada hari itu adalah pertemuan terakhir Skripsi Kelas Intelligent System. Karena pertemuan terakhir, jadwal bimbingan dari pukul 1 siang hingga 5 sore tidak mencukupi. Saya melanjutkan aktivitas bimbingan hingga pukul 8 malam. Setelah selesai, salah satu anak bimbingan saya menanyakan mengenai keberangkatan saya ke Prancis. Mahasiswa ini bernama Vivi, tidak seperti mahasiswa lainnya yang berkelompok masing-masing bertiga, dia hanya sendiri. By the way, kemarin anak ini baru sidang, dan hasil skripsi dia adalah A.

vivi

 

 

 

 

 

 

 

Kembali ke lanjutan dari cerita di atas. Saya mengatakan kepada dia sudah hopeless, tidak ada support dana untuk saya bisa berangkat. Vivi pun merekomendasikan untuk mencoba meminta bantuan ke organisasi-organisasi non-profit, karena biasanya ada dana khusus yang mereka anggarkan untuk CSR. Vivi mengusulkan untuk mencoba ke Kedutaan Besar. Pada waktu itu, kebetulan ada Muhsin (teman seprofesi), saya bertanya kepada dia, gimana Sin? Muhsin menjawab dengan singkat, “Coba saja Win, nothing to lose”.

Karena hari itu sudah malam, saya pulang, kemudian di rumah saya mulai mencari alamat website Kedutaan Besar Perancis di Indonesia. Setelah beberapa menit mencari, akhirnya ditemukan juga contact person untuk kerjasama ilmiah universitas. Saya segera merancang email untuk dikirimkan ke pihak tersebut. Saya menulis dengan sangat hati-hati, khususnya dalam penggunaan bahasa Inggris yang formal dan maksud serta tujuan saya yang tercantum disitu. Sent! Nothing to lose! Jadi, saya tidak berharap apapun mengenai akibat dari pengiriman email tersebut. Suprisingly, empat hari kemudian, pada saat saya sedang duduk di shuttle dari Alam Sutera menuju Kemanggisan, saya melihat di gadget, email tersebut langsung mendapatkan tanggapan positif. Kedubes Prancis bersedia membantu untuk biaya transportasi dan visa menuju ke Prancis.

frenchembassy accepted

 

 

 

 

 

 

 

Setelah melalui proses yang cukup panjang di internal kampus, maka ditentukanlah tanggal penyerahan tiket yang sedianya dihadiri oleh pak rektor namun diwakili oleh salah satu direktur dari kampus saya. Pada hari penyerahan tiket, saya ditemani oleh dekan, ketua jurusan, direktur dan satu stafnya berangkat menuju ke Kedutaan Besar Perancis di Menara BCA Lantai 40, Thamrin, Jakarta Pusat. Setelah tiba disana, kami disambut oleh staf yang membantu saya untuk memesankan tiket yaitu Ms. Apreita. Setelah semua yang mengikuti meeting serta serah terima tiket lengkap, kami dipersilakan untuk masuk ke ruang meeting.

Pertemuan berlangsung selama 1 jam, pihak Kedutaan Besar Prancis diwakili oleh Dr. Bertrand de Hartingh, Mr. Joel Le Bail, Ms. Marion Noirot, Ms. Flora Stienne, Ibu Arie Soedibjo, dan Ms. Apreita Putri. Banyak peluang kerjasama yang bisa dibangun diantaranya adalah studi lanjut S1, S2, dan S3 ke Perancis, pertukaran pelajar ke Perancis, dan pengiriman dosen-dosen untuk bereksplorasi lebih jauh dalam bidang keilmuan masing-masing. Dan pertemuan diakhiri dengan penyerahan tiket pesawat dan kereta Paris-Angers serta Angers-Paris.

derwin-paris-2

Perjalanan panjang untuk bisa berangkat ke konferensi internasional ICAART2014 pun selesai. Pendanaan untuk transportasi dibantu dari Kedutaan Besar Perancis dan dana lain-lain dibantu oleh pihak kampus. Setelah melalui galau dan bingung bagaimana bisa disana, semua jalan sudah dibukakan oleh TUHAN.

Kalau bukan karena TUHAN, siapa lagi yang bisa merancang skenario pembuatan paper dan pendanaan seajaib ini? Thanks God. Semoga banyak ilmu dan pengalaman baru yang saya bisa temui selama di Perancis nanti.

France, I’ll be there!
Paris, I’ll be there!
Angers, I’ll be there!

Natural Language Processing

Secara mendasar, komunikasi adalah salah satu hal paling penting yang dibutuhkan manusia sebagai makhluk sosial. Ada lebih dari trilyunan halaman berisi informasi pada Website, dimana kebanyakan diantaranya menggunakan bahasa natural. Isu yang sering muncul dalam pengolahan bahasa adalah ambiguitas, dan bahasa yang berantakan/tidak formal (tidak sesuai aturan bahasa).

article11

Gambar 1. Ilustrasi Penggunaan Bahasa

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain.  Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer.

Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh user.

I.   NLP Area

Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian pada field NLP, diantaranya:

  1. Question Answering Systems (QAS). Kemampuan komputer untuk menjawab pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam browser pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural yang digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.
  2. Summarization. Pembuatan ringkasan dari sekumpulan konten dokumen atau email. Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen teks yang besar ke dalam bentuk slide presentasi.
  3. Machine Translation. Produk yang dihasilkan adalah aplikasi yang dapat memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain. Termasuk di dalamnya adalah Google Translate yang apabila dicermati semakin membaik dalam penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang menterjemahkan bahasa pada real time.
  4. Speech Recognition. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses pembangunan model untuk digunakan telpon/komputer dalam mengenali bahasa yang diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan adalah berupa pertanyaan dan perintah.
  5. Document classification. Sedangkan aplikasi ini adalah merupakan area penelitian NLP Yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna pada aplikasi spam filtering, news article classification, dan movie review.

II. Terminologi NLP

Perkembangan NLP menghasilkan kemungkinan dari interface bahasa natural menjadi knowledge base dan penterjemahan bahasa natural. Poole dan Mackworth (2010) menjelaskan bahwa ada 3 (tiga) aspek utama pada teori pemahaman mengenai natural language:

  1. Syntax: menjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah grammar. Natural language jauh lebih daripada formal language yang digunakan untuk logika kecerdasan buatan dan program komputer
  2. Semantics: menjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics secara umum sudah ada, ketika membangun sistem natural language understanding untuk aplikasi tertentu, akan digunakan representasi yang paling sederhana.
  3. Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia. Untuk memahami bahasa, agen harus mempertimbangan lebih dari hanya sekedar kalimat. Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari speaker dan listener, konvensi khusus, dan sejenisnya.

Contoh kalimat di bawah ini akan membantu untuk memahami perbedaan diantara ketiga aspek tersebut di atas. Kalimat-kalimat ini adalah kalimat yang mungkin muncul pada bagian awal dari sebuah buku Artificial Intelligence (AI):

  1. This book is about Artificial Intelligence
  2. The green frogs sleep soundly
  3. Colorless green ideas sleep furiously
  4. Furiously sleep ideas green colorless

Kalimat pertama akan tepat jika diletakkan pada awal sebuah buku, karena tepat secara sintaks, semantik, dan pragmatik. Kalimat kedua tepat secara sintaks dan semantic, namun kalimat tersebut akan menjadi aneh apabila diletakkan pada awal sebuah buku AI, sehingga kalimat ini tidak tepat secara pragmatik. Kalimat ketiga tepat secara sintaks, tetapi tidak secara semantik. Sedangkan pada kalimat keempat, tidak tepat secara sintaks, semantik, dan pragmatik.

Selain daripada ketiga istilah tersebut ada beberapa istilah yang terkait dengan NLP, yaitu:

  • Morfologi. Adalah pengetahuan tentang kata dan bentuknya sehingga bisa dibedakan antara yang satu dengan yang lainnya. Bisa juga didefinisikan  asal usul sebuah kata itu bisa terjadi. Contoh : membangunkan –> bangun (kata dasar), mem- (prefix), -kan (suffix)
  • Fonetik. Adalah segala hal yang berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Fonetik digunakan dalam pengembangan NLP khususnya bidang speech based system

III.  Information Retrieval

Information Retrieval (IR) adalah pekerjaan untuk menemukan dokumen yang relevan dengan kebutuhan informasi yang dibutuhkan oleh user. Contoh sistem IR yang paling popular adalah search engine pada World Wide Web. Seorang pengguna Web bisa menginputkan query berupa kata apapun ke dalam sebuah search engine dan melihat hasil dari pencarian yang relevan. Karakteristik dari sebuah sistem IR (Russel & Norvig, 2010) diantaranya adalah:

  • A corpus of documents. Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage.
  • Queries posed in a query language. Sebuah query menjelaskan tentang apa yang user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan
  • A result set. Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai yang relevan dengan query.
  • A presentation of the result set. Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.

article12

Gambar 2. Proses dari Information Retrieval

 

IV.  Morphological Analysis

Proses dimana setiap kata yang berdiri sendiri (individual words) dianalisis kembali ke komponen pembentuk mereka dan token nonword seperti tanda baca dsb dipisahkan dari kata tersebut.

Contohnya apabila terdapat kalimat:

“I want to print Bill’s .init file”

Jika morphological analysis diterapkan ke dalam kalimat di atas, maka:

  • Pisahkan kata “Bill’s” ke bentuk proper noun “Bill” dan possessive suffix “’s”
  • Kenali sequence “.init” sebagai sebuah extension file yang berfungsi sebagai adjective dalam kalimat.

Syntactic analysis harus menggunakan hasil dari morphological analysis untuk membangun sebuah deskripsi yang terstruktur dari kalimat. Hasil akhir dari proses ini adalah yang sering disebut sebagai parsing. Parsing adalah mengkonversikan daftar kata yang berbentuk kalimat ke dalam bentuk struktur yang mendefinisikan unit yang diwakili oleh daftar tadi.

Hampir semua sistem yang digunakan untuk syntactic processing memiliki dua komponen utama, yaitu:

  • Representasi yang deklaratif, yang disebut juga sebagai Grammar, dari fakta sintaktis mengenai bahasa yang digunakan
  • Procedure, yang disebut juga sebagai Parser, yang membandingkan grammar dengan kalimat yang diinputkan untuk menghasilkan struktur kalimat yang telah di parsing

Cara yang paling umum digunakan untuk merepresentasikan grammar adalah dengan sekumpulan production rule. Rule yang paling pertama bisa diterjemahkan sebagai “Sebuah Sentence terdiri dari sebuah Noun Phrase, diikuti oleh Verb Phrase”, garis vertical adalah OR, sedangkan ε mewakili string kosong.

Proses parsing menggunakan aturan-aturan yang ada pada Grammar, kemudian membandingkannya dengan kalimat yang diinputkan. Struktur paling sederhana dalam melakukan parsing adalah Parse Tree, yang secara sederhana menyimpan rule dan bagaimana mereka dicocokkan satu sama lain. Setiap node pada Parse Tree berhubungan dengan kata yang dimasukkan atau pada nonterminal pada Grammar yang ada. Setiap level pada Parse Tree berkorespondensi dengan penerapan dari satu rule pada Grammar.

Contoh:

Terdapat Grammar sebagai berikut:

  • S → NP VP
  • NP → the NP1
  • NP → PRO
  • NP → PN
  • NP → NP1
  • NP1 → ADJS N
  • ADJS → ε | ADJ ADJS
  • VP → V
  • P → V NP
  • N → file | printer
  • PN → Bill
  • PRO → I
  • ADJ → short | long | fast
  • V → printed | created | want

Maka, apabila terdapat kalimat “Bill printed the file”, representasi Parse Tree nya akan menjadi:

article13

Pembangunan Parse Tree ini didasarkan pada Grammar yang digunakan. Apabila Grammar yang digunakan berbeda, maka Parse Tree yang dibangun harus tetap berdasarkan pada Grammar yang berlaku.

Contoh:

Terdapat Grammar sebagai berikut:

  • S → NP VP
  • VP → V NP
  • NP → NAME
  • NP → ART N
  • NAME → John
  • V → ate
  • ART→ the
  • N → apple

Maka Parse Tree untuk kalimat “John ate the apple” akan menjadi:

article14

V.  Stemming & Lemmatization

Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi dalam representasi dari sebuah kata (Kowalski, 2011). Resiko dari proses stemming adalah hilangnya informasi dari kata yang di-stem. Hal ini menghasilkan menurunnya akurasi atau presisi. Sedangkan untuk keuntungannya adalah, proses stemming bisa meningkatkan kemampuan untuk melakukan recall. Tujuan dari stemming sebenarnya adalah untuk meningkatkan performace dan mengurangi penggunakan resource dari sistem dengan mengurangi jumlah unique word yang harus diakomodasikan oleh sistem. Jadi, secara umum, algoritma stemming mengerjakan transformasi dari sebuah kata menjadi sebuah standar representasi morfologi (yang dikenal sebagai stem).

Contoh:

“comput” adalah stem dari “computable, computability, computation, computational, computed, computing, compute, computerize”

Ingason dkk. (2008) mengemukakan bahwa lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Nirenburg (2009) mendukung teori ini dengan kalimatnya yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks/kata dengan berdasarkan pada bentuk dasar yang merupakan bentuk lemma-nya. Normalisasi disini adalah dalam artian mengidentifikasikan dan menghapus prefiks serta suffiks dari sebuah kata. Lemma adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasar pada kamus.

Contoh:

  • Input: “The boy’s cars are different colors”
  • Transformation: am, is, are à be
  • Transformation: car, cars, car’s, cars’ à car
  • Hasil: “The boy car be differ color”

Algoritma Stemming dan Lemmatization berbeda untuk bahasa yang satu dengan bahasa yang lain.

VI.  Contoh Aplikasi NLP

Penelitian yang dikerjakan oleh Suhartono, Christiandy, dan Rolando (2013) adalah merancang sebuah algoritma lemmatization untuk Bahasa Indonesia. Algoritma ini dibuat untuk menambahkan fungsionalitas pada algoritma Stemming yang sudah pernah dikerjakan sebelumnya yaitu Enhanced Confix-Stripping Stemmer (ECS) yang dikerjakan pada tahun 2009. ECS sendiri merupakan pengembangan dari algoritma Confix-Stripping Stemmer yang dibuat pada tahun 2007. Pengembangan yang dikerjakan terdiri dari beberapa rule tambahan dan modifikasi dari rule sebelumnya. Langkah untuk melakukan suffix backtracking juga ditambahkan. Hal ini untuk menambah akurasi.

Secara mendasar, algoritma lemmatization ini tidak bertujuan untuk mengembangkan dari metode ECS, larena tujuannya berbeda. Algoritma lemmatization bertujuan untuk memodifikasi ECS, supaya lebih tepat dengan konsep lemmatization. Namun demikian, masih ada beberapa kemiripan pada proses yang ada pada ECS. Ada beberapa kasus yang mana ECS belum berhasil untuk digunakan, namun  bisa diselesaikan pada algoritma lemmatization ini.

article15

 Gambar 3. Indonesian Lemmatizer

Pengujian validitas pada algoritma ini adalah dengan menggunakan beberapa artikel yang ada di Kompas, dan diperoleh hasil sebagai berikut:

Category

FULL

UNIQUE

T

V

S

E

P

T

V

S

E

P

Business

6344

5627

5550

77

0.98632

1868

1580

1559

21

0.98671

Regional

6470

4802

5846

81

0.98313

1213

1011

995

16

0.98417

Education

4165

5927

3598

32

0.99460

868

637

623

14

0.97802

Science

6246

5504

5398

73

0.98674

874

643

630

13

0.97978

Sports

6231

3242

5522

42

0.98705

838

608

604

4

0.99342

International

10953

3630

9917

75

0.97934

2037

1593

1575

18

0.98870

Megapolitan

3998

5471

3214

28

0.99488

610

302

297

5

0.98344

National

5499

5564

4764

38

0.99317

559

326

324

2

0.99387

Oasis

6087

9992

5462

42

0.99580

820

528

524

4

0.99242

Travel

8379

7502

7457

45

0.99400

892

611

607

4

0.99345

All

64372

57261

56728

533

0.99069

10579

7839

7738

101

0.98712

Hasil dari pengujian menunjukkan bahwa akurasi yang diperoleh sekitar 98.71%.

T = Total data count

V = Valid test data count

S = Successful lemmatization

E = Error / Kegagalan

P = Precision

Aplikasi NLP yang lainnya adalah seperti penerjemah bahasa, chatting dengan komputer, meringkas satu bacaan yang panjang, pengecekan grammar dan lain sebagainya.

 

DAFTAR PUSTAKA

  • Ingason, K., Helgadóttir, S., Loftsson, H., Rögnvaldsson, E. (2008). A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI). Aarne Ranta (Eds,). Advances in Natural Language Processing.
  • Jurafsky D. dan Martin, J.H. (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2ndEdition. New Jersey: Pearson, Prentice Hall.
  • Kowalski, M. (2011). Information Retrieval Architecture and Algorithms. New York: Springer.
  • Nirenburg, S. (2009). Language Engineering for Lesser-Studied Languages. Amsterdam: IOS Press.
  • Pustejovsky, J., Stubbs A. (2012). Natural Language Annotation for Machine Learning. Beijing: O’Reilly.
  • Russel, S. J., Norvig, P. (2010). Artificial Intelligence A Modern Approach. New Jersey: Pearson Education Inc.
  • Suhartono, D., Christiandy D., Rolando (2013). Lemmatization Technique in Bahasa: Indonesian Language. Kuwait: Journal of Software (unpublished)
  • Massachusetts Institute of Technology (2010). Advanced Natural Language Processing. http://people.csail.mit.edu/regina/6864/. Cambridge

 

Source:

http://socs.binus.ac.id/2013/06/22/natural-language-processing