Pentingnya Dekolonisasi AI di Era Model Bahasa Besar

Kecerdasan buatan (AI) berbasis Model Bahasa Besar (Large Language Model, LLM) seperti GPT (Generative Pre-trained Transformer) dan ChatGPT1Introducing ChatGPT. (n.d.). Introducing ChatGPT. https://openai.com/blog/chatgpt (implementasi spesifik dari GPT yang telah dilatih khusus untuk menghasilkan respons yang relevan dan terdengar alami dalam konteks percakapan seperti chatbot) merupakan model pemrosesan bahasa alami (Natural Language Processing, NLP) yang terbesar dan paling mutakhir saat ini (khususnya model GPT-42GPT-4. (n.d.). GPT-4. https://openai.com/product/gpt-4). Model berbasis LLM ini mampu melakukan berbagai tugas yang berhubungan dengan bahasa manusia, seperti menerjemahkan bahasa, meringkas teks, menjawab pertanyaan dengan jawaban yang relevan dan terdengar alami, seperti layaknya manusia. Salah satu fitur menarik dari model GPT ini adalah kemampuannya untuk melakukan “zero-shot” dan “few-shot learning” yang berarti dia dapat melakukan tugas-tugas di mana ia tidak dilatih secara eksplisit, atau tugas-tugas di mana ia hanya diberikan beberapa contoh saja. Hal ini membuat model ini menjadi model bahasa yang serbaguna dan mudah untuk diadaptasikan ke berbagai aplikasi. Sebagai contoh, ChatGPT bahkan bisa membantu penggunanya menulis bahasa pemrograman dalam berbagai bahasa pemrograman. Para pengguna tidak perlu lagi harus belajar atau mengetahui cara menulis bahasa pemrograman dari awal, mereka cukup memberi instruksi dalam bahasa manusia dan ChatGPT bisa menghasilkan kode pemrograman yang sesuai dengan instruksi mereka. Bahkan, para komentator teknologi memprediksi bahwa “prompt engineering”, yaitu teknik membingkai instruksi yang tepat dalam bahasa manusia untuk berinteraksi dengan model ini sehingga dapat menghasilkan hasil yang paling akurat, relevan, dan sesuai dengan harapan, akan menjadi pekerjaan yang paling dicari di masa depan dengan gaji yang dapat mencapai 335.000 dolar AS atau hampir 5 miliar rupiah per tahun3How to get a six-figure job as an AI prompt engineer. (2023, April 14). Time. https://time.com/6272103/ai-prompt-engineer-job/.

Kemampuan ChatGPT dalam memahami konteks percakapan dan menghasilkan respons yang relevan dan alami layaknya manusia membuat ChatGPT sangat populer di kalangan praktisi NLP dan pengembang aplikasi. OpenAI, yang mengembangkan rangkaian model GPT, melalui API (Application Programming Interface)-nya membuat teknologi ini mudah bagi pengembang dan perusahaan untuk mengintegrasikan kemampuan model-model ini, termasuk ChatGPT, ke dalam produk dan layanan mereka, terutama produk dan layanan yang membutuhkan interaksi yang lebih alami antara manusia dan komputer. Selain itu, karena OpenAI juga telah membuat teknologi ini terbuka untuk umum lewat situs web OpenAI dan aplikasinya, ChatGPT juga menjadi viral di kalangan masyarakat luas. Hanya dalam dua bulan sejak diluncurkan pada November 2022, ChatGPT sudah mencapai 100 juta pengguna pada Januari 2023. Banyak yang berpendapat bahwa ChatGPT dapat meningkatkan produktivitas kerja. Lewat prompt engineering, ChatGPT bisa membantu proses analisis, proses brainstorming dan formulasi strategi, proses penulisan, dan bahkan untuk mengidentifikasi dan memperbaiki kesalahan saat menulis bahasa pemrograman komputer.

Untuk melatih ChatGPT, OpenAI menggunakan teknik Pemodelan Bahasa (Language Modeling) yang sudah lama dikembangkan dalam bidang NLP, cabang dari AI yang memungkinkan komputer untuk memahami, memproses, dan menghasilkan bahasa manusia. Lewat teknik Language Modeling, khususnya Generative Language Modeling4Improving language understanding with unsupervised learning. (n.d.). Improving language understanding with unsupervised learning. https://openai.com/research/language-unsupervised, ChatGPT dilatih untuk memperkuat pemahamannya tentang bahasa manusia dengan cara memberikan model ini sebuah bagian dari teks dan meminta model untuk memprediksi kata-kata selanjutnya dalam teks itu. Dengan melakukan tugas ini berulang-ulang dan dengan jumlah teks yang besar (yang diambil dari berbagai sumber, termasuk buku, artikel, situs web, dan publikasi lainnya), model bisa belajar mengidentifikasi pola dan keteraturan dalam teks dan belajar secara mandiri dari teks itu sendiri untuk membangun pemahamannya tentang bahasa manusia. Dengan latihan yang cukup, model dapat memahami bahasa manusia dengan sangat baik dan menghasilkan jawaban yang relevan dan bermakna saat diajak berbicara. Latihan yang cukup mencakup cukup dari segi jumlah data, jumlah parameter model (yang mana parameter adalah variabel internal di dalam model yang nilainya bisa disesuaikan oleh model saat pelatihan untuk menghasilkan hasil yang optimal), kekuatan komputer, dan waktu pelatihan. Karena itu, model-model berbasis LLM sekarang, seperti ChatGPT, mempunyai parameter yang jumlahnya miliaran (GPT-2 memiliki 1,5 miliar parameter, GPT-3 memiliki 175 miliar parameter5GPT-2 – Wikipedia. (2019, February 14). Wikipedia. https://en.wikipedia.org/wiki/GPT-2, sementara GPT-4 yang membelakangi ChatGPT diperkirakan memiliki 1 triliun parameter6Bastian, M. (2023, March 25). GPT-4 has a trillion parameters – Report. THE DECODER. https://the-decoder.com/gpt-4-has-a-trillion-parameters/) dan membutuhkan komputer yang sangat kuat, teks dalam jumlah yang sangat besar (GPT-2 dilatih dengan 40GB teks5 dan GPT-3 dilatih dengan 45TB teks7Nast, C., & W. (2020, July 27). How do you control an AI as powerful as OpenAI’s GPT-3? WIRED UK. https://www.wired.co.uk/article/gpt-3-openai-examples) dan proses waktu pelatihan yang sangat lama (GPT-3 dilatih selama beberapa minggu dengan menggunakan ratusan GPU komputer dengan estimasi biaya sekitar 12 juta dolar AS8Wiggers, K. (2020, June 1). OpenAI’s massive GPT-3 model is impressive, but size isn’t everything. VentureBeat. https://venturebeat.com/ai/ai-machine-learning-openai-gpt-3-size-isnt-everything/).

Karena model-model ini dilatih dengan sejumlah besar teks di internet yang sebagian besar adalah dalam bahasa Inggris, Spanyol, dan bahasa-bahasa utama lain di internet, model-model ini mempunyai kemampuan lebih dalam memahami bahasa-bahasa tersebut, termasuk dalam mengenali nuansa bahasa, idiom, kosakata khusus, dan dapat memberikan hasil yang lebih akurat dan responsif saat berinteraksi dalam bahasa-bahasa tersebut. Sementara, untuk bahasa-bahasa yang lebih kecil, seperti bahasa Islandia9Government of Iceland. (n.d.). Government of Iceland. https://openai.com/customer-stories/government-of-iceland atau bahasa Jawa, ChatGPT misalnya, tidak mempunyai kemampuan atau pemahaman yang sama dan akan mengalami kesulitan menjawab pertanyaan dalam bahasa yang mungkin sama sekali tidak ada di data latihnya (seperti bahasa Ibibio). Sebagai contoh, meskipun ChatGPT bisa menerjemahkan banyak bahasa, kemampuannya menerjemahkan dari bahasa Inggris ke Spanyol jauh lebih bagus daripada kemampuannya menerjemahkan ke bahasa Islandia, atau ke bahasa Jawa (Figur 1). Tidak hanya sebatas pengetahuan mengenai bahasa, ChatGPT juga mempunyai kemampuan yang lebih dalam menjawab pertanyaan mengenai sejarah, budaya, atau tokoh publik dalam bahasa Inggris dibanding pertanyaan yang sama dalam bahasa Indonesia, misalnya, karena informasi yang dia miliki dalam bahasa Indonesia lebih terbatas. Sebagai contoh, ChatGPT memberi informasi yang salah mengenai penyanyi Tulus dan berhalusinasi bahwa Tulus mempunyai album yang berjudul Musik dari Senja dan berkolaborasi dengan Brisia Jodie dalam lagu “Adu Rayu”, padahal lagu ini merupakan kolaborasi antara Tulus dengan Yovie Widianto dan Glenn Fredly. Jika dibandingkan dengan informasi yang diberikan ChatGPT mengenai Ed Sheeran dalam bahasa Inggris, informasi tentang Tulus yang diberikan ChatGPT dalam bahasa Indonesia maupun bahasa Inggris mengandung lebih banyak kesalahan dari segi diskografi dan kolaborasi (Figur 2).

Figur 1. Terjemahan kalimat umum dalam bahasa Inggris ke bahasa Jawa dan Spanyol

Figur 2. Informasi yang diberikan ChatGPT mengenai tokoh publik (musisi) Tulus dalam bahasa Indonesia (kiri) dan Ed Sheeran dalam bahasa Inggris (kanan)

Karenanya, pengguna yang bisa berbicara bahasa Inggris atau bahasa dominan lain di internet mempunyai kelebihan dari pengguna yang tidak bisa berbahasa Inggris dalam berinteraksi dan dalam mendapatkan hasil yang akurat dari ChatGPT dan model AI berbasis LLM lain. Supaya tidak ketinggalan, di masa depan, dengan semakin banyaknya produk dan layanan yang berbasis LLM dan pekerjaan yang mengharuskan interaksi dengan model-model ini, bukan tidak mungkin pengguna akan terpaksa belajar dan berpindah menggunakan bahasa Inggris untuk dapat berinteraksi dengan baik dengan aplikasi-aplikasi berbasis LLM tersebut. Kurangnya teknologi yang inklusif ini dapat membuat pengguna beralih dari bahasa ibunya ke bahasa Inggris, yang akan makin memperburuk kesenjangan10Linguistic diversity. (n.d.). Linguistic diversity. https://microsoft.github.io/linguisticdiversity/. Selain itu, kurangnya cakupan jawaban dalam bahasa-bahasa, fakta, dan budaya-budaya yang lebih kecil dalam model-model berbasis LLM ini dapat menghilangkan “suara” mereka (karena informasi mengenai bahasa, fakta, dan budaya mereka terbatas) dan semakin memarginalkan komunitas-komunitas bahasa dan budaya tersebut dari segi akses ke teknologi, informasi, dan manfaat-manfaat yang bisa didapatkan dari perkembangan teknologi mutakhir berbasis LLM ini. Kurangnya representasi “suara” dan karenanya, sudut pandang, dari komunitas-komunitas ini dalam model-model berbasis LLM seperti ChatGPT mempunyai potensi untuk mengurangi keragaman pemikiran dan ekspresi manusia (Figur 3), dan meratakan keragaman bahasa, budaya, dan ekspresi manusia ke dalam perspektif yang tunggal dan monolitik11J. (2023, March 28). AI and the American smile. Medium. https://medium.com/@socialcreature/ai-and-the-american-smile-76d23a0fbfaf.

Figur 3. Informasi yang diberikan ChatGPT tentang kata-kata “jatuh” dalam bahasa Jawa (kiri) dan bahasa Inggris (kanan). Informasi yang diberikan ChatGPT mengenai bahasa Jawa sangat tidak akurat, padahal setidaknya ada 17 kosakata “jatuh” dalam bahasa Jawa, yang tidak ada persamaan katanya dalam bahasa Inggris seperti “kejiret”, “kedringes”, ndhoprok, “nggeblak”, dan lain-lain12Wawan S., J. H. (n.d.). Kaya kosakata, ini aneka istilah bahasa Jawa untuk peristiwa “jatuh.” Detikjateng. https://www.detik.com/jateng/budaya/d-5901708/kaya-kosakata-ini-aneka-istilah-bahasa-jawa-untuk-peristiwa-jatuh

Selain itu, karena model-model berbasis LLM ini dilatih dengan sejumlah besar data dari internet, model-model ini dapat merekam dan mereproduksi bias dan prasangka sosial yang dominan di internet dan bisa memberikan jawaban yang cenderung bias terhadap kelompok, komunitas, atau yurisdiksi tertentu1313. Akyürek, A. F., Paik, S., Kocyigit, M., Akbiyik, S., Runyun, S. L., & Wijaya, D. (2022). On measuring social biases in prompt-based multi-task learning. Findings of the Association for Computational Linguistics: NAACL 2022. https://doi.org/10.18653/v1/2022.findings-naacl.421414. Akyürek, A. F., Kocyigit, M. Y., Paik, S., & Wijaya, D. T. (2022). Challenges in measuring bias via open-ended language generation. Proceedings of the 4th workshop on gender bias in Natural Language Processing (GeBNLP). https://doi.org/10.18653/v1/2022.gebnlp-1.9. Batasan (atau “guardrails”) yang dipasang oleh OpenAI untuk menyaring pertanyaan dan jawaban yang cenderung bias, rasis, atau “toxic” dapat mengakibatkan berkurangnya cakupan teks tentang dan dalam dialek komunitas yang terpinggirkan, yang berarti memecahkan masalah bias dan rasisme dengan “menghapus” minoritas1515. Artificial intelligence: Last Week Tonight with John Oliver (HBO). (2023, February 26). YouTube. https://www.youtube.com/watch?v=Sqa8Zo2XWc4. Batasan-batasan yang dipakai OpenAI untuk menyaring pertanyaan dan jawaban ini banyak didasarkan pada kosakata yang bias, rasis, atau toxic dalam bahasa Inggris dan terjemahan langsungnya ke bahasa-bahasa lain, yang bisa jadi tidak bias, rasis, apalagi toxic. Sebagai contoh, HurtLex1616. V. (n.d.). GitHub – valeriobasile/hurtlex: A multilingual lexicon of words to hurt. GitHub. https://github.com/valeriobasile/hurtlex salah satu leksikon terkemuka yang sering dipakai untuk menyaring kata-kata bias, rasis, atau toxic dalam model-model AI, menempatkan kata-kata seperti  “wanita”, “suku”, dan “polisi” dalam daftar kata-kata toxic dalam bahasa Indonesia1717. V. (2020, January 27). Hurtlex/lexica/ID at master · valeriobasile/hurtlex. GitHub. https://github.com/valeriobasile/hurtlex. Jika kosakata berbasis bahasa Inggris ini dipakai oleh model-model ini untuk menyaring atau menyensor pertanyaan dan jawaban yang berhubungan dengan “wanita” misalnya, ini akan semakin mengurangi cakupan dan informasi mengenai wanita dalam interaksi dengan model-model tersebut. Pengguna dari model-model juga akan lebih kurang melihat jawaban yang berhubungan tentang isu-isu wanita di Indonesia yang bisa berdampak pada kesadaran publik dan mempengaruhi sikap masyarakat terhadap isu-isu tersebut1818. Hutchinson, B., Prabhakaran, V., Denton, E., Webster, K., Zhong, Y., & Denuyl, S. C. (n.d.). Social biases in NLP Models as barriers for persons with disabilities – Google Research. Google Research. https://research.google/pubs/pub49121/.

Karena pelatihan model-model ini membutuhkan data, dana, dan sumber daya yang banyak, kebanyakan pelatihan dan pengembangan model-model ini sekarang dikuasai dan dikontrol oleh kepentingan korporasi. Pada saat yang sama, masih sedikit lembaga pemerintahan yang sudah membuat peraturan untuk mengatur aspek-aspek pengembangan dan penggunaan model-model tersebut dan memitigasi risiko-risiko yang mungkin ditimbulkan oleh model-model berbasis LLM ini. Dekolonisasi AI merupakan suatu cara untuk memitigasi beberapa risiko negatif dari model-model berbasis LLM ini. Beberapa proyek bahasa-bahasa kecil di berbagai belahan dunia (seperti proyek Te Hiku Media, di Selandia Baru) mengumpulkan data dalam bahasa Māori dan mengembangkan sistem AI untuk bahasa Māori yang dibangun dan dimiliki oleh komunitas bahasanya sendiri1919. Bridle, J. (2023, March 16). The stupidity of AI. The Guardian. https://www.theguardian.com/technology/2023/mar/16/the-stupidity-of-ai-artificial-intelligence-dall-e-chatgpt. Mereka menghubungi setiap kelompok komunitas bahasa Māori dan meminta mereka untuk merekam dan menganotasi diri mereka berbicara dalam bahasa Māori. Data inilah yang kemudian mereka pakai untuk melatih sendiri sistem pengenalan suara (speech recognition system) yang sangat akurat untuk bahasa Māori. Proyek yang mereka lakukan ini juga membuka jalan untuk komunitas-komunitas bahasa dan budaya lain untuk mengikuti konsep mereka dalam melindungi kedaulatan data bahasa, budaya, dan pengetahuan mereka. Karena data merupakan perbatasan akhir dari kolonisasi19, semua data yang dihasilkan oleh Te Hiku Media dirilis di bawah “Lisensi Kaitiakitanga” yang menjamin secara hukum bahwa semua data yang masuk ke dalam model-model bahasa (Language Models) dan proyek-proyek lainnya tetap menjadi milik komunitas yang membuatnya. Lewat cara ini, beberapa aspek negatif dari model-model bahasa yang sudah kita bahas di atas dapat teratasi. Yang pertama, language models yang lebih akurat dalam bahasa tersebut dapat terbangun, yang bisa menjadi basis dibangunnya lebih banyak aplikasi produk dan pelayanan dalam bahasa tersebut. Yang kedua, dengan adanya aplikasi-aplikasi dalam bahasa tersebut yang bisa digunakan oleh banyak orang, ia dapat merevitalisasi bahasa tersebut dan mengurangi dominasi bahasa-bahasa besar di dunia. Yang ketiga dan paling utama, data dan teknologi ini bisa dibangun sambil tetap mengedepankan kepentingan komunitas bahasa itu sendiri, sambil melawan dan mengubah sistem kolonialisme digital.

Dalam dekolonisasi AI, Indonesia memainkan peranan yang sangat penting. Meskipun bahasa Indonesia, bahasa resmi Indonesia, merupakan “rising star10 dalam hal sumber daya bahasanya (karena banyaknya komunitas online yang berkembang dan menghasilkan banyak teks dalam bahasa Indonesia), Indonesia masih memiliki lebih banyak lagi bahasa-bahasa daerah (sekitar 700 bahasa) yang hanya memiliki sejumlah kecil teks dalam bentuk digital yang bisa dipakai untuk melatih model-model bahasa (meskipun banyak dari bahasa daerah ini yang banyak pembicaranya, seperti bahasa Sunda, Bali, atau Minangkabau). Meskipun terdapat upaya untuk membuat katalog data bahasa-bahasa daerah di Indonesia seperti Nusa Crowd2020. I. (n.d.). GitHub – IndoNLP/nusa-crowd: A collaborative project to collect datasets in Indonesian languages. GitHub. https://github.com/IndoNLP/nusa-crowd, upaya ini berfokus pada pengumpulan data yang sudah ada bentuk digitalnya. Dibutuhkan gerakan akar rumput (grass-root) yang terorganisir untuk meningkatkan kesadaran masyarakat akan pentingnya pembuatan sumber daya digital (data21Hewitt, J., Ippolito, D., Callahan, B., Kriz, R., Wijaya, D. T., & Callison-Burch, C. (2018). Learning translations via images with a massively multilingual image dataset. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). https://doi.org/10.18653/v1/p18-123922Khani, N., Tourni, I., Rasooli, M. S., Callison-Burch, C., & Wijaya, D. T. (2021). Cultural and geographical influences on image translatability of words across languages. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. https://doi.org/10.18653/v1/2021.naacl-main.1923Wibowo, H. A., Nityasya, M. N., Akyürek, A. F., Fitriany, S., Aji, A. F., Prasojo, R. E., & Wijaya, D. T. (2021). IndoCollex: A testbed for morphological transformation of Indonesian word colloquialism. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. https://doi.org/10.18653/v1/2021.findings-acl.280 dan model bahasa2424. Kuwanto, G., & Akyürek, A. F. (2021). Isidora Chara Tourni, Siyang Li, and Derry Wijaya. 2021. Low-resource machine translation for low-resource languages: Leveraging comparable data, codeswitching and compute resources. arXiv preprint arXiv:2103.13272.) dari bahasa-bahasa ini dan pentingnya upaya untuk merevitalisasi bahasa-bahasa daerah kita dan membangun teknologi bahasa yang bisa menjadi milik kita sendiri. Digitalisasi teks dan artefak bahasa-bahasa daerah di Indonesia yang besar dan beragam akan memungkinkan pelatihan model bahasa untuk bahasa-bahasa tersebut yang pada gilirannya akan mempromosikan multibahasa dan keragaman linguistik dan memacu lebih banyak penelitian bahasa25Lohr, S. T. E. V. E. (2010). Aiming to learn as we do, a machine teaches itself. The New York Times.26Mitchell, T., Cohen, W., Hruschka, E., Talukdar, P., Yang, B., Betteridge, J., Carlson, A., Dalvi, B., Gardner, M., Kisiel, B., Krishnamurthy, J., Lao, N., Mazaitis, K., Mohamed, T., Nakashole, N., Platanios, E., Ritter, A., Samadi, M., Settles, B., . . . Welling, J. (2018, April 24). Never-ending learning. Communications of the ACM, 61(5), 103–115. https://doi.org/10.1145/319151327Wijaya, D. T., Nakashole, N., & Mitchell, T. M. (2014). CTPs: Contextual temporal profiles for time scoping facts using state change detection. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). https://doi.org/10.3115/v1/d14-120728Kocyigit, M., Lee, J., & Wijaya, D. (2022). Better quality estimation for low resource corpus mining. Findings of the Association for Computational Linguistics: ACL 2022. https://doi.org/10.18653/v1/2022.findings-acl.4529Wijaya, D. T., & Mitchell, T. M. (2016). Mapping verbs in different languages to knowledge base relations using web text as interlingua. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. https://doi.org/10.18653/v1/n16-109630Wijaya, D. T., & Gianfortoni, P. (2011, October 28). Nut case: what does it mean? Proceedings of the 1st International Workshop on Search and Mining Entity-Relationship Data. https://doi.org/10.1145/2064988.206499331Wijaya, D. T., Callahan, B., Hewitt, J., Gao, J., Ling, X., Apidianaki, M., & Callison-Burch, C. (2017). Learning translations via matrix completion. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. https://doi.org/10.18653/v1/d17-115232Jones, A., & Wijaya, D. T. (2021, September). Majority voting with bidirectional pre-translation for bitext retrieval. In Proceedings of the 14th Workshop on Building and Using Comparable Corpora (BUCC 2021) (pp. 46–59)., teknologi dan aplikasi33Liu, S., Guo, L., Mays, K., Betke, M., & Wijaya, D. T. (2019). Detecting frames in news headlines and its application to analyzing news framing trends surrounding U.S. gun violence. Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL). https://doi.org/10.18653/v1/k19-104734Akyürek, A. F., Guo, L., Elanwar, R., Ishwar, P., Betke, M., & Wijaya, D. T. (2020). Multi-label and multilingual news framing analysis. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.acl-main.76335Tourni, I., Guo, L., Daryanto, T. H., Zhafransyah, F., Halim, E. E., Jalal, M., Chen, B., Lai, S., Hu, H., Betke, M., Ishwar, P., & Wijaya, D. T. (2021). Detecting frames in news headlines and lead images in U.S. gun violence coverage. Findings of the Association for Computational Linguistics: EMNLP 2021. https://doi.org/10.18653/v1/2021.findings-emnlp.33936Guo, L., Mays, K., Zhang, Y., Wijaya, D., & Betke, M. (2021, April 7). What makes gun violence a (less) prominent issue? A computational analysis of compelling arguments and selective agenda setting. Mass Communication and Society, 24(5), 651–675. https://doi.org/10.1080/15205436.2021.189864437Bhatia, V., Akavoor, V. P., Paik, S., Guo, L., Jalal, M., Smith, A., Tofu, D. A., Halim, E. E., Sun, Y., Betke, M., Ishwar, P., & Wijaya, D. T. (2021). OpenFraming: Open-sourced tool for computational framing analysis of multilingual data. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. https://doi.org/10.18653/v1/2021.emnlp-demo.2838Guo, L., Su, C., Paik, S., Bhatia, V., Akavoor, V. P., Gao, G., Betke, M., & Wijaya, D. (2022, February 15). Proposing an open-sourced tool for computational framing analysis of multilingual data. Digital Journalism, 11(2), 276–297. https://doi.org/10.1080/21670811.2022.2031241 yang dapat dibuat untuk bahasa-bahasa di Indonesia dan orang-orang yang berbicara dalam bahasa tersebut.

Catatan Kaki
1995 1106 Derry Wijaya

Derry Wijaya

Derry Wijaya adalah Associate Professor di Program Ilmu Data Monash University Indonesia. Minat penelitiannya berkisar pada bidang pemutakhiran kecerdasan buatan, dengan fokus khusus pada Natural Language Processing (NLP). Secara khusus, praktik Wijaya berpusat pada pengembangan terjemahan mesin dan teknologi bahasa untuk bahasa dengan sumber daya rendah (low-resource languages). Dia juga ahli dalam teknik komputasi tingkat lanjut untuk analisis pembingkaian berita – bagaimana berbagai urusan publik ditulis dan dibingkai – baik di platform media konvensional maupun yang sedang berkembang. Wijaya aktif melakukan penelitian tentang deteksi dan pencegahan bias-misinformasi. Derry memiliki PostDoc dari University of Pennsylvania dan Ph.D. dari Language Technologies Institute at Carnegie Mellon University’s School of Computer Science.  Sebelum bergabung dengan Monash Indonesia, dia adalah asisten profesor di Departemen Ilmu Komputer Universitas Boston.

Penulis Derry Wijaya
Ketik di sini ...

Preferensi Privasi

Ketika Anda mengunjungi situs web kami, informasi mungkin disimpan melalui peramban Anda dari layanan tertentu, biasanya dalam bentuk cookie. Di sini Anda dapat mengubah preferensi Privasi Anda. Perlu dicatat bahwa memblokir beberapa jenis cookie dapat mempengaruhi pengalaman Anda di situs web kami dan layanan yang dapat kami tawarkan.

Untuk alasan kinerja dan keamanan, kami menggunakan Cloudflare
required

Situs web kami menggunakan cookie, terutama dari layanan pihak ketiga. Tentukan Preferensi Privasi Anda dan/atau setujui penggunaan cookie oleh kami.