Crossing Linguistic Horizons

Finetuning and Comprehensive Evaluation of Vietnamese Large Language Models

Zero-Shot Language Modeling Leaderboard

Models	MLQA-MLM						VSEC
Models	EM↑	CER↓	WER↓	CED↓	WED↓	PLX↓	EM↑	CER↓	WER↓	CED↓	WED↓	PLX↓
URA-LLaMa 70B	0.00 ± 0.00	0.50 ± 0.01	0.64 ± 0.01	519.09 ± 10.96	115.82 ± 2.45	1.08 ± 0.01	0.00 ± 0.00	0.88 ± 0.00	1.01 ± 0.00	113.51 ± 0.57	29.91 ± 0.15	1.09 ± 0.00
URA-LLaMa 13B	0.00 ± 0.00	0.67 ± 0.00	0.78 ± 0.00	697.85 ± 11.62	161.34 ± 2.64	1.16 ± 0.02	0.01 ± 0.00	0.42 ± 0.01	0.56 ± 0.01	54.88 ± 0.77	14.50 ± 0.19	1.26 ± 0.00
URA-LLaMa 7B	0.00 ± 0.00	0.73 ± 0.00	0.88 ± 0.01	684.00 ± 13.18	166.87 ± 3.18	1.25 ± 0.01	0.01 ± 0.00	3.33 ± 0.04	3.14 ± 0.03	420.34 ± 5.66	85.79 ± 0.96	1.33 ± 0.00
LLaMa-2 13B	0.00 ± 0.00	0.90 ± 0.00	1.00 ± 0.00	881.97 ± 11.23	208.52 ± 2.52	1.10 ± 0.01	0.00 ± 0.00	1.32 ± 0.01	1.40 ± 0.01	160.06 ± 1.16	38.12 ± 0.23	1.11 ± 0.00
LLaMa-2 7B	0.00 ± 0.00	0.95 ± 0.00	1.07 ± 0.01	860.42 ± 13.18	210.21 ± 3.18	1.25 ± 0.01	0.00 ± 0.00	1.54 ± 0.04	1.55 ± 0.03	171.28 ± 5.66	40.18 ± 0.96	1.14 ± 0.00
Vietcuna 7B	0.00 ± 0.00	1.00 ± 0.00	1.00 ± 0.00	951.53 ± 12.37	208.57 ± 2.73	1.48 ± 0.01	0.01 ± 0.00	1.11 ± 0.01	1.20 ± 0.01	139.90 ± 1.39	33.94 ± 0.33	1.61 ± 0.00
GPT-3.5	0.00 ± 0.00	0.34 ± 0.01	0.50 ± 0.01	422.30 ± 10.79	100.33 ± 2.44	-	0.02 ± 0.00	0.16 ± 0.00	0.30 ± 0.00	12.63 ± 0.34	3.48 ± 0.09	-
GPT-4	0.04 ± 0.00	0.40 ± 0.01	0.45 ± 0.01	381.88 ± 10.26	93.34 ± 2.39	-	0.60 ± 0.01	0.14 ± 0.00	0.26 ± 0.00	13.58 ± 0.45	3.67 ± 0.12	-