Phần mềm VITESTA

ĐẶC TÍNH  KỸ THUẬT CỦA PHẦN MỀM VITESTA

THIẾT KẾ THEO IRT

Trên thế giới, khoa học về Đo lường trong giáo dục (Educational Measurement) phát triển từ khoảng đầu thế kỷ 20. Đến thập niên 1970 thì hoàn thiện lý thuyết trắc nghiệm cổ điển (CTT); và từ thập niên 1970 đến nay phát triển một lý thuyết hiện đại được gọi là Lý thuyết Ứng đáp Câu hỏi (Item Response Theory – IRT). Những thành tựu của IRT đã nâng độ chính xác của các phép đo lường trong khoa học hành vi nói chung và việc đánh giá năng lực của người học nói riêng. Để tăng độ chính xác của việc đánh giá năng lực thí sinh (TS), các loại thi tiêu chuẩn hóa cho số đông trên thế giới đều được xây dựng dựa trên IRT, chẳng hạn các loại  thi tuyển đại học SAT, ACT của Mỹ, các loại thi tiếng Anh TOELE, IELTS, hoặc các loại thi học sinh quốc tế TIMSS, PISA…

  1. Việcứng đáp một câu hỏi nào đó của một thí sinh được mô tả bằng một hàm đặc trưng câu hỏi (Item Response Function) cho biết xác suất trả lời đúng câu hỏi tùy theo tương quan giữa năng lực thí sinh và các tham sốđặc trưng cho câu hỏi. Hiện nay có 3 mô hình toán phổ biến nhất trong IRT: mô hình 1 tham số (mô hình Rasch) chỉxét đến độ khó b của câu hỏi, mô hình 2 tham số có xét đến độ phân biệt a của câu hỏi, và mô hình 3 tham số xét thêm mức độ đoán mò ccủa thí sinh khi trả lời câu hỏi.

So với lý thuyết trắc nghiệm cổ điển, IRT có nhiều ưu điểm quan trọng. Trong lý thuyết trắc nghiệm cổđiển độ khóđộ phân biệt của các câu hỏi tính được phụ thuộc vào mẫu thí sinh được chọn để thử nghiệm, và năng lực đo được của thí sinh phụ thuộc vào đề trắc nghiệm (ĐTN) cụ thể mà thí sinh làm. Với IRT, thành tựu kỳ diệu nhất là các tham số đặc trưng của câu hỏi (liên quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định cỡ câu hỏi (sample-free), còn năng lực đo được của thí sinh không phụ thuộc vào một đề thi cụ thể(item-free), tức là phải như nhau cho dù đo bằng bất kỳ đề thi nào được lấy từ ngân hàng câu hỏi đã được cùng định cỡ. Như vậy, theo IRT, mỗi câu hỏi có các thuộc tính đặc trưng cho nó, và mỗi thí sinh ở một trình độ nào đó có một năng lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép đo, hoặc nói cách khác, chúng là các bất biến (invariance).

Từ các hàm đặc trưng câu hỏi xác định được theo IRT có thể tính hàm thông tin của câu hỏi, và từ hàm đặc trưng và hàm thông tin của từng câu hỏi có thể tính được hàm và hàm thông tin của đề thi. Sai số tiêu chuẩn của phép đo là đại lượng tỷ lệ với nghịch đảo của căn số hàm thông tin trong IRT. Hàm thông tin để thi là công cụ quan trọng giúp thiết kế một đề thi nhằm đo chính xác khoảng năng lực nào đó mà người thiết kế mong muốn, đặc biệt để thiết kếcác đề thi tương đương. một khâu rất quan trọng trong việc so sánh kết quả đo năng lực của nhiều thí sinh bằng các đềthi khác nhau.

Để xây dựng một loại thi nào đó, ngoài việc quản lý kỳ thi trực tiếp có thể thực hiện nhờ các giải pháp công nghệthông tin thông thường, có 2 hoạt động chuyên môn quan trọng phải sử dụng thành tựu của khoa học đo lường trong giáo dục: 1) xây dựng ngân hàng câu hỏi, vật liệu để làm đề thi, và 2) thiết kế đề thi cụ thể.  Để phục vụ 2 hoạt động này cần phải xây dựng các phần mềm phân tích đề thi và câu hỏi  dựa vào IRT.

Trên thế giới nhiều phần mềm phân tích dựa vào IRT đã ra đời từ thập niên 1980: CONQUEST của Úc, BILOG của Mỹ…Tuy nhiên ở Việt Nam phần mềm phân tích dựa vào IRT chỉ ra đời từ năm 2007 do Công ty EDTECH-VN xây dựng, đó là phần mềm VITESTA ([1]).  Cho đến nay (2015) VITESTA vẫn là phần mềm phân tích theo IRT duy nhất ở nước ta.

Phần mềm VITESTA có giao diện thân thiện, rất dễ sử dụng. Có thể sử dụng VITESTA riêng biệt để phân tích câu hỏi và đề thi, cũng có thể ghép nó vào một phần mềm tổng hợp để quản lý việc xây dựng ngân hàng câu hỏi và quản lý các kỳ thi trên giấy hoặc trên mạng (phần mềm TESTPROPlus chủa EDTECH-VN).

Để minh họa, dưới đây giới thiệu một vài kết quả phân tích một đề thi Tiếng Anh của của Trung tâm Anh ngữ Đại học Quốc gia tp. Hồ Chí Minh gồm 72 câu hỏi triển khai trên 488  thí sinh cao học vào tháng 9 năm 2015 vừa qua nhờ phần mềm VITESTA (chạy khoảng 0,2 giây trên một PC cỡ trung bình).

Bảng 1. Ví dụ về tham số của một CH trong đề thi

 

Hình 1. Ví dụ về hàm thông tin và sai số tiêu chuẩn của đề thi

Hình 2. Ví dụ về biểu đồ phân bố
năng lực TS – Độ khó CH của đề thi

Kết quả phân tích cung cấp cho mỗi câu hỏi một bảng các tham số câu hỏi như ở Bảng 1 – rất thuận lợi đểđánh giá chất lượng câu hỏi; và các Hàm thông tin và sai số tiêu chuẩn của đề thi ở Hình 2, biểu đồ phân bố “Năng lực thí sinh – Độ khó câu hỏi” ở Hình 3 – cho phép nhận định tổng quát về đề thi./.

[1] Lâm Quang Thiệp, Lâm Ngọc Minh, Lê Mạnh Tấn, Vũ Đình Bổng. “Phần mềm VITESTA và việc phân tích số liệu trắc nghiệm”. “Tạp chí Giáo dục”, số 176, tháng 11/2007.