ChatGPTで「GPT-4」を検証!TOEIC公式問題集1~9のPart5の正答率98.7%
GPT-4の驚くべき試験結果:米国司法試験で上位10%の実力
OpenAIが先日リリースした最新のGPT-4が、さまざまな試験で驚くべき成績を収めています。
まず、アメリカの司法試験にあたるUniform Bar Exam(UBE)では、GPT-4が298/400を獲得し、90パーセンタイル(上位10%)にランクインしました。この結果から、GPT-4が法律分野においても高い性能を発揮していることがわかります。
次に、LSAT(法学部入試)において、GPT-4は163のスコアで88パーセンタイル(上位12%)でした。このことからGPT-4が法律分野で優れた成績を収めていることが確認できます。
さらに、SAT試験(米国の大学受験のための統一試験)では、英語の部分でGPT-4が710/800を獲得し、93パーセンタイル(上位7%)にランクインしました。
GRE(大学院入試)においても、GPT-4が高い成績を示しました。数学では163/170で80パーセンタイル(上位20%)、英語では169/170で99パーセンタイル(上位1%)にランクイン。
これらの結果から、OpenAIのGPT-4は法律、言語、数学などの分野で非常に高い性能を発揮していることが明らかになりました。現時点でGPT-4は、AI技術が教育や専門分野においても人間と競い合うレベルに達しているということを示しています。
今回はこのような高い性能を持つGPT-4をTOEICの公式問題集の文法・語彙問題のPart5で検証しました。
TOEIC公式問題集1~9のPart5の検証方法とその結果
事前準備
- ChatGPTの有料バージョンPro(月$20)に登録
- ModelとしてGPT-4を選択(※現時点で4時間に100回までの制限)
- GPT-4は画像入力に対応のようですが、ChatGPTではまだのようですのでPart5問題のテキスト化に着手
- TOEIC公式問題集の1から9までのPart5をスキャン・OCRでテキストデータ化(9冊×2テスト×30問=540問)
検証方法
- 各テストに含まれるPart5の1セット30問をChatGPTのチャット窓に入力して結果を確認
- 解答時間をストップウォッチで計測
- 結果を答えと照合
結果
公式問題集 | TEST番号 | 正解数 | 誤答番号 | 解答時間(秒) |
1 | 1 | 30 | 40 | |
1 | 2 | 29 | 114 | 39 |
2 | 1 | 30 | 39 | |
2 | 2 | 30 | 38 | |
3 | 1 | 29 | 127 | 41 |
3 | 2 | 28 | 123, 125 | 41 |
4 | 1 | 30 | 42 | |
4 | 2 | 30 | 42 | |
5 | 1 | 30 | 39 | |
5 | 2 | 30 | 45 | |
6 | 1 | 29 | 117 | 41 |
6 | 2 | 30 | 43 | |
7 | 1 | 30 | 39 | |
7 | 2 | 30 | 42 | |
8 | 1 | 29 | 121 | 39 |
8 | 2 | 30 | 41 | |
9 | 1 | 29 | 110 | 40 |
9 | 2 | 30 | 37 |
正解数 | 533 |
総問題数 | 540 |
正答率 | 98.7% |
平均解答時間 | 40.4 |
まとめ
GPT-4を使用してTOEIC公式問題集の問題を解いた結果を考察すると、非常に高い正答率(98.7%)が達成されており、AIモデルの優れた能力が示されています。
9冊の公式問題集を通して、総問題数540問中533問が正解しています。これは、GPT-4が広範囲の英語知識と高度な自然言語処理能力を持っていることを示しています。
さらに、平均解答時間が40.4秒という結果は、人間よりも圧倒的に速いことを示しています。TOEICの高得点者であっても、30問を解くのに最低でも5分はかかるでしょう。これにより、GPT-4が効率的に問題を解決できることが確認できます。
解答スピードは、特に時間制限のある試験状況において重要な要素となります。ただし、いくつかの誤答があることから、GPT-4も完璧ではなく、特定の問題や文脈に対する理解が不十分な場合があることが分かります。
総じて、GPT-4がTOEIC公式問題集のPart5の問題を高い正答率で解決できることは、このAIモデルが英語教育や英語試験対策に役立つ可能性を示唆しています。今後いろいろ試行錯誤をしながらGPT-4を教育現場に応用していこうと思います。