LPI-Japan 導入事例

作問に特化した生成AIでテスト作成をアジャイルに。試験開発高速化への挑戦

ウェブ技術やクラウド基盤など、ITの進化は数年で常識が入れ替わるほど急速です。資格試験を提供する団体にとって、この変化のスピードに合わせて試験内容をアップデートし続けることは、容易なことではありません。

Linux技術者認定試験である「LinuC(リナック)」などの実用的なIT資格試験を提供する特定非営利活動法人エルピーアイジャパン(LPI-Japan)は、この課題に対し、試験開発プロセスそのものを変革しようという目的で、プロメトリック株式会社の生成AI試験開発ソリューション「Finetune Generate®」の業務適用に向けて評価を進めています。
「Finetune Generate®」は、試験問題の作成・修正・レビューをAIで一元的に支援する作問ソリューションです。主催者専用のカスタムAIにより、品質を保ちながらスピードと効率を高めます。

この記事では、LPI-Japanの試験開発責任者・安良岡直希様へのインタビューをもとに、変化の激しいIT業界で求められる試験開発のアジャイル化や高速化、そしてAIと人間の共創によるこれからの試験開発の在り方について紹介します。

変化の激しいIT業界で求められる、試験開発のアジャイル化

私たちLPI-Japanは、Linux技術者認定試験「LinuC（リナック）」をはじめ、ウェブやデータベース、クラウド技術など、ITエンジニアの実践的なスキルを認定する試験を開発・提供している特定非営利活動法人（NPO）です。私たちの試験の大きな特徴は、特定のベンダーに依存しないベンダーニュートラルな立場であること、そして「手を動かせる技術者」を育てることに重きを置いている点にあります。理論だけでなく、実際に現場でツールを使いこなし、システムを構築できる力があるかを問う試験を作っています。

しかし、この「実践的なITスキル」を問う試験を作る上で、私たちは大きな壁に直面し続けてきました。それは、IT業界における技術変化の凄まじい変化です。

ウェブ技術やクラウド基盤の世界では、基盤技術は普遍的なものが多いのですが、それでも一部の技術においては、およそ5年も経てば常識がガラリと入れ替わる部分も出てきます。より効率的で新しい手法が登場し、かつて標準とされていた技術が使われなくなっていくのです。当団体には、認定についての「有意性の期限」という概念があり、認定を取得した後も、定められた年数以内で再受験・合格を続けて有意性を更新していくことが想定されています。したがって、試験の出題範囲についても、激しい変化に合わせて常にアップデートされていくことが求められます。

これまでの試験開発は、いわゆる「ウォーターフォール型」で進められてきました。ウォーターフォール型とは、企画を立て、出題範囲を設計し、問題を実装し、レビューや検証を経てリリースする方法です。しかし、ウォーターフォール型のような直線的なプロセスでは、どうしても時間がかかってしまいます。

最悪の場合、企画段階で盛り込んだ最新技術が、試験がリリースされる頃にはすでに古くなっているというリスクさえありました。現代のソフトウェア開発の現場では、2週間ごとにアップデートを繰り返し、小さなサイクルで改善を続ける「アジャイル開発」が主流です。私は常々、試験開発もまた、このアジャイル型へと変わらなければならないと痛感していました。

「Finetune Generate®」に大量の「問題のたたき台」を作らせるアジャイル型のアプローチが実現

アジャイル化を実現する上で、私たちが課題だと考えていたのは、「出題範囲（仕様）の策定」と「作問（実装）」の間に横たわる溝です。

通常、試験を作る際は、まず「出題範囲」を箇条書きで定義します。しかし、人間がいきなり完璧な出題範囲を書こうとすると、どうしても抽象度が高くなる傾向にあります。例えば、「ハイブリッドクラウドとマルチクラウドを理解している」といった項目を書いたとしましょう。言葉としては間違いではありませんが、いざ作問者がその項目を見て具体的な問題を作ろうとすると、「具体的に何を問えばいいのか？」「AWSとオンプレミスの接続設定の話なのか、各々の用語の意味を問う話なのか？」と迷ってしまい、手が止まってしまうのです。

インターネット上でよく使われる言い方をすれば、これは「主語が大きい」状態といえます。そのような状態だと、いざ問題を作ろうとした段階になって初めて、「この定義では問題が作れない」という事実に気づくのです。これでは手戻りが発生し、開発スピードは上がりません。

この課題を解決するために、業務適用に向けて検討を開始したのが、生成AIである「Finetune Generate®」でした。私が試みたのは、出題範囲を完璧に決めてから問題を作るのではなく、まだ完成度50%程度の出題範囲やリファレンスであっても、まずはAIに読み込ませてしまい、とりあえず大量の「問題のたたき台」を作らせるというアプローチです。

AIが生成した具体的な問題を見ることで、私たちは初めて自分たちの書いた出題範囲の不備に気づくことができます。「こんなに細かいコマンドを聞く問題ができちゃったけど、これは意図と違うよね」「この問題は、対象範囲の定義をもっと絞る必要があるね」といった具合です。

つまり、生成AIを作問のアシスタントとして使い、具体的なアウトプット（問題）を先出しさせることで、「出題範囲（仕様）」へフィードバックをかけるわけですね。この「企画と実装を行き来するサイクル」を高速で回すことこそが、私たちが目指した試験開発のアジャイル化であり、生成AIツール導入の最大の狙いでした。

「Finetune Generate®」は、作問という業務特有のワークフローが、UIとして完成されている

私が「Finetune Generate®」に出合ったのは、2024年頃です。当時はまだChatGPTが普及して間もない頃でした。
「Finetune Generate®」のデモを見せていただいたときは、「これは使える」という大きな期待を抱きました。「Finetune Generate®」に期待を抱いたのは、そのバランス感覚です。単なる文章生成能力の高さではなく、「試験問題を作成する」という業務特有のワークフローが、UI（ユーザーインターフェース）としてすでに完成されていた点にあります。

もちろん、生成AIを使って問題のテキストを出力するだけであれば、ChatGPTなどの汎用的なツールでも可能ですし、私たちもITエンジニアの集団なので、APIを利用して似たようなシステムを構築することも技術的には可能です。実際、私たちは「Finetune Generate®」に出合う以前にも、シンプルなチャットUIのツールや、プログラマーが使うコードエディター「Visual Studio Code」の中で動作する「GitHub Copilot」などを、出題範囲や例題の検討中に部分的に活用していました。
しかし、一般のSaaSのようなものと比べれば試験開発を行う専門家の数はごく少数なので、専用のUIや独自のAIエージェントを作りこむことは費用対効果の面で手が出せないというもどかしさがありました。

また、試験開発において重要なのは、単に問題文を作ることだけではありません。その正解が本当に正しいか、不正解の選択肢が確実に機能しているか、そして何よりその根拠（リファレンス）がどこにあるかを検証するプロセスが不可欠です。「Finetune Generate®」のデモでは、生成された選択肢の根拠となる情報がリファレンスのどこにあるかがすぐに表示され、それを見て「この選択肢は修正しよう」「この記述は変えよう」といった修正のサイクルをウェブ上でスムーズに行うことができました。

テストのプロが作ったツールだからこそ、作問にフィットした

「Finetune Generate®」のような「作って、根拠を確認して、直す」という一連の流れが、1つのプラットフォーム上で完結しているツールを自前で開発しようとすれば、相応の時間とコストがかかります。それがすでに製品として高い完成度で存在していたことには驚きました。ビジネスのスピード感を考えたとき、これだけの機能があるという事実は、ツール選定において非常に大きなアドバンテージとなります。

何より使っていて感じたのは、このツールが「AIの技術者」ではなく、「試験の専門家」によって作られているという点です。後で聞いた話ですが、開発には「サイコメトリシャン」と呼ばれる、テスト理論や統計的分析のプロフェッショナルが関わっているそうですね。単に「AIで自動化できます」というビジネス視点だけのツールではなく、試験開発の作問・修正・レビューというワークフローの実態を理解した設計だということが、ツールから伝わってきました。

例えば、問題の質を保証するためのレビュー機能などもシステムの中に統合されています。
スプレッドシートファイルでコメントを書いて受け渡すような安直なレビュー手順では煩雑になりがちですが、ツール内でレビュアーも参加して完結できるため、コミュニケーションコストが大幅に下がります。私たちは「試験開発のプロ」ですが、同時にエンジニアでもあるため、ツール選定の目は厳しいほうでしょう。その目から見ても、「Finetune Generate®」は試験開発の現場における「かゆいところに手が届く」設計になっており、これなら私たちの開発プロセスをアジャイルに変えるための強力な武器になると感じました。

汎用AIとの決定的な違いは、ハルシネーションの抑制

生成AIを業務に導入する際、避けて通れないのが、ハルシネーション（事実に基づかない情報の生成）の問題です。私たちも普段からChatGPTやGitHub Copilotといった汎用的な生成AIツールを利用していますが、これらは非常に便利である反面、試験問題の作成という厳密さが求められる業務においては、危うさも孕んでいます。

特にIT系の試験問題においては、この傾向が顕著です。例えば、あるシステムの構築手順を問う問題を作成させようとすると、汎用AIは何もないところから、さも実在するかのようなコマンドやオプション引数を平然と捏造してくることがあります。文脈としては正しそうに見えても、実際には存在しないコマンドが表示されるわけです。それらをそのまま試験問題として出題してしまえば、試験の信頼性は失墜してしまいます。そのため、AIが作ったものには、人間の目による厳重なチェックが不可欠です。

このハルシネーションのリスクをいかにコントロールするかという点において、「Finetune Generate®」のアプローチは非常に理にかなっていると感じました。特に、製品名の由来にもなっている「ファインチューニング」、つまり独自のブループリント（試験の設計図）を事前に読み込ませ、その範囲に基づいて生成を行わせるという機能は試験問題の作成に適しています。インターネット上の膨大な情報を元にするのではなく、私たちが用意した信頼できるリファレンスに基づいて回答を生成させることで、嘘が出力される確率を大幅に抑制できる感触を得ました。

私たちが扱っているIT試験の世界は法律のような条文をもとにした法律試験などとは事情が異なります。例えば「Linuxの試験」といったとき、その範囲はOSのカーネルからそれを取り巻くエコシステムまで多岐にわたります。「KVMという仮想化技術における仮想マシンの起動方法」が出題範囲だとしても、具体的にどのコマンドのどのオプションを範囲とするのか、その境界線は非常に曖昧で自由度が高いのです。
IT試験の世界は法律のような明確な条文がないため、AIに読み込ませるためのブループリントを作成すること自体に、かなりの労力を要しました。ウェブ上の信頼できる技術関係のドキュメントをかき集め、学習用データとして整形する作業は、まさに試行錯誤の連続でした。

しかし、良いブループリントさえ入れれば、良い問題が生成される特性のおかげで、一定以上の品質を保った問題の「たたき台」を作成することが可能になったのです。
これは、人材リソースが限られている組織において、非常に大きな可能性を示していると思います。

もちろん、どれだけツールが優秀でもハルシネーションがゼロになることはありません。最終的に世に出す問題に対する責任は、私たち人間が負うものです。しかし、確率論としてそのリスクを減らし、コントロール可能な範囲に留められるという点で、「Finetune Generate®」は実務に活用できるツールだと評価しています。

生成AIと人間の共創による、これからの試験開発

生成AIの登場は、私たち試験開発の現場に大きな衝撃を与えました。しかし、冷静に周囲を見渡せば、生成AIという技術自体はすでにコモディティ化しつつあります。「このようなコードを書いて」と頼めば生成AIが生成してくれる時代です。かつて検索エンジンが登場したときに「これから人間は、検索すればわかることをわざわざ覚える必要があるのか？」という議論が起きたように、今は「生成AIが答えを出せるのに、人間がそれを学ぶ必要があるのか？」という問いが投げかけられています。

これに対する私の答えは明確です。私たちは人間であり、社会の中で隣の人間と競い合い、差別化していかなければなりません。生成AIが誰にでも使える道具になった以上、生成AIを使えること自体はもはや差別化の要因ではないわけです。これからは生成AIが出した答えが本当に正しいのか、新しい価値があるのかを判断できる力が求められてきます。
問題のたたき台を大量に作ったり、バリエーションを増やしたりといった作業の部分は、「Finetune Generate®」のような生成AIツールが担い、人間はより高度な「判断」や「全体設計」に注力すべきです。「Finetune Generate®」は、私たちが自身の専門の仕事に集中するための環境を整えてくれるツールだと捉えています。

また、忘れてはならないのが責任の所在です。生成AIはときにハルシネーションを起こしますし、著作権や知的財産権侵害のリスクもゼロではありません。最終的に世に出す試験問題の責任を負うのは、私たち人間です。自分の名義で出すアウトプットに対して、最後まで責任を持つという覚悟は、生成AI時代だからこそより強く求められる資質だと感じています。

今後の展望として、私たちはプロメトリック社に対して、単なるツールの提供にとどまらない役割を期待しています。それは、試験開発プロセスの標準化と並走です。

試験開発という業務は非常にマニアックで、属人化しやすい領域であり、製造業のようにプロセスが標準化されていません。プロメトリック社には、各機関でバラバラだった試験開発のプロセスを整理し、標準化されたプラットフォームを提供してくれることを期待しています。多くの試験開発者がプロメトリックのプラットフォームを使えば、出題範囲の策定から作問、レビュー、配信までが一気通貫で効率的に回せる。そうなれば、私たち専門家は、ツールの使い勝手や管理業務に煩わされることなく、良質な問題の作成だけに集中できるでしょう。
そして私たちは生成AIを使って自分たちの思考を具体化し、高速で改善を繰り返していく。そんな「アジャイルな試験開発」への挑戦は、まだ始まったばかりです。

今回の取材にご協力いただいたお客様

特定非営利活動法人エルピーアイジャパン
ITエキスパート試験開発責任者　安良岡直希様
https://lpi.or.jp/
取材日：2025年11月12日

AI試験問題作成支援 Finetune Generateについてはこちら