AIが変えるのは評価の結論ではなく、評価者が判断材料を集めるコストと、評価の一貫性を担保する仕組みだ。

AI時代の人事考課設計 — 年次評価をAIで補強する5つの実践

思考版1 AI執筆

人事考課の季節になるたびに、評価者から同じ声が届く。「評価フォームを書く時間がない」「半年前の出来事を思い出せない」「結局、最近の印象で決まってしまう」。

AIはこの問題のいくつかを解決できる。しかし「評価そのものをAIに任せる」という方向ではない。


AIが変えるのは「評価結論」ではなく「評価準備」

まず整理しておきたい前提がある。

現時点でAIが変えているのは、評価者が判断材料を集めるプロセスだ。評価の結論——誰を昇進させるか、誰の給与を上げるか——をAIが出す時代は当分来ない。これは技術的な制約というより、倫理・法的・組織的な理由による。

一方で評価準備プロセスは、今すぐ変えられる。


5つの実践

1. 評価期間中の活動データを自動収集する

評価者が半年分を思い出して書く、という作業をなくす。

タスク管理ツール(Notion・Jira・Asana等)には、評価期間中の完了タスク・プロジェクト貢献・コメント量などのデータが残っている。これをエクスポートしてLLMに渡し「この人物の3ヶ月間の活動を評価フォームの観点(貢献度・成長・課題)で整理してください」とプロンプトを渡すだけで、評価者の準備コストは大幅に下がる。

注意点: このサマリーはあくまで「下書き材料」であり、評価者が確認・修正する前提で使う。LLMは文脈のないデータを過大/過小評価することがある。


2. 1on1メモから評価コメントの下書きを生成する

毎週の1on1でメモを取っているなら、そのテキストは評価の一次資料になる。

評価期間分の1on1メモをまとめてLLMに渡し、「この1年間の1on1記録から、以下の評価軸(①成果、②成長、③チームへの貢献)でコメントを書いてください」と渡す。評価者は白紙から書くのでなく、生成されたコメントを修正するだけでよい。

実際の効果: 評価コメント記入の時間が50〜70%短縮されるケースが多い(記入量・職種による)。


3. 評価者のバイアスを数値で可視化する

「評価者Aは全体的に甘く、評価者Bは厳しい」という問題は多くの組織に存在するが、可視化されていないことが多い。

評価データが蓄積されると、評価者ごとの平均評価点を全体平均と比較できる。同じ職位層で評価者Aの平均が4.3点、評価者Bが3.2点なら、1点以上の差は個人差か評価傾向の差かを検討する材料になる。

LLMはここで「分析テキストの生成」に使える。評価データ全体をCSVで渡し「評価者ごとの傾向分析と、全体のキャリブレーションのための示唆を出してください」というプロンプトで、HR担当者向けのキャリブレーション会議の準備資料を生成できる。


4. 目標設定時にAIで品質チェックをする

評価が難しい理由のひとつは、期初の目標が曖昧だったことだ。「〇〇を頑張る」という目標を、期末に評価しようとすると評価者も被評価者も困る。

目標設定時にLLMにドラフトを渡し「このMBO目標はSMARTか(Specific, Measurable, Achievable, Relevant, Time-bound)確認し、改善案を出してください」と問うだけで、目標の品質が上がる。

期末評価が楽になる最大の投資は、期初の目標設定の質を上げることだ。


5. 評価フィードバックの言語化を支援する

評価結果を本人に伝えるフィードバック面談の準備も、AIが支援できる。

評価コメントと面談の目的(成長促進か課題指摘か昇進通知か)を渡し「この評価コメントを元に、20分の1on1フィードバック面談の構成案を作成してください」と依頼すると、面談の流れと想定されるリアクションへの対処案が出てくる。

特にネガティブフィードバックを伝える場面では、言語化の練習になる。


変わらないもの

AIが変えないのは、評価の本質的な部分だ。

  • 誰を昇進させるかの判断 — 組織の文化と戦略に基づく意思決定
  • 評価者と被評価者の信頼関係 — データではなく対話から生まれる
  • 給与・処遇の決定 — 経営判断と公平性の問題

「AIに評価してもらう」は、責任の所在を曖昧にする。評価者がAIのアウトプットを「確認して承認するだけ」になると、被評価者からの信頼が下がる。

AIはあくまで評価者が判断しやすいよう情報を整理するツールだ。判断の責任は評価者が持つ。


始め方

最小の始め方: 次の評価サイクルで、1人分の1on1メモをClaude/ChatGPTに渡して評価コメントの下書きを生成してみる。30分もあればできる。

続けるかどうかは、その30分で生成されたコメントの質と、自分で書いたコメントとどちらが被評価者に響くかで判断すればいい。


関連記事