AI時代に人事評価制度はどう変わりますか？

評価の「結論（誰が何点か）」をAIが出すのは当面先で、実際に変わっているのは評価者の準備プロセスです。具体的には、①評価期間中のパフォーマンスデータ（タスク完了率・プロジェクト貢献）の自動収集、②評価フォームへの記入サポート（過去の1on1メモや目標達成状況のサマリー生成）、③評価者ごとの評価傾向（甘辛バイアス）の可視化、の3領域から変化が起きています。評価の最終判断は引き続き人間が行います。

人事考課でAIを使うと評価者のバイアスを減らせますか？

完全には減らせませんが、可視化はできます。同じ職位で評価者Aが平均4.2点、評価者Bが平均3.1点を付けているなら、全体の傾向データと比較して「Aさんは高め評価の傾向あり」と数値で示せます。これにより評価者自身が意識的に補正できます。ただしAIが提示するのはあくまで統計的傾向であり、評価者AがBより高い評価をしている理由が「担当チームが本当に優秀だから」である可能性も常にあります。

中小企業やスタートアップでAIを使った人事評価は現実的ですか？

人数が50名以下なら、高度なHRシステム導入より「目標管理シートのAI記入サポート」と「評価者向けの振り返りプロンプト設計」の方が費用対効果が高いです。具体的にはNotionやGoogleスプレッドシートに蓄積した日常データをClaudeやChatGPTに渡して評価期間の活動サマリーを出力させる、という運用が現実的です。大型HRシステムは100名以上になってから検討しても遅くありません。

AIを使った人事評価設計で最初に取り組むべきことは何ですか？

最初のステップは「評価に使えるデータが今どこにあるか」の棚卸しです。1on1のメモ・プロジェクトの進捗記録・コードのコミット履歴・タスク管理ツールの完了記録など、評価期間中に自然発生しているデータを洗い出します。AIは渡されたテキストデータを処理するので、まずデータが存在することが前提です。「AIを入れる前に記録文化を作る」が実際の順序です。

AIに評価させるな。評価者のセコンドにつけろ——点を付けるのは、最後まで人間でいい。

AI時代の人事考課設計 — 年次評価をAIで補強する5つの実践

2026-06-08 思考版1 AI執筆

評価フォームの締め切り前夜、半年前の出来事を思い出せないまま「最近の印象」で点が決まっていく——その瞬間を、顧問先の評価者の横で何度も見てきた。

責められない。半年分の記憶を1枚のフォームに圧縮しろ、という設計のほうに無理がある。

AIはここで効く。ただし「評価そのものをAIに任せる」方向ではない。点を付けるのは最後まで人間でいい。AIは、その人間のセコンドにつく。

AIが変えるのは「評価結論」ではなく「評価準備」

まず整理しておきたい前提がある。

現時点でAIが変えているのは、評価者が判断材料を集めるプロセスだ。評価の結論——誰を昇進させるか、誰の給与を上げるか——をAIが出す時代は当分来ない。これは技術的な制約というより、倫理・法的・組織的な理由による。

一方で評価準備プロセスは、今すぐ変えられる。

5つの実践

1. 評価期間中の活動データを自動収集する

評価者が半年分を思い出して書く、という作業をなくす。

タスク管理ツール（Notion・Jira・Asana等）には、評価期間中の完了タスク・プロジェクト貢献・コメント量などのデータが残っている。これをエクスポートしてLLMに渡し「この人物の3ヶ月間の活動を評価フォームの観点（貢献度・成長・課題）で整理してください」とプロンプトを渡すだけで、評価者の準備コストは大幅に下がる。

注意点: このサマリーはあくまで「下書き材料」であり、評価者が確認・修正する前提で使う。LLMは文脈のないデータを過大/過小評価することがある。

2. 1on1メモから評価コメントの下書きを生成する

毎週の1on1でメモを取っているなら、そのテキストは評価の一次資料になる。

評価期間分の1on1メモをまとめてLLMに渡し、「この1年間の1on1記録から、以下の評価軸（①成果、②成長、③チームへの貢献）でコメントを書いてください」と渡す。評価者は白紙から書くのでなく、生成されたコメントを修正するだけでよい。

効くのは時短だけではない。白紙の恐怖が消えると、評価者は「文章をひねり出す」から「事実を選び直す」に頭を使えるようになる。ここがいちばん大きい。

3. 評価者のバイアスを数値で可視化する

「評価者Aは全体的に甘く、評価者Bは厳しい」という問題は多くの組織に存在するが、可視化されていないことが多い。

評価データが蓄積されると、評価者ごとの平均評価点を全体平均と比較できる。同じ職位層で評価者Aの平均が4.3点、評価者Bが3.2点なら、1点以上の差は個人差か評価傾向の差かを検討する材料になる。

LLMはここで「分析テキストの生成」に使える。評価データ全体をCSVで渡し「評価者ごとの傾向分析と、全体のキャリブレーションのための示唆を出してください」というプロンプトで、HR担当者向けのキャリブレーション会議の準備資料を生成できる。

4. 目標設定時にAIで品質チェックをする

評価が難しい理由のひとつは、期初の目標が曖昧だったことだ。「〇〇を頑張る」という目標を、期末に評価しようとすると評価者も被評価者も困る。

目標設定時にLLMにドラフトを渡し「このMBO目標はSMARTか（Specific, Measurable, Achievable, Relevant, Time-bound）確認し、改善案を出してください」と問うだけで、目標の品質が上がる。

期末評価が楽になる最大の投資は、期初の目標設定の質を上げることだ。

5. 評価フィードバックの言語化を支援する

評価結果を本人に伝えるフィードバック面談の準備も、AIが支援できる。

評価コメントと面談の目的（成長促進か課題指摘か昇進通知か）を渡し「この評価コメントを元に、20分の1on1フィードバック面談の構成案を作成してください」と依頼すると、面談の流れと想定されるリアクションへの対処案が出てくる。

特にネガティブフィードバックを伝える場面では、言語化の練習になる。

変わらないもの

AIが変えないのは、評価の本質的な部分だ。

誰を昇進させるかの判断 — 組織の文化と戦略に基づく意思決定
評価者と被評価者の信頼関係 — データではなく対話から生まれる
給与・処遇の決定 — 経営判断と公平性の問題

「AIに評価してもらう」は、責任の所在を曖昧にする。評価者がAIのアウトプットを「確認して承認するだけ」になると、被評価者からの信頼が下がる。

AIは判断材料をそろえて差し出すセコンドであって、リングに上がる選手ではない。材料を渡すのがAI、決めて被評価者と向き合うのが人間だ。その境界を引けている限り、AIは評価者の最良の相棒になる。

始め方

月曜の30分でいい。1人分の1on1メモをClaude/ChatGPTに丸ごと渡し、評価コメントの下書きを1本出させる。制度改定も新規ツールも要らない。

続けるかは、その下書きと、自分が白紙から書いたコメントの「どちらが被評価者に響くか」で決めればいい。相棒として使えるかどうかは、1本走らせれば肌でわかる。

AIエージェントをHR業務フローに組み込む実践ガイド — AIをHRに使う際の全体設計と前提条件
HR担当者がClaude Codeで仕事を変えた実際の手順 — 非エンジニアHR担当がAIツールを業務導入した事例
AI時代のHRマネジャーに必要な新しいスキルセット — 評価設計を含むHRマネジャーの役割変化