先行研究を踏まえた研究位置づけの再点検

作成日: 2026-05-11

位置づけ: 変化の速い AI を研究対象として扱うための観察軸を探るという研究方針について、近接する先行研究を踏まえて、どこが重なり、どこが甘く、どのように見直せそうかを整理するメモ。

1. まず結論

現時点の研究案は、まったく未踏の問いというより、すでに HCI / Human-AI Interaction / GenAI evaluation / CSCW / デザイン実践研究の中で立ち上がっている問題群の交差点にあるように見える。

特に、Park et al. の Evaluating Generative AI in the Lab と Shi et al. の An HCI-Centric Survey and Taxonomy of Human-Generative-AI Interactions はかなり近い。前者は、生成 AI の非決定性によって従来の HCI 評価方法が揺らぐことを正面から扱っている。後者は、人間と生成 AI の相互作用を、利用目的、フィードバック、コントロール、関与レベル、応用領域、評価戦略などの軸で整理している。

したがって、「変化の速い AI を研究として扱うための観察軸を探る」というだけでは、既存研究との距離が近すぎる可能性がある。これは研究がだめという意味ではなく、現時点の言い方が広すぎて、すでに先行研究がかなり取り組んでいる領域をそのまま看板にしてしまっているということだと思われる。

一方で、現在の研究案にはまだ活かせそうな核がある。それは、生成 AI の評価方法そのものや、Human-GenAI Interaction 全体の分類をつくることではなく、AI が入り込んだ具体的な制作・開発・研究・設計実践の中で、判断、違和感、評価、修復、媒介物更新が露出する出来事を観察単位として扱う点にある。

つまり、研究の焦点は次のように少し締め直した方がよさそうである。

生成 AI の非決定性や急速な変化によって、HCI / HAI 研究では評価方法や分類枠組みの再検討が進んでいる。本研究はその流れを踏まえつつ、制作・開発・研究・設計の AI 介在型実践において、判断・評価・修復・媒介物更新が露出するインシデントを記録し、既存の Human-GenAI Interaction の分類や評価枠組みでは捉えにくい実践上の観察単位を探索する。

この方向にすると、先行研究との関係は「違うから独自」ではなく、「近い研究群を土台にし、その経験的な観察単位を具体化する」と言いやすくなる。

2. 先行研究はすでに何をやっているのか

2.1 生成 AI を研究・評価する方法自体を問い直す研究

Park et al. は、生成 AI が同じ入力に対しても異なる出力を返す非決定的なシステムであるため、従来の HCI ラボ評価が前提としてきた制御、一貫性、比較可能性が揺らぐと論じている。4つの GenAI ユーザースタディを反省的に分析し、参加者のオンボーディング、プロトタイプの忠実度、信頼やフィードバック、ユーザビリティ評価、インターフェース問題とモデル挙動の切り分けなどを方法論的課題として整理している。

この研究は、自分の研究にかなり近い。特に「生成 AI は固定された道具として評価しにくい」「研究方法側の前提を見直す必要がある」という問題意識は重なる。ただし、Park et al. の主眼は、ラボベースの HCI 評価をどう設計し、解釈するかにある。そこでは、研究対象は GenAI を組み込んだプロトタイプのユーザースタディであり、成果はラボ評価のための方法論的ガイドラインである。

Dow et al. の Dimensions of Generative AI Evaluation Design も、生成 AI 評価を設計する際の次元を整理している。評価環境、タスクタイプ、入力源、相互作用スタイル、期間、指標タイプ、採点方法などを明示し、評価設計の選択肢を比較可能にすることを目指している。これは、研究方法や評価設計のメタレベルの整理として重要である。

Morris の HCI for AGI はさらに大きな視点から、AI が高度化する時代に HCI が相互作用技法、インターフェース、デザイン方法、評価方法、ベンチマーク、データ収集技法を更新する必要があると論じている。ここでは、AI システムとの間に、実行のガルフ、評価のガルフだけでなく、プロセスのガルフが生じるという視点も出てくる。

これらを見ると、「生成 AI は変化が速く、非決定的で、従来の評価方法では扱いにくい」という主張自体は、すでにかなり先行研究側で言われている。したがって、本研究ではこの主張を独自性の中心に置くよりも、背景・問題設定として受け取り、そのうえでどの経験的対象をどう観察するのかを明確にした方がよさそうである。

2.2 Human-GenAI Interaction を分類する研究

Shi et al. は、291本の論文をレビューし、人間と生成 AI の相互作用を HCI 観点から分類している。分類軸には、生成 AI を使う目的、モデルから人間へのフィードバック、人間からモデルへのコントロール、関与レベル、応用領域、評価戦略などが含まれる。これは、まさに「Human-GenAI Interaction をどういう軸で見るか」に取り組んだ研究である。

この研究は、自分の研究にとって非常に重要な先行研究になる。なぜなら、自分が「観察軸」と呼んでいたものの一部は、すでにこのような taxonomy として整理されているからである。したがって、自分の研究で「観察軸を探る」と言うなら、Shi et al. の taxonomy を知らないままゼロから軸を出すのではなく、少なくとも既存の分類が何を捉えているのかを踏まえる必要がある。

Shelby et al. の Taxonomy of User Needs and Actions も近い。これは、人間-AI会話ログを質的に分析し、ユーザーが AI に何を求め、どのような行為をしているのかを分類する研究である。情報探索、合成、手続き的ガイダンス、コンテンツ作成、社会的相互作用、メタ会話などが整理されている。これは「AI利用の中でユーザーが実際に何をしているのか」という観察語彙を提供してくれる。

Doshi and Moore の Human-AI Task Tensor は、生成 AI 時代の仕事を、タスク定義、AI 統合、相互作用モダリティ、監査要求、出力定義、意思決定権限、AI 構造、人間のペルソナという8次元で整理している。自分の研究が扱っている「何を AI に任せるのか」「どこで人間が介入するのか」「出力をどう評価するのか」は、この枠組みの中でもかなり扱われている。

Terry et al. の Interactive AI Alignment は、AI との相互作用を、Specification Alignment、Process Alignment、Evaluation Alignment に分けている。これは、自分の研究でいう目的・制約の外部化、AI の実行過程、人間による評価・検証に対応しやすい。かなり使える理論的補助線である。

ここから見えるのは、自分の研究が「観察軸そのものを初めて出す」研究だと主張すると危ういということである。すでに分類軸や評価軸は複数提示されている。むしろ、自分の研究では、既存の分類軸を使いながら、実践中の具体的な出来事を分析したときに、どの軸が有効で、どこに不足が出るのかを見る方が自然かもしれない。

2.3 AI が入り込んだ実践・仕事・デザインプロセスを見る研究

Johri et al. は、プロダクト開発、ソフトウェアエンジニアリング、デジタルコンテンツ作成における生成 AI 利用をフィールドスタディとして調べている。ここでは、職務や専門知識に応じて、生成 AI の使われ方や必要なリテラシーが異なることが示されている。

Takaffoli, Li, and Mäkelä は、UX practitioner 24名へのインタビューから、UXデザイン・リサーチの現場で生成 AI がどう使われているかを調べている。会社レベルのポリシーが不足していること、チーム単位の実践がまだ弱いこと、個人が文章系タスクを中心に使っていること、プロンプト生成や出力評価の訓練が求められていることが示されている。

User Experience Design Professionals’ Perceptions of Generative Artificial Intelligence は、20名のUXデザイナーへのインタビューから、経験豊富なデザイナーは生成 AI を支援的な道具として捉えつつ、人間側の originality, creativity, empathy, enjoyment, agency を重視していることを示している。一方で、若手デザイナーにはスキル低下や創造性の疲弊、置換不安があることも指摘している。

Lee の Towards a Working Definition of Designing Generative User Interfaces は、Generative UI という新しい実践を、文献レビュー、専門家インタビュー、ケース分析から定義しようとしている。計算的共創、デザイン空間探索、表現の流動性、文脈適応、選択から統合への移行といった要素を出しており、新しい実践に対して概念的な語彙をつくる研究として参考になる。

Takala の修士論文は、生成 AI を単なる技術導入ではなく、組織における社会技術的構成として捉えている。生成 AI の価値創出には、知識、ワークフロー統合、反復的フィードバック、組織能力の再構成が必要だと論じている。

Clarke and Joffe の creative workers 研究は、生成 AI を単なる置換か拡張かで見るのではなく、創造的労働者が AI との分業を実践の中で再構成していると見る。ここでは、prompting を situated, reflexive delegation と捉え、AI の役割境界を継続的に構成・修復し、ステークホルダーに対して出力を説明可能・信頼可能にする作業が扱われている。この研究は、自分の研究の「委譲」「修復」「責任」「媒介物」の議論にかなり近い。

これらの研究を見ると、AI が入り込んだ仕事やデザイン実践を質的に調べる研究もすでに出ている。したがって、自分の研究で「制作・開発・研究・設計の実践を見る」だけでは広すぎる。どの実践を見るのか、何をインシデントとして拾うのか、何を成果物にするのかをより絞る必要がある。

2.4 修復・翻訳・文脈を扱う研究

Watkins et al. は、人間-AI協働を考えるために、人間同士の相互作用にある Indeterminacy、Contextual Integrity、Contextual Controls、Trust/Mistrust/Vulnerability、Translation を持ち込んでいる。この中の Translation は、自分の研究でいう「人間の目的・制約・暗黙知を AI が扱える形に翻訳すること」とかなり近い。Contextual Controls は、文脈が変わるときにそれを明示し、操作可能にする必要があるという点で、媒介物やワークフロー設計と接続しやすい。

会話システムの breakdown / repair 研究も、AI とのやりとりが失敗したときに、人間やシステムがどのように修復するかを扱っている。これは、CIT で「違和感」「修復」を拾う発想に近い。ただし、従来の repair 研究は会話の理解失敗や応答失敗に寄ることが多く、制作・開発実践における評価基準や組織的知識の外部化までは十分に扱っていない可能性がある。

CIT そのものは、すでに UX や医療・教育領域で使われている。したがって、「CIT を使う」こと自体は独自性ではない。重要なのは、AI 介在型実践において何を critical とみなすのかを明確にすることである。現時点では、判断・評価・違和感・修復が露出した場面を critical incident とする方針だが、それが「成果に影響した出来事」なのか、「暗黙知が露出した出来事」なのか、「媒介物更新を引き起こした出来事」なのかをもう少し定義する必要がある。

3. 先行研究を踏まえると、現在の研究案の甘いところ

3.1 「観察軸を探る」が広すぎる

最も大きい甘さは、「変化の速い AI を研究として扱うための観察軸を探る」という表現が、先行研究と比べるとまだ広すぎることである。

Park et al. は、生成 AI 評価の方法論的課題を整理している。Shi et al. は、Human-GenAI Interaction の taxonomy を整理している。Dow et al. は、生成 AI 評価設計の次元を整理している。Terry et al. は、AI との相互作用を specification / process / evaluation alignment として整理している。

つまり、「観察軸」「評価軸」「分類軸」のようなものは、すでにいくつも提案されている。そのため、自分の研究が「観察軸を探る」とだけ言うと、何を新しく探るのかが見えにくい。

見直すなら、「既存の分類・評価枠組みを踏まえたうえで、AI 介在型実践の中のどの出来事を観察単位として扱うと、判断・評価・修復・媒介物更新が見えるのかを探索する」と言う方がよさそうである。

3.2 「変化の速さ」と「非決定性」が混ざっている

現在の研究案では、「AI は変化が速い」という問題意識が強い。一方、Park et al. が扱っているのは主に、生成 AI の非決定性と評価方法上の揺らぎである。もちろん両者は関係しているが、同じではない。

変化の速さは、モデル、UI、ツール、ワークフロー、アプリ形態が短期間で変わるという時間的な問題である。非決定性は、同じ時点の同じシステムでも出力が揺れるという相互作用上の問題である。

この2つを区別しないと、研究の問いがぼやける可能性がある。自分の研究では、次のように分けて扱うとよさそうである。

変化の速さ: 特定ツールや機能だけを対象にすると研究の射程が短くなるという背景
非決定性: AI 出力の評価、修復、再生成、信頼判断が必要になるというインシデント発生の条件
実践への組み込み: AI の出力を人間や組織がどう受け取り、媒介物やワークフローをどう更新するかという経験的対象

3.3 既存 taxonomy を使わずに独自軸を出そうとすると弱い

Shi et al. や Shelby et al. のような taxonomy がある以上、研究の最初から完全に帰納的に観察軸を出すという立て方は弱くなるかもしれない。

むしろ、既存 taxonomy を初期の感度概念として使い、その上で、実際のインシデントを分析すると何が足りないかを見る方がよい。たとえば、Shi et al. の分類は Human-GenAI Interaction の全体像を整理するには有用だが、次のような点は追加で見たくなる。

出力に違和感を持ったとき、どの評価基準が露出したのか
修復のために、どの情報や制約が後から外部化されたのか
修復が一回のプロンプト変更で終わったのか、README、skill、デザインシステム、テンプレートなどの媒介物更新につながったのか
判断が個人の頭の中で終わったのか、チームや組織のレビュー・承認・責任配置に接続したのか
そのインシデントが、次回以降の AI 利用の仕方や媒介物をどう変えたのか

こうした点を、既存 taxonomy の空白や拡張点として扱えると、無理のない独自性になりそうである。

3.4 対象領域が広すぎる可能性がある

文章整理、スライド生成、UI・デザイン生成、コード実装支援をすべて扱うと、研究対象がかなり広くなる。先行研究を見ると、UX practitioner 研究、creative worker 研究、workplace GenAI 研究などは、ある程度対象領域を絞っている。

複数領域を扱うこと自体は不可能ではない。ただし、その場合は「比較したいから広げる」のではなく、「観察軸が複数実践にまたがって現れるかを探索するための理論的サンプリング」として説明する必要がある。

修士研究としては、次のどちらかに寄せた方がよさそうである。

領域を絞る: たとえば「UI・デザイン生成とコード支援」または「研究・スライド生成」に絞り、濃いインシデントを集める
領域を広げるが件数を少数にする: 複数実践から少数のインシデントを集め、「枠組みの探索」を主目的にする

現時点では、後者でも成立しうるが、論文としての説得力を出すには「なぜこの複数領域なのか」を説明する必要がある。

3.5 CIT の使い方がまだ弱い

CIT を使うなら、何を critical incident と呼ぶのかをかなり丁寧に定義する必要がある。

現時点では、判断・評価・違和感・修復が露出した出来事を拾うという方針はよい。ただし、CIT の原典や UX での応用を見ると、critical incident は、単に印象に残った出来事ではなく、ある目標や結果に対して重要な影響を与えた具体的な出来事として扱われる。

そのため、本研究ではたとえば次のように定義するとよさそうである。

本研究でいうクリティカル・インシデントとは、AI を用いた制作・開発・研究・設計実践において、AI の出力や進行が実践者の目的・制約・評価基準とずれた、またはそれらを再確認させた具体的な出来事であり、その結果として、人間による判断、修正、採用・不採用、追加の外部化、媒介物更新、ワークフロー変更のいずれかが生じた場面を指す。

この定義なら、「単なる失敗談」でも「単なるプロンプトの工夫」でもなく、判断基準や媒介物が露出した出来事として扱える。

3.6 「不変的な構造」を言いすぎると危ない

先行研究を見ると、AI との相互作用や評価枠組みは現在まさに変化中である。したがって、「人間側の不変的構造を見つける」と強く言いすぎると、未来にもそのまま通用する構造を発見する研究に見えてしまう危険がある。

より安全なのは、「不変的」と言い切るのではなく、「特定ツールや短期的な UI 変化よりも深い層で、繰り返し観察される可能性のある実践上の論点」や「現時点の AI 介在型実践を読むための暫定的な観察軸」と言うことだと思われる。

ただし、これは研究を弱くするわけではない。むしろ、先行研究の多くも、生成 AI の評価や分類を固定的な完成物としてではなく、変化中の対象を扱うための暫定的な整理として提示している。自分の研究もそのトーンに合わせる方がよい。

4. では、この研究はどう位置づけ直せそうか

4.1 研究の大きな位置づけ

大きくは、次のように置くのが自然に見える。

生成 AI の非決定性・急速な変化・実践への浸透を背景に、HCI / HAI では評価方法、分類枠組み、設計原則の再検討が進んでいる。本研究はそれらの先行研究を踏まえ、AI が制作・開発・研究・設計の実践に入り込む場面で、判断・評価・修復・媒介物更新がどのような出来事として現れるのかを、クリティカル・インシデントに基づいて記述する。これにより、既存の Human-GenAI Interaction の分類や評価枠組みを、実践中の観察単位から補助・具体化することを目指す。

この言い方だと、「Park et al. と違う」「Shi et al. と違う」と無理に言わなくてよい。むしろ、それらを土台として使い、その上に実践ベースのインシデント分析を重ねる研究になる。

4.2 研究目的の修正版

現在の目的文は、「変化の速い AI 介在型実践を研究として扱うための観察枠組みを探る」となっている。これは方向としてはよいが、やや広い。

修正版としては、たとえば次のようにできる。

本研究の目的は、生成 AI や AI エージェントが制作・開発・研究・設計の実践に組み込まれる場面において、実践者の判断・評価・違和感・修復・媒介物更新が露出する出来事をクリティカル・インシデントとして記録し、既存の Human-GenAI Interaction の分類・評価枠組みと照らし合わせながら、AI 介在型実践を観察するための実践ベースの分析観点を整理することである。

この目的文では、「観察軸をゼロからつくる」よりも、「既存枠組みと照らし合わせながら、実践中の出来事から分析観点を整理する」という形になる。先行研究との接続がかなり自然になる。

4.3 リサーチクエスチョン案

現時点では、次のような RQ が考えられる。

RQ1:

AI 介在型の制作・開発・研究・設計実践において、実践者の判断・評価・違和感・修復が露出するクリティカル・インシデントには、どのようなパターンが見られるか。

RQ2:

それらのインシデントでは、目的、制約、評価基準、暗黙知、人間の介入点が、どのような媒介物やワークフローを通じて外部化・再配置されるか。

RQ3:

既存の Human-GenAI Interaction の分類や生成 AI 評価枠組みは、これらの実践上のインシデントをどこまで説明でき、どの点で補助的な観察観点が必要になるか。

RQ3 を入れると、Shi et al. や Park et al. と直接つながる。つまり、先行研究に対して「違う研究です」と逃げるのではなく、「既存枠組みで見えるものと見えにくいものを、実践データから検討します」と言える。

4.4 方法の見直し案

方法は、完全帰納ではなく、既存枠組みを感度概念として使う「ハイブリッド」な質的分析がよさそうである。

第一段階では、先行研究から初期コードを用意する。

Shi et al.: 利用目的、フィードバック、コントロール、関与レベル、応用領域、評価戦略
Terry et al.: specification / process / evaluation alignment
Doshi and Moore: タスク定義、AI 統合、監査要求、意思決定権限、人間ペルソナ
Park et al.: 非決定性、信頼、意図整合、システム挙動とインターフェース問題の切り分け
Watkins et al.: 文脈、文脈制御、信頼・不信、翻訳

第二段階では、CIT によってインシデントを収集する。対象は、AI を使った制作・開発・研究・設計実践の中で、判断・違和感・評価・修復が生じた具体的な場面にする。インタビューだけでなく、可能であればプロンプト、出力、修正後の成果物、README、skill、デザインシステム、レビューコメント、コード差分などの artifact も残す。

第三段階では、各インシデントを二層で分析する。

記述層:

実践タイプ
タスク
使用した AI
ワークフロー上の位置
AI の役割
人間の役割
使用された媒介物
出力や成果物

解釈層:

何がずれたのか
どの目的・制約・評価基準が表に出たのか
どの情報が後から外部化されたのか
修復はどのように行われたのか
人間の介入点はどこだったのか
媒介物やワークフローは更新されたのか
既存 taxonomy で説明できた部分と、説明しにくかった部分はどこか

第四段階では、複数インシデントを比較し、既存枠組みとの対応表をつくる。ここで初めて、「自分の研究で見えてきた観察観点」が出てくる。

5. 先行研究をどう活かせるか

5.1 Park et al. の活かし方

Park et al. は、生成 AI の非決定性が研究方法を揺るがすことを示す背景として使える。ただし、自分の研究を Park et al. と無理に差別化するよりも、次のように活かすのがよい。

生成 AI を研究対象にするとき、出力の揺らぎや解釈の曖昧さが方法上の問題になることの根拠にする
ラボ評価ではなく実践中のインシデントを扱う理由を説明する
インシデント記録時に、モデルの非決定性、信頼、意図整合、解釈の曖昧さを記録項目に入れる

Park et al. が「研究者側の評価設計」を見ているとすれば、本研究は「実践者側の判断・修復の出来事」を見る。これは差別化というより、問題意識の接続である。

5.2 Shi et al. の活かし方

Shi et al. は、この研究の最重要先行研究の一つとして扱うべきである。Human-GenAI Interaction の分類軸をかなり広く提示しているため、これを無視して「観察軸を探る」と言うと弱い。

活かし方としては、次の3つがありそうである。

先行 taxonomy として紹介し、自分の観察項目の出発点にする
収集したインシデントを Shi et al. の分類軸にマッピングする
マッピングできない、または説明しきれない部分を、実践ベースの補助観点として整理する

特に、媒介物更新、暗黙知の外部化、修復の連鎖、組織的判断の移動のような部分が、既存 taxonomy だけでは見えにくい可能性がある。ここは実際にデータを集めないと断定できないが、研究の狙いとしては置けそうである。

5.3 Terry et al. の活かし方

Terry et al. の specification / process / evaluation alignment は、自分の研究の分析軸と非常に相性がよい。

目的や制約を AI に渡す場面は specification alignment
AI がどのように作業を進めるかを理解・制御する場面は process alignment
AI 出力を検証・採用・修正する場面は evaluation alignment

この枠組みを使うと、CIT で拾ったインシデントが、AI との相互作用のどこで発生したのかを整理できる。たとえば、スライド生成で「論理構成が違う」と感じた場面は、単なる出力品質の問題ではなく、specification alignment と evaluation alignment の両方に関係する出来事として読める。

5.4 実践研究群の活かし方

UX practitioner 研究や creative worker 研究は、AI がすでに実践に入り込み、個人・チーム・組織のレベルで使い方が揺れていることを示す根拠になる。

特に Takaffoli et al. の「会社ポリシーやチーム実践が不足し、個人がそれぞれに使っている」という知見は、自分の研究で文脈条件を記録する必要性につながる。また、Clarke and Joffe の「reflexive delegation」「boundary repair」は、AI に任せる範囲を実践者がその場で調整し続けるという点で、自分の研究の中心概念にかなり近い。

これらを踏まえると、自分の研究では、単に「AI に何を頼んだか」だけでなく、「その頼み方や評価が、誰に説明可能である必要があったのか」「どのステークホルダーの基準を反映しようとしたのか」も見る必要があるかもしれない。

6. 研究としての可能性

先行研究を踏まえると、この研究の可能性は、次のようなところにある。

第一に、生成 AI の評価方法・分類研究と、実践中の出来事の記録をつなぐことができる。Park et al. や Shi et al. は重要な枠組みを提供しているが、実際の制作・開発・研究・設計実践で、どの瞬間に判断や修復が露出するのかを、インシデント単位で記述する余地はまだありそうである。

第二に、Human-GenAI Interaction を、会話やUI操作だけでなく、媒介物や artifact の更新まで含めて見ることができる。プロンプト、README、skill、デザインシステム、サンプル、レビューコメント、コード差分などは、AI との相互作用の周辺にあるが、実践を支える重要な外部化の場所かもしれない。

第三に、AI 利用を「うまくいった／失敗した」ではなく、「何が判断として表に出たのか」「何が外部化されたのか」「どの媒介物が更新されたのか」として読むことができる。これは、単なるプロンプト技法研究やツール評価とは違う貢献になりうる。

第四に、修士研究としては、完成された一般理論を出すよりも、観察プロトコル、インシデント記録フォーマット、分析カテゴリ、概念図のような成果物が現実的かもしれない。これは、既存研究の大きな枠組みに対して、小さくても経験的に使える補助線を出す方向である。

7. 注意した方がよい主張

次の主張は、現時点では避けた方がよさそうである。

「この領域はまだ研究されていない」
「変化の速い AI を研究するための観察軸は先行研究にない」
「人間や組織には不変的な構造がある」
「従来の HCI / UX では足りない」
「CIT を使うこと自体が独自性である」
「複数領域に共通する構造が見つかるはずである」

これらは、どれも強く言いすぎると危ない。特に「従来の HCI / UX では足りない」は、先行研究を十分に読まないと憶測に見える。実際には、HCI 側でもかなり対応しようとしている。したがって、「足りない」と言うより、「既存研究が提示する分類・評価枠組みを踏まえつつ、実践中のインシデントと媒介物更新に焦点を当てて補助的に検討する」と言う方がよい。

8. 現時点での研究説明の更新案

短めに言うなら、次のようになる。

生成 AI の非決定性や変化の速さを背景に、HCI / HAI では生成 AI をどう評価し、どう分類するかの研究が進んでいる。本研究はその流れを踏まえ、文章整理、スライド生成、UI・デザイン生成、コード支援などの AI 介在型実践において、実践者の判断・違和感・評価・修復・媒介物更新が露出する出来事をクリティカル・インシデントとして記録する。そこから、既存の Human-GenAI Interaction の分類や評価枠組みでは捉えにくい、実践中の観察単位と分析観点を整理しようとする研究である。

もう少し論文調に書くなら、次のようになる。

本研究は、生成 AI や AI エージェントが制作・開発・研究・設計の実践に組み込まれる場面を対象に、実践者の判断、評価、違和感、修復、媒介物更新がどのような出来事として現れるのかを記述する。先行研究では、生成 AI の非決定性に伴う評価方法上の課題や、Human-GenAI Interaction の分類枠組みが整理されつつある。本研究では、それらを理論的・方法的な土台としながら、実際の AI 介在型実践におけるクリティカル・インシデントを分析し、目的・制約・評価基準・暗黙知・人間の介入点がどのような媒介物やワークフローを通じて外部化・再配置されるのかを検討する。

9. 次にやるべきこと

次に進むなら、文献をさらに増やすより先に、研究設計を少し具体化した方がよさそうである。

Shi et al.、Park et al.、Terry et al.、Doshi and Moore、Watkins et al. を「主要先行研究」として固定する
それぞれから分析に使えそうな軸を抜き出し、初期コード表をつくる
自分の AI 利用から 3〜5 件のインシデントを試しに記録する
各インシデントを既存枠組みにマッピングする
既存枠組みで説明できる部分と、説明しにくい部分を分ける
その結果をもとに、研究対象を広げるのか、特定領域に絞るのかを決める

特に重要なのは、実際にインシデントを記録してみることである。先行研究との関係は、頭の中だけで考えていると「似ている／違う」の議論に寄りすぎる。実際の出来事を3〜5件書くと、既存 taxonomy で十分見えるのか、媒介物や修復の観点が追加で必要なのかがかなり見えやすくなるはずである。

10. 現時点の見立て

この研究は、最初に考えていたよりも先行研究に近い。特に「変化の速い AI をどう研究するか」「生成 AI の評価方法をどう更新するか」「Human-GenAI Interaction をどう分類するか」は、すでにかなり研究されている。

そのため、独自性を「誰もやっていない観察軸をつくる」方向に置くのは危ういかもしれない。むしろ、独自性は、既存研究の枠組みを実践中の具体的なインシデントに当て、判断・評価・修復・外部化・媒介物更新という出来事の構造を丁寧に記述するところに置く方がよさそうである。

言い換えると、この研究は「AI 研究方法論をゼロからつくる研究」ではなく、「生成 AI 評価・分類研究の流れを踏まえ、AI 介在型実践を観察するためのインシデントベースの記述方法を試す研究」として組み直すと、かなり現実的で、先行研究ともつながりやすい。