人間行動の予測・制御を目指した行動主義心理学とオペラント条件づけから導かれる“マッチング法則”

20世紀前半に起こった精神分析から行動主義(行動科学)へのパラダイムシフトは、『主観的な内観法』から『客観的な観察法・実験法』への方法論の転換を引き起こしました。行動主義心理学の始祖とされるJ.B.ワトソン(1878-1958)は、人間の心理を外部から観察可能な『行動』のみに集約するという構想を持っていましたが、その理論的前提にあったのはI.P.パヴロフ(1849-1936)の生理学的な『条件反射』でした。

I.P.パヴロフの条件反射は『パヴロフのイヌの実験』で有名な古典的条件づけ(レスポンデント条件づけ)ですが、唾液分泌と無関係な“ベルの音”の『条件刺激(CS:Conditioned Stimulus)』のすぐ後に、無条件に唾液を分泌させる“餌”の『無条件刺激(US:Unconditioned Stimulus)』を対呈示すると、ベルの音を聴くだけで唾液分泌する条件反射が形成されます。古典的条件づけ(レスポンデント条件づけ)は生理的反射を利用した『S-S連合(無条件刺激と条件刺激の連合)』の学習行動ですが、B.F.スキナーらが体系化した道具的条件づけ(オペラント条件づけ)は『報酬・罰の効果を持つ強化子』を利用して行動の生起頻度をコントロールする学習行動のことです。

生理的反射と刺激の対呈示の方法(時間間隔)を利用した古典的条件づけでは、条件反射を形成したり制止(抑制)したりすることもできますが、生理的反射に直接支配されない行動領域が大きい人間にはそのまま応用することが難しい。J.B.ワトソンは人間の行動を『S-R連合(刺激と反応の連合)』によって一元的に理解しようとしましたが、認知過程や価値判断が関係する人間の複雑な行動を機械的なS‐R連合だけで説明することは不可能です。現在では、『無条件刺激と条件刺激との間の随伴性』に着目して認知心理学的なS-S連合を定式化したレスコーラ=ワグナー・モデルなどによって連合学習(連合理論)は理解されるようになっており、『条件刺激に含まれる無条件刺激の接近を予測させる情報(二つの刺激間の認知的な結びつき)』が重要な役割を果たすと考えられています。

『慣れていない新規・意外な強化子(刺激)』ほどS-R連合を強く強化する傾向がありますが、連合理論というのは刺激と刺激の連合、刺激と反応の連合の強度を定式化した理論であり、認知心理学の研究成果では、自分が置かれている対人的・文化的な『文脈』によっても連合の強度に変化が起こることが分かっています。オペラント条件づけ(道具的条件づけ)というのも、『弁別刺激(行動を生起させる刺激)‐オペラント行動(自発的な行動)‐強化刺激(報酬・罰)』の三項随伴性によって成立する連合理論としての側面を持っていますが、オペラント条件づけでは行動が起こった後に強化(強化スケジュール)を行うという点に違いがあります。

レスポンテント条件づけでは食欲(唾液分泌)や痛覚(回避)に関係する生理的な『無条件反射』『条件反射』と対呈示して条件づけすることがポイントですが、オペラント条件づけではオペラント行動の後に強化刺激(報酬や罰となる刺激)を与える『強化スケジュール』を実施することに要点があります。強化刺激を与えない強化スケジュールは、オペラント行動を抑制する効果を持つ『消去(extinction)』ということになりますが、オペラント行動の後に必ず毎回強化を与えるスケジュールのことを『連続強化(continuous reinforcement)』といいます。

オペラント条件づけの行動原理は、適応的な行動を学習して非適応的な行動を消去することを目的とする『行動療法(behavior therapy)』にも一部応用されていますが、行動療法の強化スケジュールでは正の強化子として『賞賛・肯定・エコノミートークン(擬似貨幣)の報酬』を用い、負の強化子として『やりたいことをやらない・やりたくないことをやるなどの罰』を用いたりします。

行動療法にはオペラント条件づけを用いた技法以外にも、苦痛や不安を感じる状況(対象)に直面することで苦痛を弱める『曝露療法(エクスポージャー法)』や不安の小さい状況から不安の大きい状況へと段階的に向き合うことで慣れていく『系統的脱感作法』などがあります。段階的に不安な場面に挑戦していく系統的脱感作を伴う曝露療法は、パニック障害や全般性不安障害、社会不安障害、恐怖性障害、強迫性障害などに顕著な効果があるスタンダードなカウンセリング技法であり、初めの苦痛や不安に耐えて『自分が避けたいと思っている不安状況』に曝露することができれば、精神症状やパニック発作が曝露のレベルに応じて改善される可能性があります。

強化スケジュールには『連続強化スケジュール』以外にもオペラント行動の一部分だけに強化を与える『間欠強化スケジュール』があり、間欠強化スケジュールにはオペラント行動の生起頻度に応じて強化を与える『比率スケジュール』や前回の強化からの一定の時間経過に合わせて強化を与える『間隔スケジュール』があります。部分強化効果の研究では、オペラント行動の後に毎回強化する『連続強化スケジュール』よりも断続的に強化する『間欠強化スケジュール』のほうが、学習されたオペラント行動が消去されにくいとされています。しかし、間欠強化スケジュールには『消去抵抗の強さ』があるのですが、連続強化スケジュールでは学習されたオペラント行動が違う行動へと変化しにくい『変化抵抗の強さ』があります。

オペラント条件づけを応用した様々な強化スケジュールの組み合わせによって、人間の行動のかなりの部分を量的研究の成果によって説明することができますが、行動主義心理学のパラダイムではR.J.ハーンシュタイン(R.J.Herrnstein)『マッチング法則(matching law)』によって強化の相対頻度とオペラント行動(反応)の相対頻度との量的な相関が証明されています。選択行動において成り立つ『マッチング法則』とは、十分長い期間の中で複数の行動の選択肢からある行動を選択する場合に、『各選択肢を選ぶ回数の比率』『各選択肢から得た累積報酬量の比率』が一致するという法則です。

マッチング法則は、ある反応を強化すればするほどその反応数が増えるというような正比例の関係を示唆するものではなく、強化に応じた反応数の増加には一定の上限があります。マッチング法則は人間の『選択行動の研究』だけでなく『行動経済学・動物行動学(エソロジー)』にも応用されていますが、内的な認知過程や価値判断を介在させずに強化変数と反応変数との相関によって、人間の行動の生起・変化を説明するところに特徴があります。人間以外の動物でもマッチング法則に従ったオペラント行動の生起が見られることから、行動選択の比率と各選択肢からの報酬量が相関するマッチング法則には、何らかの生物学的・神経学的な基盤が想定されています。

マッチング法則は『学習による人間の行動の最適化』を定式化したものと考えられがちですが、実際にはマッチング法則では『獲得報酬の最大化』を実現することができず、そのために人間・動物の行動には非合理的・非効率的な側面が生まれてきます。行動的アプローチを経由するオペラント行動であっても、認知的アプローチを経由するオペラント行動であっても、その意志決定や行動選択の結果はマッチング法則に従う傾向がありますが、マッチング法則は『行動選択による獲得報酬を予測するための完全情報』が与えられた条件下のみで報酬の最大化を実現できるのではないかという可能性も指摘されています。

人間の非合理的・感情的な経済行動を研究対象とする経済行動学には、D.カーネマンA.トヴァルスキーが検証した『プロスペクト理論(人間には合理的な損得勘定の判断をしにくい傾向があるということを関数グラフで示した理論)』というものがありますが、H.ラックリンはこのプロスペクト理論もマッチング法則の影響によって説明可能であるとしています。






■関連URI
不合理な人間を前提にする行動経済学と“利得・損失・リスク”に対する曖昧な価値判断

『問題行動の修正と学習』を重視する行動主義と『支持的関係性と心の変容』を重視する心理主義

科学的な認知心理学の誕生と情報処理システムとしての人間の精神

モデリング理論による新たな適応的行動の学習1:恐怖反応の生得性と後天性

人間の心身発達についての概説:発達心理学と行動主義心理学の観点から

■書籍紹介

行動分析学入門
産業図書
杉山 尚子

ユーザレビュー:
内容的にはちょっと古 ...
誰でも読み始められる ...
応用行動分析学につい ...
amazon.co.jpで買う
Amazonアソシエイト by ウェブリブログ

この記事へのトラックバック