sex blog

Психологическое измерение

Исследователей Тару Макдональд и Аланну Мартино интересовало влияние настроения студенток колледжа на их намерения вступить в незащищенный половой акт (MacDonald & Martineau, 2002). Макдональд, Т.К., и Мартино, А.М. (2002). Самооценка, настроение и намерения использовать презервативы: когда низкая самооценка приводит к опасному для здоровья поведению? Журнал экспериментальной социальной психологии, 38 , 299–306.В тщательно спланированном эмпирическом исследовании они обнаружили, что плохое настроение увеличивает намерения заниматься незащищенным сексом, но только у студентов с низкой самооценкой. Хотя при проведении подобных исследований возникает множество проблем, одной из основных является измерение соответствующих переменных. В этом исследовании исследователям нужно было знать, была ли у каждого из их участников высокая или низкая самооценка, что, конечно же, требовало измерения их самооценки. Им также нужно было убедиться, что их попытка создать у людей негативное настроение (заставляя их думать о негативных мыслях) была успешной, что требовало измерения их настроения. Наконец, им нужно было увидеть, связаны ли самооценка и настроение с намерениями участников вступить в незащищенный половой акт, что требовало измерения этих намерений.

Студентам, которые только начинают заниматься психологическими исследованиями, задача измерения таких переменных может показаться непреодолимой. Действительно ли возможно измерить такие неосязаемые вещи, как самооценка, настроение или намерение что-то сделать? Ответ — решительное «да», и в этой главе мы внимательно рассмотрим природу переменных, которые изучают психологи, и то, как их можно измерить. Мы также рассмотрим некоторые практические вопросы психологического измерения.

Считаете ли вы себя достойным человеком?

Шкала самооценки Розенберга (Розенберг, 1989) Розенберг М. (1989). Общество и представление о себе подростка (ред. ред.). Мидлтаун, Коннектикут: Издательство Уэслианского университета. — один из наиболее распространенных показателей самооценки, который Макдональд и Мартино использовали в своем исследовании. Участники отвечают на каждый из 10 следующих пунктов оценкой по 4-балльной шкале: Полностью согласен , Согласен , Не согласен , Категорически не согласен . Оцените пункты 1, 2, 4, 6 и 7, назначив 3 балла за каждый ответ « Полностью согласен », 2 балла за каждый ответ « Согласен », 1 балл за каждый ответ « Не согласен » и 0 баллов за каждый ответ «Абсолютно не согласен ».. Поменяйте местами подсчет баллов по пунктам 3, 5, 8, 9 и 10, назначив 0 баллов за каждый пункт « Полностью согласен », по 1 баллу за каждый пункт « Согласен » и так далее. Общий балл – это общее количество баллов.

Я чувствую, что я достойный человек, по крайней мере, наравне с другими.

Я чувствую, что у меня есть ряд хороших качеств.

В общем, я склонен считать себя неудачником.

Я могу делать вещи так же хорошо, как и большинство других людей.

Я чувствую, что мне нечем гордиться.

Я положительно отношусь к себе.

В целом я доволен собой.

Я хотел бы иметь больше уважения к себе.

Иногда я чувствую себя бесполезным.

Иногда мне кажется, что я совсем нехороший.

5.1 Понимание психологических измерений

ЦЕЛИ ОБУЧЕНИЯ

Дайте определение измерения и приведите несколько примеров измерения в психологии.

Объясните, что такое психологический конструкт, и приведите несколько примеров.

Отличайте концептуальные определения от операционных, приведите примеры каждого из них и создавайте простые рабочие определения.

Укажите четыре уровня измерения, приведите примеры каждого из них и объясните, почему это различие важно.

Что такое измерение?

Измерение - это присвоение баллов отдельным лицам, чтобы баллы отражали некоторые характеристики людей. Это очень общее определение согласуется со способами измерения, с которыми все знакомы, например, взвешиванием себя, встав на напольные весы, или проверкой внутренней температуры жареной индейки с помощью термометра для мяса. Это также согласуется с измерениями во всех науках. В физике, например, можно измерить потенциальную энергию объекта в гравитационном поле Земли, найдя его массу и высоту (что, конечно, требует измерения этих переменных), а затем перемножив их вместе с ускорением свободного падения Земли (9,8 м/с). с 2). Результатом этой процедуры является оценка, которая представляет потенциальную энергию объекта.

Конечно, это общее определение измерения согласуется и с измерением в психологии. (Психологические измерения часто называют психометрическими.) Представьте, например, что когнитивный психолог хочет измерить объем рабочей памяти человека — его или ее способность удерживать в уме и обдумывать несколько фрагментов информации одновременно. Для этого она может использовать задание на диапазон цифр в обратном порядке, в котором она читает человеку список из двух цифр и просит его или ее повторить их в обратном порядке. Затем она повторяет это несколько раз, каждый раз увеличивая длину списка на одну цифру, пока человек не сделает ошибку. Длина самого длинного списка, на который человек отвечает правильно, является оценкой и представляет его или ее объем рабочей памяти. Или представьте себе клинического психолога, который интересуется, насколько депрессивен человек. Он ведет инвентаризацию депрессии Бека, который представляет собой анкету для самоотчетов из 21 пункта, в которой человек оценивает степень, в которой он или она чувствовал себя грустным, потерял энергию и испытывал другие симптомы депрессии за последние 2 недели. Сумма этих 21 оценок является оценкой и представляет его или ее текущий уровень депрессии.

Важным моментом здесь является то, что измерение не требует каких-либо конкретных инструментов или процедур. Для этого не требуется помещать людей или предметы на весы в ванной, подносить к ним линейки или вставлять в них термометры. Что для этого действительно требуется, так это некоторая систематическая процедура присвоения баллов индивидуумам или объектам, чтобы эти баллы представляли интересующую характеристику.

Психологические конструкции

Многие переменные, изучаемые психологами, просты и легко поддаются измерению. К ним относятся пол, возраст, рост, вес и порядок рождения. Вы почти всегда можете сказать, мужчина это или женщина, просто взглянув. Вы можете спросить людей, сколько им лет, и быть достаточно уверенными в том, что они знают и скажут вам. Хотя люди могут не знать или не захотеть сообщить вам, сколько они весят, вы можете попросить их встать на весы в ванной. Другие переменные, изучаемые психологами — возможно, большинство — не так просто измерить. Мы не можем точно оценить уровень интеллекта людей, глядя на них, и мы, конечно же, не можем оценить их самооценку на весах в ванной. Переменные такого типа называются конструкциями (произносится как CON-structs).) и включают черты личности (например, экстраверсия), эмоциональные состояния (например, страх), отношение (например, к налогам) и способности (например, атлетизм).

Психологические конструкции нельзя наблюдать непосредственно. Одна из причин заключается в том, что они часто отражают тенденции мыслить, чувствовать или действовать определенным образом. Например, чтобы сказать, что конкретный студент колледжа очень экстравертный (см. примечание 5.6 «Большая пятерка» ,) не обязательно означает, что прямо сейчас она ведет себя экстравертно. На самом деле, она могла бы спокойно сидеть одна и читать книгу. Наоборот, это означает, что у нее есть общая склонность вести себя экстравертно (разговаривать, смеяться и т. д.) в различных ситуациях. Другая причина, по которой психологические конструкты нельзя наблюдать напрямую, заключается в том, что они часто связаны с внутренними процессами. Страх, например, включает в себя активацию определенных структур центральной и периферической нервной системы, наряду с определенными видами мыслей, чувств и поведения, ни одно из которых не обязательно очевидно для стороннего наблюдателя. Заметьте также, что ни экстраверсия, ни страх не «сводятся» к какой-либо конкретной мысли, чувству, действию или физиологической структуре или процессу. Наоборот, каждый из них представляет собой своего рода резюме сложного набора моделей поведения и внутренних процессов.

Большая пятерка

«Большая пятерка» — это набор из пяти широких измерений, которые охватывают большую часть вариаций человеческой личности. Каждую из «Большой пятерки» можно даже определить с помощью шести более конкретных конструктов, называемых «фасетами» (Costa & McCrae, 1992). Коста, П.Т., младший, и Маккрей, Р.Р. (1992). Нормальная оценка личности в клинической практике: Опросник личности NEO. Психологическая оценка, 4 , 5–13.

Рисунок 5.1

Большая пятерка личностных характеристик

Концептуальное определение психологического конструкта описывает поведение и внутренние процессы, составляющие этот конструкт, а также то, как он соотносится с другими переменными. Например, концептуальное определение невротизма (еще одного из Большой пятерки) будет состоять в том, что это склонность людей испытывать негативные эмоции, такие как тревога, гнев и печаль, в различных ситуациях. Это определение может также включать в себя то, что оно имеет сильный генетический компонент, остается довольно стабильным с течением времени и положительно коррелирует с тенденцией испытывать боль и другие физические симптомы.

Студенты иногда недоумевают, почему, когда исследователи хотят понять такой конструкт, как самооценка или невротизм, они просто не ищут его в словаре. Одна из причин заключается в том, что многие научные конструкции не имеют аналогов в повседневном языке (например, объем рабочей памяти). Что еще более важно, исследователи занимаются разработкой определений, которые являются более подробными и точными — и которые более точно описывают то, как устроен мир, — чем неформальные определения в словаре. Как мы увидим, они делают это, предлагая концептуальные определения, проверяя их эмпирически и пересматривая по мере необходимости. Иногда их вообще выбрасывают. Вот почему исследовательская литература часто включает разные концептуальные определения одного и того же конструкта. В некоторых случаях, старое концептуальное определение было заменено более новым, которое работает лучше. В других исследователи все еще находятся в процессе принятия решения о том, какое из различных концептуальных определений является лучшим.

Операционные определения

Операционное определение — это определение переменной с точки зрения того, как именно она должна быть измерена. Эти меры обычно относятся к одной из трех широких категорий. Меры самоотчета - это те, в которых участники сообщают о своих мыслях, чувствах и действиях, как в случае со шкалой самооценки Розенберга. Поведенческие мерыте, в которых некоторые другие аспекты поведения участников наблюдаются и записываются. Это чрезвычайно широкая категория, включающая наблюдение за поведением людей как в строго структурированных лабораторных задачах, так и в более естественных условиях. Хорошим примером первого может быть измерение объема рабочей памяти с помощью задачи обратного диапазона цифр. Хорошим примером последнего является известное операциональное определение физической агрессии, данное исследователем Альбертом Бандурой и его коллегами (Bandura, Ross & Ross, 1961). Бандура, А., Росс, Д., и Росс, С.А. (1961). Передача агрессии через подражание агрессивным моделям. Журнал ненормальной и социальной психологии, 63 , 575–582.Они позволили каждому из нескольких детей поиграть в течение 20 минут в комнате, где была боксерская груша в форме клоуна, называемая куклой Бобо. Они снимали каждого ребенка на видео и подсчитывали количество совершенных им актов физической агрессии. К ним относятся удары по кукле молотком, удары руками и ногами. Таким образом, их операциональным определением было количество этих специально определенных действий, которые ребенок совершил за 20-минутный период. Наконец, физиологические измерения — это те, которые включают регистрацию любого из широкого спектра физиологических процессов, включая частоту сердечных сокращений и артериальное давление, кожно-гальваническую реакцию, уровни гормонов, электрическую активность и кровоток в головном мозге.

Рисунок 5.2

В дополнение к самоотчетам и поведенческим показателям исследователи в области психологии используют физиологические показатели. Электроэнцефалограф (ЭЭГ) регистрирует электрическую активность головного мозга.

Источник: Фото предоставлено Джеймсом МакКью.

Для любой заданной переменной или конструкции будет несколько операционных определений. Стресс — хороший пример. Грубое концептуальное определение состоит в том, что стресс — это адаптивная реакция на воспринимаемую опасность или угрозу, которая включает физиологические, когнитивные, аффективные и поведенческие компоненты. Но исследователи оперативно определили его несколькими способами. Шкала оценки социальной адаптации представляет собой анкету для самоотчетов, в которой люди определяют стрессовые события, которые они испытали в прошлом году, и присваивают каждому из них баллы в зависимости от его серьезности. Например, мужчина, который развелся (73 балла), сменил работу (36 баллов) и изменил привычку спать (16 баллов) в прошлом году, получит в сумме 125 баллов. Шкала ежедневных хлопот и подъемов аналогична, но фокусируется на повседневных стрессовых факторах, таких как потеря вещей и беспокойство о своем весе. Шкала воспринимаемого стресса — это еще одна мера самоотчета, которая фокусируется на чувстве людей к стрессу (например, «Как часто вы нервничали и испытывали стресс?»). Исследователи также оперативно определили стресс с точки зрения нескольких физиологических переменных, включая артериальное давление и уровень гормона стресса кортизола.

Когда психологи используют несколько операционных определений одного и того же конструкта — в рамках исследования или между исследованиями — они используют конвергентные операции . Идея состоит в том, что различные операциональные определения «сходятся» к одной и той же конструкции. Когда баллы, основанные на нескольких различных операционных определениях, тесно связаны друг с другом и дают сходные модели результатов, это служит хорошим доказательством того, что конструкт измеряется эффективно и что он полезен. Различные показатели стресса, например, коррелируют друг с другом, и было показано, что все они коррелируют с другими переменными, такими как функционирование иммунной системы (также измеряемое различными способами) (Segerstrom & Miller, 2004).Сегерстром, SE, и Миллер, GE (2004). Психологический стресс и иммунная система человека: метааналитическое исследование 30-летнего исследования. Психологический бюллетень, 130 , 601–630. Именно это позволяет исследователям в конечном итоге делать полезные общие выводы, такие как «стресс отрицательно коррелирует с работой иммунной системы», в отличие от более конкретных и менее полезных выводов, таких как «баллы людей по шкале воспринимаемого стресса отрицательно коррелируют с их показатели белой крови».

Уровни измерения

Психолог С. С. Стивенс предположил, что людям можно назначать баллы, чтобы они сообщали более или менее количественную информацию об интересующей нас переменной (Stevens, 1946). Стивенс, СС (1946). К теории весов измерений. Наука, 103 , 677–680.Например, официальные лица на 100-метровом забеге могут просто ранжировать бегунов по мере их пересечения финишной черты (первым, вторым и т. д.) или могут измерять время каждого бегуна с точностью до ближайшей десятой доли секунды с помощью секундомера (11,5). с, 12,1 с и др.). В любом случае они будут измерять время бегунов, систематически присваивая баллы для представления этого времени. Но в то время как процедура ранжирования сообщает о том, что бегуну, занявшему второе место, потребовалось больше времени, чтобы финишировать, чем бегуну, занявшему первое место, процедура секундомера также сообщает , сколько времени потребовалось бегуну, занявшему второе место. Стивенс фактически предложил четыре разных уровня измерения.(которые он назвал «шкалами измерения»), которые соответствуют четырем различным уровням количественной информации, которую можно передать с помощью набора баллов.

Номинальный уровень измерения используется для категориальных переменных и включает присвоение оценок, которые являются метками категорий. Метки категорий сообщают, являются ли какие-либо два человека одинаковыми или разными с точки зрения измеряемой переменной. Например, если вы смотрите на участников исследования, когда они входят в комнату, решаете, кто из них мужчина или женщина, и вводите эту информацию в электронную таблицу, вы участвуете в измерении номинального уровня. Или, если вы попросите участников указать, к какой из нескольких этнических групп они себя относят, вы снова будете вовлечены в измерение номинального уровня.

Остальные три уровня измерения используются для количественных переменных. Порядковый уровень измерения включает присвоение баллов таким образом, чтобы они представляли ранговый порядок отдельных лиц. Ранги сообщают не только о том, являются ли какие-либо два человека одинаковыми или разными с точки зрения измеряемой переменной, но также и о том, находится ли один человек выше или ниже по этой переменной. Уровень интервалаизмерения включает присвоение баллов таким образом, чтобы они представляли точную величину различий между людьми, но нулевой балл на самом деле не означает полное отсутствие характеристики. Классическим примером является измерение тепла по шкале Цельсия или Фаренгейта. Разница между температурами 20°С и 25°С составляет ровно 5°, но температура 0°С не означает полного отсутствия тепла. В психологии часто считается, что коэффициент интеллекта (IQ) измеряется на интервальном уровне. Наконец, уровень соотношенияизмерения включает присвоение баллов таким образом, чтобы была истинная нулевая точка, которая представляет полное отсутствие количества. Хорошими примерами являются рост, измеряемый в метрах, и вес, измеряемый в килограммах. Так же как и подсчет отдельных объектов или событий, таких как количество братьев и сестер или количество вопросов, на которые учащийся правильно ответил на экзамене.

Уровни измерений Стивенса важны как минимум по двум причинам. Во-первых, они подчеркивают общность концепции измерения. Хотя люди обычно не думают о категоризации или ранжировании индивидуумов как об измерении, на самом деле они таковыми являются до тех пор, пока они представляют некоторые характеристики индивидуумов. Во-вторых, уровни измерения могут служить грубым ориентиром для статистических процедур, которые можно использовать с данными, и для выводов, которые можно на их основе сделать. Например, при измерении номинального уровня единственной доступной мерой центральной тенденции является мода. Кроме того, измерение на уровне отношений — это единственный уровень, на котором можно делать осмысленные утверждения о соотношении баллов.

КЛЮЧЕВЫЕ ВЫВОДЫ

Измерение - это присвоение баллов отдельным лицам, чтобы баллы отражали некоторые характеристики людей. Психологическое измерение может быть достигнуто самыми разными способами, включая самооценку, поведенческие и физиологические измерения.

Психологические конструкты, такие как интеллект, самооценка и депрессия, являются переменными, которые нельзя непосредственно наблюдать, поскольку они отражают поведенческие тенденции или сложные модели поведения и внутренних процессов. Важной целью научных исследований является концептуальное определение психологических конструктов таким образом, чтобы они точно описывались.

Для любого концептуального определения конструкции будет много различных операционных определений или способов ее измерения. Использование нескольких операционных определений или конвергентных операций является обычной стратегией в психологических исследованиях.

Переменные могут быть измерены на четырех различных уровнях — номинальном, порядковом, интервальном и относительном, — которые сообщают все больше количественной информации. Уровень измерения влияет на виды статистических данных, которые вы можете использовать, и на выводы, которые вы можете сделать из своих данных.

УПРАЖНЕНИЯ

Практика: заполните шкалу самооценки Розенберга и подсчитайте свой общий балл.

Практика: придумайте три рабочих определения сексуальной ревности, решительности и социальной тревожности. Рассмотрите возможность самоотчета, поведенческих и физиологических показателей. Будьте максимально точны.

Практика: Для каждой из следующих переменных решите, какой уровень измерения используется.

Преподаватель колледжа измеряет время, затрачиваемое его студентами на сдачу экзамена, просматривая стопку экзаменов в конце. Он присваивает тому, что внизу, 1 балл, тому, что сверху, — 2 и так далее.

Исследователь получает доступ к медицинским картам своих участников и подсчитывает, сколько раз они посещали врача за последний год.

Участников исследования спрашивают, правши они или левши.

5.2 Надежность и достоверность измерения

ЦЕЛИ ОБУЧЕНИЯ

Дайте определение надежности, включая различные типы и способы их оценки.

Определить достоверность, включая различные типы и способы их оценки.

Опишите виды доказательств, которые могут иметь отношение к оценке надежности и валидности конкретной меры.

Опять же, измерение включает в себя присвоение баллов людям, чтобы они представляли некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем оперативной памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.

В качестве неформального примера представьте, что вы уже месяц сидите на диете. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы оно указывало на то, что вы набрали 10 фунтов, вы бы правильно заключили, что оно сломано, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.

Надежность

Надежность относится к постоянству меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (между разными исследователями).

Проверка надежности

Когда исследователи измеряют конструкт, который, по их мнению, неизменен во времени, полученные им баллы также должны быть постоянными во времени. Ретестовая надежность — это степень, в которой это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.

Оценка надежности повторного тестирования требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей в более позднее время, а затем изучения корреляции между двумя наборами оценок. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления r Пирсона . На рисунке 5.3 «Корреляция тестов и повторных тестов между двумя наборами баллов нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей» показана корреляция между двумя наборами баллов нескольких студентов колледжа по шкале самооценки Розенберга. , учитывая два раза в неделю друг от друга. Пирсон рдля этих данных +0,95. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.

Рис. 5.3. Корреляция тестов и повторных тестов между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза с интервалом в неделю

Опять же, высокая корреляция между тестом и повторным тестом имеет смысл, когда предполагается, что измеряемый конструкт неизменен во времени, как в случае с интеллектом, самооценкой и личностными параметрами Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.

Внутренняя согласованность

Второй вид надежности — внутренняя согласованность ., который представляет собой постоянство ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны склонны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску.

Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов заключается в рассмотрении корреляции пополам . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на рис. 5.4 «Двойная корреляция между оценками нескольких студентов колледжа по четным пунктам и их оценками за нечетные пункты шкалы самооценки Розенберга» показана разделенная пополам корреляция между оценками нескольких студентов колледжа. баллы по четным пунктам и их баллы по нечетным пунктам шкалы самооценки Розенберга. Пирсонаr для этих данных составляет +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.

Рисунок 5.4. Корреляция с разделением пополам между оценками нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга

Возможно, наиболее распространенной мерой внутренней согласованности, используемой исследователями в области психологии, является статистика, называемая альфа Кронбаха (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.

Межоценочная надежность

Многие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. Межрейтинговая надежностьнасколько разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов колледжа, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Если бы это было не так, то эти рейтинги не могли бы точно отражать социальные навыки участников. Надежность между экспертами часто оценивается с использованием α Кронбаха, когда суждения количественные, или аналогичной статистики, называемойκ Коэна (греческая буква каппа), когда они категоричны.

Срок действия

Срок действия- это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной.

Презентация валидности в учебниках обычно делит ее на несколько отдельных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем четыре основных типа: валидность лица, содержательная валидность, критериальная валидность и дискриминантная валидность.

Проверка лица

Лицевая валидность — это степень, в которой метод измерения выглядит «на лицо» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.

Лицевая валидность — это в лучшем случае очень слабое доказательство того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник (MMPI) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие из утверждений не имеют никакого очевидного отношения к конструкту, который они измеряют. Другим примером является тест на имплицитные ассоциации, который измеряет предрассудки неинтуитивным для большинства людей способом (см. примечание 5.31 «Насколько вы предвзяты?» ).

Насколько вы предвзяты?

Тест имплицитных ассоциаций (IAT) используется для измерения отношения людей к различным социальным группам. IAT - это поведенческая мера, предназначенная для выявления негативных установок, в которых люди могут не признаваться при самоотчете. Он фокусируется на том, насколько быстро люди могут классифицировать слова и изображения, представляющие две контрастирующие группы (например, геев и гетеросексуалов), а также другие положительные и отрицательные стимулы (например, слова «замечательный» или «неприятный»). IAT использовался в десятках опубликованных научных исследований, и имеются убедительные доказательства как его надежности, так и валидности (Nosek, Greenwald, & Banaji, 2006). Носек, Б.А., Гринвальд, А.Г., и Банаджи, М.Р. (2006). Тест имплицитных ассоциаций в возрасте 7 лет: методологический и концептуальный обзор. В Дж. А. Барге (ред.),Социальная психология и бессознательное: автоматизм высших психических процессов (стр. 265–292). Лондон, Англия: Psychology Press. Вы можете узнать больше о IAT — и взять некоторые из них для себя — на следующем веб-сайте: https://implicit.harvard.edu/implicit .

Содержание действия

Содержание действияэто степень, в которой мера «покрывает» интересующий конструкт. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как лицо достоверности, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.

Критерий достоверности

Валидность критерия — это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.

Критерием может быть любая переменная, которая, как есть основания полагать, должна быть коррелирована с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством полученных ими штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы. Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими показателями тех же конструктов. Таким образом, использование сходящихся операций является одним из способов проверки достоверности критерия.

Оценка достоверности критерия требует сбора данных с использованием меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и вовлечены в него (Cacioppo & Petty, 1982). Качиоппо, Дж. Т., и Петти, Р. Е. (1982). Потребность в познании. Журнал личности и социальной психологии, 42 , 116–131.В серии исследований они показали, что преподаватели колледжей набрали больше баллов, чем рабочие сборочного конвейера, что баллы людей положительно коррелировали с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелировали с их баллами по показателю догматизма. (что представляет склонность к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.). Петти, Р. Э., Бриньоль, П., Лёрш, К., и Маккаслин, М. Дж. (2009). Потребность в познании. В MR Leary & RH Hoyle (Eds.),Справочник по индивидуальным различиям в социальном поведении (стр. 318–329). Нью-Йорк, штат Нью-Йорк: Guilford Press.

Дискриминантная валидность

Дискриминантная валидность — это степень, в которой оценки меры не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.

Когда они создали шкалу потребности в познании, Качиоппо и Петти также представили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.

КЛЮЧЕВЫЕ ВЫВОДЫ

Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.

Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность - это степень, в которой оценки действительно представляют переменную, для которой они предназначены.

Обоснованность – это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность меры, охватывает ли она интересующую конструкцию и коррелируют ли получаемые ею оценки с другими переменными, с которыми они должны коррелировать, и не коррелируют с переменными, которые концептуально различны.

Надежность и валидность меры определяется не каким-либо одним исследованием, а последовательностью результатов нескольких исследований. Оценка надежности и валидности является непрерывным процессом.

УПРАЖНЕНИЯ

Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделения пополам (четные и нечетные элементы). Вычислите также r Пирсона, если знаете как.

Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и подумайте об экзамене как о психологической мере. Как вы думаете, для измерения какой конструкции он предназначался? Прокомментируйте его внешний вид и действительность содержания. Какие данные вы могли бы собрать, чтобы оценить его надежность, валидность критериев и дискриминантную валидность?

Практика: пройдите тест на имплицитную ассоциацию, а затем перечислите как можно больше способов оценки достоверности его критерия.

5.3 Практические стратегии психологического измерения

ЦЕЛИ ОБУЧЕНИЯ

Укажите четыре основных шага в процессе измерения.

Объясните, как вы решите, использовать ли существующую меру или создать свою собственную.

Опишите несколько стратегий для выявления и локализации существующих показателей психологических конструктов.

Опишите несколько общих принципов создания новых мер и реализации существующих и новых мер.

Создайте простой план для оценки надежности и достоверности существующей или новой меры.

До сих пор в этой главе мы рассмотрели несколько основных идей о природе психологических конструктов и их измерении. Но теперь представьте, что вам действительно нужно измерить психологический конструкт для исследовательского проекта. Как поступить? Вообще говоря, процесс измерения состоит из четырех этапов: (а) концептуальное определение конструкции, (б) функциональное определение конструкции, (в) реализация меры и (г) оценка меры. В этом разделе мы рассмотрим каждый из этих шагов по очереди.

sex blog

Поиск по этому блогу

Комментарии

Отправить комментарий

Популярные сообщения из этого блога