- 3.41 MB
- 209页
- 1、本文档共5页,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 文档侵权举报电话:19940600175。
心理测量学基础理论知识丽水学院教育学院施加平
标准差:代表数据分布的分散程度
第一节 心理测量概述
第一单元测量与测量量表参照点单位测量与测量量表测量的定义测量量表命名量表顺序量表等距量表等比量表测量要素(1)事物;(2)数字;(3)法则
一、什么是测量测量就是依据一定的法则用数字对事物加以确定。三个主要的元素:(1)事物;(2)数字;(3)法则。
所谓“事物”,指的是我们要测量的对象,更准确地说,就是引起我们兴趣的事物的属性或特征。所谓“数字”,是代表某一事物或事物某一属性的量。区分性--1与2等级性或位次性--3>2>1等距性--3-2=1、2-1=1可加性--3+2=5所谓“法则”,代表的是测量所依据的方法和规则
二、测量要素(一)参照点确定事物的量,必须有一个计算的起点参照点有两种:绝对零点-理想的参照点人定的参照点,即相对零点(二)单位好的单位必须具备两个条件:确定的意义:理解的意义普遍一致相同的价值:相邻单位点的差别相等思考:心理测量的单位完善吗?
三、测量量表斯蒂文斯(S·S·Stevens)根据量表的精确程度(数据特征和功能)将测量从低级到高级分成四种水平,即命名量表、顺序量表、等距量表和等比量表(一)命名量表——不是真正意义上的测量(运动会秩序册、人口各参数统计报表中的数据)代号——名称量表类别——类别量表数字只起标记和分类的作用,可做频数统计,不能加减运算
性别种族运动项目
(二)顺序量表如学生的考试名次、工资级别、能力等级、对某事物的喜爱程度、受教育程度等。数字仅表示等级,并不表示某种属性的真正量或绝对值。数字只用于分等和排序,不能做加减运算。
>>-≠-≠≠大学生中学生小学生
(三)等距量表(如温度)有相等的单位,没有绝对的零点数值可以相互做加、减运算,但不能做乘、除。0度并不意味着没有。
温度天气预报:沈阳:最高温度3℃,最低-7℃大连:最高温度6℃,最低-2℃两地最高温度相差3℃沈阳最低温度较大连最低温度低5℃大连最高温度是沈阳最高温度的2倍
纪年公元2000年公元元年黄帝4491年黄帝4698年黄帝4711年黄帝元年历史时间起点?公元2000年
1970年出生30岁1985年出生15岁甲乙二人年龄之差:1985-1970=15岁或30-15=15岁二人年龄之比:30÷15=2(倍)1985÷1970=1.0076(倍)
(四)等比量表-最高水平的量表可以做加、减、乘、除运算。心理测量是在顺序量表上进行的,可根据统计处理把数据转换为等距数据。
零高度零重量零体积零面积零人口零产量零资产真正的零:一无所有
四种测量水平命名量表顺序量表等距量表等比量表
对测量尺度层次的判断较低层次的测量尺度较高层次的测量尺度低测量精度高少计算方法多小信息数量大
测量精度计算方法信息数量某甲某乙的生命现象甲、乙有生命很低不能计算,只能判断=、≠甲、乙有生命定类测量甲中年年长乙少年年轻较低=、≠、>、<甲、乙有生命甲生命时间较乙长定序测量甲生于1940年、乙生于1985年。较高=、≠、>、<、+、-甲、乙有生命甲生命时间较乙长甲比乙大45岁定距测量甲60岁、乙15岁很高=、≠、>、<、+、-、×、÷甲、乙有生命甲生命时间较乙长甲比乙大45岁甲年龄为乙的4倍定比测量
第二单元心理测验的基本概念一、心理测验的定义二、心理测验的性质心理测验的基本概念心理测验的定义心理测验的性质间接性相对性客观性
一、心理测验的定义心理测验:依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。
正确理解心理测验的注意点测量的是人的行为只是对少数行为样本进行观察为使结果具有可比性,测验条件应相同原始分数没有意义,通过与别人或常模比较才有意义。
二、心理测验的性质(一)间接性只能通过对有代表意义的行为样本的测量来推论其心理特质特质是个人对刺激作出反应的内在倾向,是稳定的、可辨别的恒常的心理结构。
(二)相对性是与团体人群行为或人为确定的标准比较的结果(三)客观性测验的刺激是客观的。对反应的量化是客观的。对结果的推论是客观的。
第三单元心理测验的分类一、按测验的功能分类二、按测验材料的性质分类三、按测验材科的严谨程度分类四、按测验的方式分类五、按测验的要求分类
一、按测验的功能分类(一)智力测验(二)特殊能力测验(三)人格测验(问卷法和投射法)
二、按测验材料的性质分类(一)文字测验(二)操作测验-也称非文字测验。各自的优缺点? P358
(一)客观测验(二)投射测验三、按测验材科的严谨程度分类
四、按测验的方式分类(一)个别测验(二)团体测验各自的优缺点?P358
五、按测验的要求分类(一)最高作为测验-尽好的回答,主要与认知活动有关,有正确答案,能评定等级、水平。---(智力测验、成就测验)(二)典型行为测验-按习惯方式作出反应,无正确答案。---各种人格测验
第四单元纠正错误的测验观一、错误的测验观二、正确的测验观错误正确万能论无用论即智力测验重要的研究方法理论基础不够坚实测验观
心理测验的意义错误的测验观万能论无用论等同智力测验正确的测验观研究方法决策辅助工具尚不完善
第五单元心理咨询中的应用心理特性和行为问题的正确评估和诊断。目前心理门诊常用的三类心理测验--熟悉智力测验人格测验心理评定量表
第六单元心理测验的发展史专栏中国古代的心理测验思想
子曰:“中人以上,可以语上也;中人以下,不可以语上也。”春秋-公元前6世纪孔子存在个体差异
“权,然后知轻重;度,然后知长短。物皆然,心为甚。”战国-公元前4世纪孟子个体差异测量的可能性
刘劭《人物志》是一部享誉世界的心理学著作。“观其感变,以审长度”。对人的才能、性格、智勇以及鉴定方法等作了系统的研究。1937年美国人施罗克(J.K.Shryock)将《人物志》翻译成英文,书名为《人类能力的研究》(《Thestudyofhumanability》)。三国-公元3世纪
“左手画方,右手画圆”的实验南朝-公元6世纪初刘勰实验结果:“无一时俱成”结论:“由心不两用,则手不并用也。”分心测验
抓周(抓岁)南北朝颜之推“观其发意所取,以验贪廉愚智,名之为试儿。”说明用直观法观察心智的可能性。“发意所取”是指看周岁的婴儿喜欢什么,抓取什么,来表示将来的志向和前途,以及是贪是廉,是智是愚。
古典文学名著《红楼梦》中就有抓周的描写,贾宝玉抓周时光抓脂粉、钗环这类,因此贾政骂他将来必是酒色之徒。这种荒谬的想法和做法,至今还在我国民间流传。
现代版“抓周儿”:1、字典、词典:代表文学家或科学家,有知识的人。2、书、笔、纸张:具有制定意味,代表书法家、文人、文职工作。3.尺:具有尺度的意味,代表律师、法官、革命家。4.计算器、算盘:代表商家或生意人。5.人民币(钱)玉、钻:代表富有之意,善于储蓄的富翁或有钱人。6、信用卡:银行家或金融行业7、印章:代表官位或官权。8、画、水彩盒、彩色笔:代表画家、艺术家。9、毛线团、布料:代表服装设计师。10、乒乓球拍、羽毛球拍、足球:代表体育相关职业。
11、笛子、小提琴、电子琴、CD:代表音乐家。12、筷子、铲子:代表厨师、饭店业者。13、小鞋子:代表旅行家、探险家。14、润肤霜、口红:代表爱美,在乎自己的容貌。15、手机、软盘、鼠标:代表从事IT业、高科技、通讯业。16、棉签、纱布:代表医生、护士类。17、螺丝刀:工程师、工业18、玩具汽车:有车族、司机19、积木:建筑业、设计师等20、念珠:代表潜心修行。
科举考试始于隋朝-公元7世纪
七巧板将一块正方形板分为7块,并用它拼出各种图形。唐代-公元8世纪唐图世界上最早应用的“非文字”智力测验
一、科学心理测验的产生与发展高尔顿(F·Galton)提出人的不同气质特点和智能是按身体特点的不同而遗传的。为了研究差异的遗传性,便设计了测量差异的方法。首先倡导科学心理测验,为心理测验奠定了统计学基础。他第一个提出了相关的概念,并由他的学生皮尔逊加以发展,创立了积差相关法。
卡特尔的贡献:心理测验第一次出现于心理学文献中心理学应立足于实验与测量心理测验应有一个统一的标准
比内(A·Binet)1905年,世界上第一个正式的心理测验。
20世纪以后,心理测验主要有以下几个方面的发展:1.操作测验的发展2.团体智力测验的发展3.能力倾向测验的发展4.人格测验的发展
二、现代心理测验在我国的发展近些年来我国的心理学家正在致力于测验本土化
第二节测验的常模
第一单元常模团体群体构成的界定所测群体的代表性样本样本的大小适当标准化样组是时空的产物常模团体性质取样的方法常模分数与常模简单随机抽样系统抽样分组抽样分层抽样条件
一、常模团体的性质常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。常模团体的选择主要是基于对测验将要施测的总体的认识,常模团体必须能够代表该总体。包括:确定一般总体、确定目标总体、确定样本。
二、常模团体的条件(一)群体的构成必须明确界定(二)常模团体必须是所测群体的代表性样本一般采用随机取样和分层取样的方法(三)样本的大小要适当-取样误差与样本大小成反比在实际工作中,应从经济的或实用的可能性和减少误差这两方面来综合考虑样本的大小一般最低不小于30或100个。全国性常模,一般应有2000--3000人为宜。样本大小适当的关键是样本要有代表性(四)标准化样组是一定时空的产物在选择合适常模时,要注意选择较为新近的常模。
三、取样的方法取样即从目标人群中选择有代表性的样本。
下列几种抽样方法:(一)简单随机抽样(二)系统抽样(三)分组抽样(四)分层抽样
(一)简单随机抽样按照随机表顺序选择被试构成样本
总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。
是所有概率抽样的出发点和理论基础。简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的个体都有相同的被抽中的概率p=n/N。抽样可以是放回的,也可以是不放回的。适用于总体数目较少且总体的个体之间差异程度较小的时候。
(二)系统抽样(等距抽样)系统抽样的关键是计算组距系统抽样要求目标总体无序可排,也无等级结构存在。总体的数目较大时常用
其抽样单元是从总体中等距抽出的。它需要一个抽样间距和一个随机起点。抽样间距是k=N/n,随机起点r是介于1到k之间的一个随机数。被抽中的单元是:r,r十k,r+2k,r+3k,…,r+(n-1)k。
(三)分组抽样先将群体进行分组,再在组内进行随机取样。
总体容量很大,直接以总体中的所有个体为对象,从中进行抽样,在实际调查或研究中有很大困难。
(四)分层抽样——确定常模时最常用的抽样方法采用分层抽样时,先根据总体目标的某一变量(文化水平、年龄、种族等)分为同质的、互不重迭的若干子总体(层),然后,在每一个层中独立地抽取样本。总体内的个体差异比较大时常用。
例:一个单位的职工有500人,其中不到35岁有125人,35岁至49岁的有280人,50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标,问如何从中抽取一个容量为100的样本?由于职工年龄与这项指标有关,决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25,56,19。
四、常模分数与常模(一)常模是一种供比较的标准量数,由对标准化样本的测试结果计算而来,是心理测验时用于比较和解释测验结果的参照分数标准。根据样本大小和来源:全国常模、区域常模和特殊常模根据具体应用标准和分数特征:百分位常模、标准分常模
(二)常模分数常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。导出分数的特性:与原始分数等值有意义等单位带参照点
第二单元常模的类型常模的类型发展常模百分位常模标准分常模智商及其意义发展顺序量表智力年龄年级当量百分等级百分点四分位数十分位数线性转换非线性转换比率智商离差智商
一、发展常模—年龄量表根据某一年龄段各发展水平的人的平均表现制成的量表在年龄量表中,个人的分数指出他的行为在按正常途径发展方面处于什么样的发展水平发展顺序量表可以告诉人们某儿童的发育与其年龄相比正常超前滞后
(一)发展顺序量表---最直观的发展常模最早的一个范例是葛塞尔发展程序表按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平。P368
皮亚杰最著名的工作就是对守恒概念的研究。通常儿童到5岁时才会理解质量守恒;6岁才会掌握重量守恒;7岁时才有容量守恒概念。
(二)智力年龄比内-西蒙量表中首先使用智力年龄的概念。一个儿童在年龄量表上所得的分数,就是最能代表他的智力水平的年龄。这种分数叫做智力年龄,简称智龄,是年龄量表上度量智力的单位。
一是基础年龄与在较高年龄水平的题目上获得的附加月份之和。如:吴天敏修订的比内-西蒙量表中,每个年龄都有6个测题,答对每题则得智龄2个月某儿童通过了4岁组的全部题目,5岁组通过3题,6岁组通过2题,7岁组通过1题,其智龄为5岁二是根据受测者在整个测验中的原始分数,以同年龄组标准化样本的平均分数为年龄常模来确定智力年龄。
(三)年级当量也称年级量表,测验结果说明被试属于哪一年级的水平。常模样本中6年级的算术平均分为35,某儿童在算术测验中也得35分,那么就有“该儿童的算术是6年级水平”
二、百分位常模百分位常模包括百分等级和百分点、四分位数和十分位数。
(一)百分等级一个测验分数的百分等级是指在常模样本中低于这个分数的人数百分比——是目前应用最广的表示测验分数的方法。55的百分等级表示在常模样本中有55%的人比这个分数低
(二)百分点(百分位数)在分数量表上,相对于某一百分等级的分数点就叫百分点或百分位数,即处于某一百分等级的分数点。某次考试要录取20%的考生,我们就必须确定80百分等级所对应的考试分数。
(三)四分位数和十分位数四分位数是将量表分成四等份,相当于百分等级的25%、50%和75%对应的三个点分成的四段。十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与9个分割点上相对应的数据称为十分位数。
三、标准分常模常见的标准分数有:z分数、Z分数、T分数、标准九分数、离差智商(IQ)等。标准分数可以通过线性转换,也可以通过非线性转换得到
(一)线性转换的标准分数(公式5-1)其中X为任一原始分数,为样本平均数,SD为样本标准差。Z=A+Bz(公式5-2)加上一个常数(A)是为了去掉负值,乘以一个常数(B)是为了使单位变小从而去掉小数点。Z分数是最典型的线性转换的标准分数
当以50为平均数(即加上一个常数50),以10为标准差(乘以一个常数10)来表示时,通常叫做T分数。标准九分(standardnine)是另一较知名的标准分数系统,其量表是个9级的分数量表。它是以5为平均数,以2为标准差的一个分数量表标准十分平均数为5.5,标准差为1.5;标准二十分平均数为10,标准差为3(韦氏分量表)离差智商是使用最广、影响最大的一种常态化标准分数
(二)非线性转换的标准分数当原始分数不是常态分布时,也可以使之常态化,这一转换过程就是非线性的。常态化过程主要是将原始分数转化为百分等级,再将百分等级转化为常态分布上相应的离均值,并可以表示为任何平均数和标准差。步骤:对每个原始分数计算累积百分比在常态曲线面积表中求对应于该百分比的Z分数
四、智商及其意义若心理年龄高于其生理年龄,则智力较一般儿童高,若心理年龄低于其生理年龄,则智力较一般儿童低。但在使用中发现,单纯用心理年龄来表示智力高低的方法缺乏不同年龄儿童间的可比性
(一)比率智商比率智商(IQ)被定义为心理年龄(MA)与实足年龄(CA)之比。(公式5-3)由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实足年龄并不同步增长,不同年龄尽管有相同的比率智商但意义不同,所以比率智商并不适合于年龄较大的被试。
是一种以年龄组为样本计算而得的标准分数韦克斯勒智力测验将离差智商的平均数定为100,标准差定为15离差智商建立在统计学的基础之上,离差智商表示的是个体智力在年龄组中所处的位置,因而是表示智力高低的一种理想的指标(公式5-4)从不同测验获得的离差智商只有当标准差相同或接近时才可以比较(二)离差智商
专栏几种导出分数间的相互关系
某求助者的WAIS-RC的测量结果显示:算术测验的原始分是9,量表分是7,根据该结果,可以判断求助者算术成绩的百分等级是()。A.2B.16√C.50D.84某求助者的WAIS-RC的测量结果显示其FIQ为115,根据该结果,可以判断求助者智商的百分等级是()。
第三单元常模分数的表示方法一、转换表法——最简单而且最基本的表示常模的方法,有时也叫常模表。测验的使用者利用转换表可将原始分数转换为与其对应的导出分数,从而对测验的分数作出有意义的解释。二、剖面图剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。
补充常模的构成要素为:原始分数、导出分数、对常模团体的有关描述。发展量表中的年龄量表最基本的假设是所测量的特质随年龄有系统地改变。所以,它的基本要素是:一组可以区分不同年龄组的题目、一个常模团体、常模表。
第三节测验的信度想象:一把测量长度的米尺米尺尺身刻度
第一单元信度的概念信度的概念定义指标信度系数信度指数测量标准误
一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。——操作定义
误差error误差:实际观察值与客观真实值之差(1)系统误差(2)随机误差
系统误差系统误差:是与测验目的无关的如受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因引起的有一定倾向性的、恒定的、系统的、有规律的变化,又叫常定误差。在多次测验中不引起测量结果的变化,所以与信度无关,但影响效度。特点:观察值有系统性、方向性、周期性的偏离真值。
随机误差随机误差:排除上述误差后尚存的误差,受多种无法控制的因素的影响,又叫测量误差、偶然误差,是与测验目的无关的偶然因素引起的。与信度有关。特点:大小方向不一的随机变化。
信度只受随机误差的影响随机误差越大,信度越低。系统误差产生恒定效应,不影响信度。
二、信度的指标(三种表示法)(一)信度系数、信度指数(应用于比较不同的测验)信度系数=信度指数的平方(二)测量标准误(测量误差分数分布的标准差,是测量误差的指标,故可用以估计个人真分数)---P376(公式5-5)信度越高,标准误越小;信度越低,标准误越大。
第二单元信度评估的方法一、重测信度---再测法二、复本信度---等价法三、内部一致性信度四、评分者信度
一、重测信度使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数,叫重测信度,又称稳定性系数。条件:心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大变化。
一般是两周到四周较宜,间隔时间最好不超过六个月。时间太短——练习效应明显时间太长——身心发展与学习经验积累
二、复本信度以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数复本信度反映的是测验在内容上的等值性,故又称等值性系数。重测复本信度稳定与等值系数
三、内部一致性信度(一)分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度。在其他条件相同的情况下,测验越长,信度越高。因此分半法会低估作为整个测验时的信度,可通过公式修正。
主要代表测验内部所有题目之间的一致性。各测题得分相关高,测验即为同质;相反测验为异质。(二)同质性信度
四、评分者信度随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。实际上有多少误差的来源,便有多少估计信度的方法。
第三单元信度与测验分数的解释一、解释真分数与实得分数的相关二、确定信度可以接受的水平三、解释个人分数的意义四、比较不同测验分数的差异
一、解释真分数与实得分数的相关信度系数可解释为总方差中由真分数决定的比例。如rxx=0.90,如何解释?在极端的情况下,如有rxx=1.00,则表示完全没有测量误差,所有的变异均来自真实分数;若有rxx=0,则所有的变异和差别都反映的是测量误差。
二、确定信度可以接受的水平一般原则是:当rxx<0.70时,测验不能用于对个人做出评价或预测,而且不能作团体比较;当0.70≤rxx<0.85时,可用于团体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或作为。
三、解释个人分数的意义两个作用其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。人们一般采用95%的或然率(概率)水平,其置信区间为:(公式5-6)大约有95%的可能性真分数落在所得分±1.96Se的范围内,或有5%的可能性落在范围之外。----P380例子
四、比较不同测验分数的差异差异分数的标准误公式为:(公式5-7)甲被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88,那么其操作智商不显著高于言语智商—P380
第四单元影响信度的因素影响信度的因素样本特征测验长度测验难度特殊问题异质性平均能力水平速度测验分测验
一、样本特征一般而言,若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。(一)样本团体异质性的影响(二)样本团体平均能力水平的影响对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。如斯--比量表对年幼者和能力水平较低的人由于他们猜测较多,故信度较低。
二、测验长度一般来说,在一个测验中增加同质的题目,可以使信度提高。第一,测验越长,测验的测题取样或内容取样就越有代表性。第二,测验越长,被试的猜测因素影响就越小。增加测验长度的效果应遵循报酬递减率原则,有时反而会引起被试的疲劳和反感而降低可靠性。
三、测验难度没有简单的对应关系。若测验对整个团体太难或太易,会降低信度。若适用范围很广,则对高低水平两头的信度低。四、时间间隔(只影响重测、重测复本信度)以再测法或复本法求信度,两次测验相隔时间越短,记忆练习效应越明显,其信度系数越大;间隔时间越长,身心发展与学习经验积累会影响测验分数的意义,估计的信度降低
能够影响测验信度的因素包括:测验的长短样本团体的异质性两次测验的间隔时间√√√
第四节测验的效度效度的概念定义性质相对性连续性效度受信度制约
一、效度的定义效度:测量的与所要测量的心理特点之间的符合程度,或者简单地说是指一个心理测验的准确性。测验的效度除了受随机误差影响外,还受系统误差影响。信度高,效度不一定高;而效度高信度一定高。
二、效度的性质(一)效度具有相对性在评鉴测验的效度时,必须考虑其目的与功能。(二)效度具有连续性
信度和效度的关系一、信度是效度的必要而非充分条件二、效度是受信度制约的信度系数的平方根是效度系数的最高极限即信度系数一定不小于效度系数的平方某智力测验的效度系数为0.8,那么其信度为:A.0.42B.0.21C.0.88D.0.58
第二单元效度评估的方法美国心理学会在1974年所发行的《教育与心理测量之标准》一书中将效度分为三大类:即内容效度、构想效度和效标效度。效度评估方法内容效度效标效度对测验本身的分析测验间的相互比较效标效度的研究证明实验法和观察法证实构想效度专家判断法统计分析法经验推测法相关法区分法命中率法
一、内容效度(一)什么是内容效度内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。
(二)内容效度的评估方法1.专家判断法——最常用的方法请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。是逻辑分析的过程,又称“逻辑效度”。
为了使内容效度的确定过程更为客观,弥补不同专家对同一测验的判断可能不一致,可采用如下几个步骤:(1)定义好测验内容的总体范围(2)编制双向细目表(3)制定评定量表来测量测验的整个效度
2.统计分析法例如计算两个评分者之间评定的一致性---评分者的判断信度。两个测验复本上得分之相关再测法---比较前后二次测验的得分,T2显著大于T1,内容效度高。3.经验推测法
(三)内容效度的特性表面效度是由外行对测验作表面上的检查确定,看来好象测量什么。在编制测验时,表面效度是一个必须考虑的特性。例如,最高行为的测验要求有较高的表面效度,而典型行为测验却要求较低的表面效度。
二、构想效度(一)什么是构想效度构思效度,还有人叫结构效度。它主要涉及的是心理学的理论概念问题,指测验能够测量到理论上的构想或特质的程度,测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。
(二)构想效度的估计方法1.对测验本身的分析(通过研究测验的内部结构实现)测验的内容效度测验的内部一致性指标分析被试者对题目的反应特点
2.测验间的相互比较相容效度计算两种测验之间得分的相关,其中一个测验是有研究效度的,另一个是已有效度证据的成熟的测验,但两者测量的是同一种心理特质。假如相关高,说明新测验所测量的特质确实是老测验所反映的特质或行为,这种方法叫相容效度区分效度因素分析法
3.效标效度的研究证明4.实验法和观察法证实
三、效标效度(一)什么是效标效度---实证效度被预测的行为作为检验效度的标准,简称效标。根据效标资料是否与测验分数同时获得,又可分为同时效度(诊断评估现状)和预测效度(预测将来结果)两类。
一个好的效标必须具备以下条件:(1)效标必须能最有效地反映测验的目标,即效标测量本身必须有效;(2)效标必须具有较高的信度,稳定可靠,不随时间等因素而变化;(3)效标可以客观地加以测量,可用数据或等级来表示;(4)效标测量的方法简单,省时省力,经济实用。
(二)效标效度的评估方法1.相关法:评估效标效度最常用的方法积差相关法:计算效度系数最常用的方法。点二列相关二列相关贾斯朋(Juspen)多系列相关2.区分法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。
3.命中率法:正确的预测(决定)为命中,命中的情况包括:预测成功而且实际也成功预测失败且实际上也失败总命中率:正命中率
第三单元效度的功能
一、预测误差效度系数的意义常常以决定性系数来表示,决定性系数意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差的比例,或测验分数正确预测的比例。估计的标准误(公式5-10)预测误差大小的估计值-对真分数估计的误差大小即决定系数(效度系数的平方)即效标成绩的标准差
二、预测效标分数(公式5-11)是预测的效标分数,根据提供的测验参数分别计算出、
三、预测效率指数K=无关系数E=100(1-K)E是预测效率的指标,大小表明使用测验比盲目猜测能减少多少误差如果一个测验的效度系数为0.80,则K=60,E=40,这表明由于该测验的使用,使得我们在估计被试的效标分数时减少了40%的误差。
已知某测验的效度系数为0.7,下列说法正确的是:(A)该测验能够作出正确预测的比例为0.49√(B)该测验能够作出正确预测的比例为0.70(C)该测验无法作出正确预测的比例为0.51√(D)该测验无法作出正确预测的比例为0.30××
第四单元影响效度的因素影响效度的因素测验本身的因素测验实施中的干扰因素样本团体的性质效标的性质主试的影响被试的影响样本团体的异质性干涉变量
一、测验本身的因素1.测验材料必须对整个内容具有代表性;2.测题设计时应尽量避免容易引起误差的题型(如是非题);3.测题难度要适中,具有较高的区分度;4.测验长度要恰当,即要有一定的测题量;5.测题的排列按先易后难顺序。
二、测验实施中的干扰因素(一)主试的影响因素测验实施中因素测验情景其他干扰因素(二)被试的影响因素测验时受测者的兴趣、动机、情绪、身心状态等
三、样本团体的性质(一)样本团体的异质性如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度就越低;(二)干涉变量年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。由于这些特征的影响,使得测验对于不同的团体具有不同的预测能力,故测量学上称这些特征为干涉变量。如:韦克斯勒智力量表对不同学习阶段的预测效度的差异并未考虑以上的干涉变量。
美国心理学家吉赛利(LE·Ghiselli)提出的如何找出干涉变量的一套方法1.用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相比较,获得差异分数D。如果D的绝对值很大,说明测验中可能存在干涉变量。2.根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量。3.对于预测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体,获得的测验效度会有所提高。
四、效标的性质皮尔逊积差相关系数的前题是假设两个变量的关系是线性的分布。测验分数与效标之间存在非线性关系下运用积差相关法估计的效度会降低效标测量的可靠性(即效标测量的信度)也影响效度估计。
第五节项目分析测验的项目分析包括定性分析和定量分析两个方面。定性分析包括考虑内容效度,题目编写的恰当性和有效性等;定量分析主要是指对题目难度和区分度等进行分析。
第一单元项目的难度难度定义难度水平的确定二分法记分的项目非二分记分的项目计算方法项目的难度测验的难度
一、定义难度:指项目的难易程度。在非能力测验(如人格测验)中,类似的指标是“通俗性”难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示:(公式5-14)在200名学生中,答对某项目的人数为120人,则该项目的难度为0.6通过人数越多(即P值越大),难度越低;
二、计算方法(一)二分法记分的项目(公式5-15)在370名被试者中,选为高分组和低分组的被试者各有100人,其中高分组有70人答对第1题,低分组有40人答对第1题,则第1题的难度为0.55
(二)非二分记分的项目(公式5-16)数学测验的第7题满分为15分,该题考生的平均得分为9.6分,则该题的难度为0.64
(一)项目的难度选择题目时,最好使试题的平均难度接近0.50,而各题难度在0.50士0.20之间。选拔性测验其难度应与录取率相当选择题的P值应大于概率水平(二)测验的难度如果被试样本具有代表性,对于中等难度的测验,其测验总分应该接近常态分配。正负偏态三、难度水平的确定
第二单元项目的区分度区分度定义鉴别指数相关法计算方法区分信度与难度的关系
一、定义项目区分度,也叫鉴别力,是指测验项目对被试的心理特性的区分能力。
二、计算方法(一)鉴别指数主要步骤如下:1.按测验总分高低排列答卷;2.确定高分与低分组,每一组取答卷总数的27%;3.分别计算高分组与低分组在该项目上的通过率或得分率;4.按下列公式估计出项目的鉴别指数;(公式5-17)
项目鉴别指数与项目评价---熟记鉴别指数项目评价0.4以上很好0.30-0.39良好,修改后更好0.20-0.29尚可,但需修改0.19以下差,必须淘汰
(二)相关法计算区分度最常用的方法是相关法,以某一项目分数与效标成绩的相关作为区分度指标。相关越高,项目越具区分功能。1.点二列相关:点二列相关适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。2.二列相关:二列相关适用于两个连续变量,但其中一个变量被人为分成两类。3.Ф相关法:Ф相关法适用于两个变量均为二分称名变量
三、区分度与难度的关系一般来说,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。项目难度的分布也以常态分布为好,这样不仅能保证多数项目具有较高的区分度,而且可以保证整个测验对被试具有较高的区分能力
第六节测验编制的一般程序测验目标分析测题编写测验编排和组织测验对象测验用途测验目标显示性预测性工作分析定义概念具体内容搜集资料命题原则编题要领合成测验预测与项目分析信度和效度已出版标准测验理论和专家经验临床观察和记录内容方面文字方面理解方面社会敏感性选择题是非题简答题操作题常模制订编写指导手册选择题型审定试题编排测题
第一单元测验的目标分析一、测验的对象二、测验的用途三、测验的目标
一、测验的对象只有对受测者的年龄、受教育程度和社会经济以及阅读水平等心中有数,编制测验时才能有的放矢。
二、测验的用途根据显示--描述诊断、预测--选拔预测的用途,测验分为二类:(一)显示性测验显示性测验是指测验题目和所要测量的心理特征相似的测验。古德纳夫曾经在显示性测验内部又加以区分,将其分为样本测验和标记测验。(二)预测性测验预测没有被测量的行为的测验二类测验有时不能绝对化
三、测验的目标心理测验的目标是指编制的测验是测什么的,即用来测量什么样的心理变量或行为特征。分三种情况:(一)工作分析包括两个步骤第一是确定哪些心理特征和行为可以使要预测的活动达到成功(如美术设计)第二是建立衡量被试是否成功的标准(二)对特定概念下定义(如Guilford测验)(三)确定测验的具体内容
第二单元测题的编写
一、搜集资科题目的来源可分为三个方面:(一)已出版的标准测验(二)理论和专家的经验(三)临床观察和记录(经验法)
二、命题的一般原则从内容、文字、理解和社会敏感性四个方面来考虑(一)内容方面内容符合测验的目的避免贪多而乱出题目内容取样要有代表性题目间内容相互独立(二)文字方面使用准确的当代语言语句要简明扼要排除与答案无关的因素最好是一句话说明一个概念
(三)理解方面有确切的答案除创造力测验和人格测验外不应具有引起争议的可能内容不要超出受测团体的知识水平和理解能力格式要不被人误解
(四)社会敏感性方面菲力普(Phillips,D.L.)列举了几条策略值得参考:1.命题时假定被试具有某种行为,形成“事实”倾向。2.命题时假定规范不一致。3.指出该行为是常见的,虽然是违规的。
三、测题的编制要领可以分为两大类:提供型(supply)和选择型(selection)题目。
(一)选择题由两部分构成:题干和选项对选择题,我们既要编好题干,也要编好选项,有几点必须注意:1.题干所提的问题必须明确2.选项切忌冗长,要简明扼要。3.每题只给一个正确答案-智力成就学绩测验4.各选项长度应相等5.避免题干用词与选项用词一致6.选项最好用同一形式
(二)是非题编制是非题应注意:1.内容应以有意义的概念、事实或基本原则为基础2.每道题只能包含一个概念-避免“半对半错”3.尽量避免否定的叙述,尤其是要避免用双重否定的叙述4.若是表达意见的题目,最好说明意见的来源和根据5.“是”、“非”题的数目应有适应比例,基本相等
(三)简答题编制简答题有三条原则:l.宜用问句形式2.如果是填充形式,空格不宜太多3.每题应只有一个正确答案,对可能出现的不完整答案,事先要有评分标准。
(四)操作题编制操作测验有四条原则:1.明确所要测量的目标,并将其操作化。2.尽量选择真实性程度较高的项目。3.指导语要简明扼要4.制定评分标准,确定计分方法
第三单元测验的编排和组织
一、合成测验(一)选择与审定试题1.选择试题形式在选择题目形式时,需要考虑以下几点:(1)测验的目的和材料的性质(2)接受测验的团体的特点(3)各种实际因素
2.审定题目审定试题要注意以下几个问题:(1)题目的范围应与测验计划所列的内容技能双向细目表相一致(2)题目的数量要比最后所需的数目多一倍至几倍(3)题目的难度必须符合测验目的的需要。(4)题目的说明必须清楚明白。
(二)测题的编排测验编排的一般原则:1.测题的难度排列宜逐步上升。2.尽可能将同类型的测题组合在一起。3.注意根据各种类型测题本身的特点排列题目。两种常见的排列方式。1.并列直进式:全测验-分测验-易难题目2.混合螺旋式:难度层次-不同性质易难题目
二、预测与项目分析(一)预测预测应注意以下几个问题:1.预测对象应取自将来正式测验准备应用的群体。2.预测的实施过程与情境应力求与将来正式测验时的情况相近似。3.预测的时限可稍宽一些,最好使每个被试都能将题目做完。4.在预测过程中,应对被试的反应情形随时加以记录(二)项目分析
三、信度和效度考察(一)信度(二)效度
四、常模制订
五、编写指导手册测验指导手册的内容有:1.测验的目的和功用2.测验编制的理论背景3.如何实施测验的说明4.测验的标准答案和记分标准5.常模资料6.测验的基本特征
第七节心理测验的使用第一单元主试的资格
一、知识结构主试者的知识结构是指开展心理测验工作所必须具备的基础知识和与专业相关的知识。
二、专业理论知识和专业技能(一)专业理论知识包括要求主试者对心理测验的特点和性质、作用和局限性有清楚的认识;了解测验的基本特征,如信度、效度、难度和区分度等心理测量学指标;熟悉保证心理测验标准化的必要性等。(二)专业技能通过接受严格、系统的心理测验专业训练,具备实际操作心理测验的专业技能和经验,熟悉有关测验的内容、适用范围、测验程序和记分方法等。
三、职业道德(一)测验的保密和控制使用(二)测验中个人隐私的保护
第二单元测验的选择选择测验必须注意几个方面。一、所选测验必须适合测量的目的二、所选测验必须符合心理测量学的要求三、应使用重新标准化的测验,防止版本过时四、不可直接引用国外直译的测验
第三单元测验前的准备工作
一、测验前的准备工作准备工作主要包括以下几个方面。(一)预告测验(二)准备测验材料(三)熟悉测验指导语(四)熟悉测验的具体程序
二、测验中主试的职责应按照指导语的要求实施测验,以中性方式澄清被试询问测验前不讲太多无关的话对于被试的反应,主试不应做出点头、皱眉、摇头等暗示性反应,保持和蔼、微笑态度,不应给被试看见记分对特殊问题要有心理准备
三、建立协调关系这种关系指的是主试和被试之间一种友好的、合作的、能促使被试最大限度地做好测验的一种关系,叫协调关系。不同年龄阶段的对象,步骤应有所不同。
第四单元测验实施的程序及要素
一、指导语(一)对被试的指导语一般由以下内容组成:1.如何选择反应形式(划“√”、口答、书写等);2.如何记录这些反应(答卷纸、录音、录像等);3.时间限制;4.如果不能确定正确反应时该如何操作(是否允许猜测等);5.例题6.有时告知被试测验目的。(二)对主试的指导语
二、时限大多数典型行为测验是不受时间限制的但在最高作为测验中,速度是需要考虑的重要因素之一。
三、测验的环境条件对于测验的环境条件首先必须完全遵从测验手册的要求;其次是记录下任何意外的测验环境因素;在解释测验结果时也必须考虑这一因素。
第五单元被试误差及控制方法
一、应试技巧与统习效应(一)应试技巧“测验油子”:能觉察正确答案与错误答案的细小差别,懂得合理分配时间,而且常常是各种题型都见过(二)练习效应具体表现为:教育背景较差、经验较少或智力较高者着重速度的测验重复实施相同的测验两次测验之间的时距越大,练习效应越小一般的练习效应,约在1/5个标准差以下,且仅限于第一、二次重测要设法使每个被试对测验步骤和所需技巧有相同熟悉程度,并提高测验题目的编制水平。
二、动机与焦虑因素(一)应试动机在测量成就、智力和能力倾向等变量时,只有被试动机强烈,才可能尽力回答,取得好成绩。(二)测验焦虑适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而提高智力测验、成就测验和能力倾向测验的成绩。过高和没有焦虑不利于测验成绩的发挥。
测验焦虑会受到下列因素的影响:对自己能力没有把握的人,测验焦虑较高;抱负水平过高,求胜心切的人,测验焦虑较高缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑;测验成绩与被试的关系重大,或被试受到的压力过大,容易使其产生测验焦虑;接受测验的次数;缓解焦虑:教学、辅导;熟悉测验程序;解释;鼓励
三、反应定势反应定势亦称反应风格(responsesetsorstyles),是指独立于测验内容的反应倾向,即由于每个人回答问题的习惯不同,而使能力相同的被试得到不同的测验分数。
几种常见的反应定势:(一)求“快”与求“精确”的反应定势两者在速度测验和难度测验中适应性存在差异除非“反应速度”本身即为重要的研究目标,否则应让被试有充分的时间反应,同时应该注明每题的答题时间,以减少求“快”与求“精确”定势的影响。(二)喜好正面叙述的反应定势在编制是非题时,“是”“否”题大致相等或答“否”题略多,是控制肯定定势的有效方法。
(三)喜好特殊位置的反应定势正确答案的位置在整个测验中出现在各位置的概率相等,就可以控制这种位置定势。(四)喜好较长选项的反应定势在编制测验时,只要我们尽量使选项的长度一致,就不难避免这类问题。(五)猜测的反应定势
第六单元测验的评分
一、原始分数的获得为使评分尽可能客观,有三点要求。1.及时而清楚地记录反应情况。2.要有一张标准答案或正确反应的表格,即记分键。3.将被试的反应和记分键比较,对反应进行分类。
二、原始分数的转换
第七单元测验结果的报告
一、测验分数的综合分析(一)应根据心理测验的特点进行分析。应该永远把测验分数视为一个范围而不是一个确定的点。如在韦氏智力测验中,通常是用测得的IQ值加减5(85%--90%的可信限水平)的方法判断IQ值的波动范围
(二)不能把分数绝对化,更不能仅仅根据一次测验的结果轻易下结论。任何测验分数都是个体遗传特征、测验前的学习经验以及测验情境的函数。1.为了能对测验分数做出有意义的解释,必须将个人在测验前的经历考虑在内。2.测验情境也是一个需要考虑的因素。(三)为了对测验分数做出确切的解释,只有常模资料是不够的,还必须有测验的信度和效度资料。在解释测验分数时,一定要依据从最相近的团体、最匹配的情境中获得的资料。
(四)对于来自不同测验的分数不能直接加以比较。将两种测验原始分数转化成百分等级,以此为中介,做出一个等价的原始分数表。用相同的标准分数作等值的基础,此种方法叫线性等值。
二、报告分数的具体建议在报告分数时要注意以下几个问题:(一)应告诉的是测验分数的解释和建议。(二)避免使用专业术语。(三)要保证当事人知道这个测验测量或预测什么(四)要使当事人知道他是和什么团体在进行比较(五)要使当事人知道如何运用他的分数(六)要考虑测验分数将给当事人带来什么心理影响(七)要让当事人积极参与测验分数的解释
谢谢!