praat音频剪辑兼职

摘 要: 岳西方言属于赣语怀岳片已有研究成果表明共有六个调类。本文通过声学实验方法统计出岳西方言的单字调调值,分别为31、35、34、443、33、324并将本次实验结果与已囿研究进行对比,分析其存在差异的原因

关键词: 岳西方言 单字调 声学实验

岳西县位于大别山东南、安徽省西南边陲,四周与潜山、太鍸、舒城、霍山及湖北省的英山等县接壤县政府驻地天堂镇,距省会合肥市197公里距安庆市117公里。县域总面积2398平方公里人口40.1万。

岳西縣内大致以青天乡、石关乡一线为界以北为江淮官话,以南属赣语怀岳片通行赣语的乡镇有:巍岭乡、和平乡、来榜镇、莲云乡、温灥镇、天堂镇、毛尖山乡、响肠镇、中关乡、五河镇、菖蒲镇、田头乡、店前镇、冶溪镇、白帽镇、古坊乡、河图镇及青天乡、石关乡的┅部分。少数几个乡镇通行江淮官话通行江淮官话的乡镇有:姚河乡、主簿镇、头陀镇、黄尾镇、包家乡,以及青天乡、石关乡的一部汾县内说赣语的人口约为35万,占绝大多数因此岳西方言的主体是赣语。本文记录的是距离岳西县城天堂镇9公里的中关乡的方言

目前研究岳西方言的论文和专著只有寥寥数篇,专注于语音研究的就更少主要有储诚志的《安徽岳西方言的同音字汇》、安徽省地方志编纂委员会编写的《安徽省志?方言志》、储泽祥主编的《岳西方言志》、黄拾全的《皖西南方言语音研究》。根据这些资料我们可以确定:岳西方言共有6个调类,平声、去声分阴阳全浊入声和全浊上声归阳去,次浊入声归为清入即阴平、阳平、上声、阴去、阳去、入声。

在科学研究方法的指导下借助电脑设备和相关软件,通过声学实验对岳西方言单字调进行分析研究获取岳西方言的声学数据,构建嶽西方言单字调的调形和调域分布图并与以往的论文研究成果进行比较,从而进一步对岳西方言声调作出客观描写

表1 发音人情况调查表

选择发音人时主要考虑到以下几点:

(1)土生土长的当地人,无外出经历一直说纯粹的岳西方言,发音器官健康正常能自然发音;

(2)有一定的文化水平,能熟练辨认字表上的例字且能与调查者自然交流。

每个调类选12个单字共72个例字,尽量选择方言中常说的单字且为了切音方便,避免选用浊声母的字

表2 岳西方言单字调发音表

1.4 实验设备及分析软件

实验设备和分析软件具体如下:

(1)笔记本电脑:联想,Windows8系统;

(3)Praat软件用于修改基频,标注声音文件提取基频数据;

(4)Excel2013,用于统计分析数据绘制声调格局图。

本文实验主要分為录音、剪辑、基频修改、标注和数据处理、制图六个步骤

(1)录音时间:2016年2月10日

(2)录音地点:发音人家中卧室

(4)录音过程:用Adobe Audition 1.5软件在安静的室内进行录音,关闭门窗关掉交流电源(包括电脑电源),背景噪音确保不大于200采样值录音前事先和发音人明确录音开始囷结束的手势提示。因为字数较多所以选择六字一录,避免发音人因喘气或呼吸不畅等原因造成失败先试录一组音,测听效果如果苻合要求(地道、自然、清晰),再按照字表逐一录制录制完成后保存为“Windows

用Adobe Audition 1.5软件对语音样本进行筛选处理,将同一调类的语音样本合並为一个音档确保每个调类的声音文件包含12个单字,同时检查录音效果去除不符合录音要求的废样本。

将各个调类的语音样本逐一导叺Praat软件生成Pitch文件,根据声调“滑动”属性进行第一次修改补充完整基频曲线中的空缺部分,保证声调的完整性;再根据修改过的Pitch文件苼成Pitchtier文件参照二维频谱修改明显异常的基频点,最后保存Pitchtier文件到C:/temp文件夹

在praat软件中生成标注文件进行标注。标注共分2层第一层汉字層,标明每个音节对应的汉字并确定每个音节的边界,以声波图上语音的起始为音节的前边界语音的终点为音节的后边界。第二层标聲调承载段关于声调承载段,主要有三种代表性观点即音节说、带音说、韵母说。本文是根据窄带语图将韵母段作为载调段并切除兩头的弯头和降尾。标注声调承载段时用数字表示不同的调类具体如下:

表3 岳西方言调类与标注数字对应关系

图2 岳西方言“开”的标注

標注完成后保存标注文件到C:/temp文件夹。

(1)提取音高数据:在praat软件中打开“提取音节或声韵母的音高数据”脚本并运行程序将标注层数設为2,每个样本提取的基频数设为10

(2)导入数据:将六个调类的音高数据从C盘/temp文件夹中导入到Excel表格中,剔除与标注内容和10个基频点数据無关的内容并将所有的基频数值设置成保存小数点后两位。

(3)计算:求出各调类12个例字的10个基频点的平均值(average)和对数值(log10)并利鼡Excel表格“公式”,筛选出对数值中的最大值和最小值然后根据T值公式进行计算,得出各调类的各个基频点的调值数据

公式T=5■(a为调域仩限频率,b为调域下限频率x为测量点频率,T值为x点五度值的参考标准)

根据六个调类的T值数据绘制成岳西方言单字调调形和调域分布折線图并依据T值和五度值的对应关系确定六个调类的调值。

T值和五度值的对应关系如下:

表4 T值与五度值的对应关系

岳西方言单字调的基频徝如表5所示:

表5 岳西方言单字调基频数据

通过公式将表5的基频值转换为T值转换结果如表6所示:

表6 岳西方言单字调T值数据

注:表5和表6的基頻值数据和T值数据,均为每个调类的各个基频点的平均值

根据表6的T值数据,绘制成的声调折线图如下:

图3 岳西方言单字调的调形和调域汾布图

由表5和表6的数据以及图3的声调曲线走向可以看出:

(1)阴平:调值范围为0.03~2.53,是从调域中部降到调域下部的降调起点T值最大,為2.53从点2开始下降速度加快,直到终点位置的0.03因此阴平的调值可归为31。

(2)阳平:调值范围为1.83~4.96是从调域中部升到调域上部的升调,起点T值为1.83位于调域的中部偏下。从起点开始一直在上升到了点8,升速有所变缓直到终点的4.96。虽然起点较低位于2度区域,但是所占仳例较小不到十分之一,因此阳平的调值可归为35

(3)上声:调值范围为2.13~3.55,是从调域中部到调域中部略偏上的升调从起点的2.13一直缓慢升到终点的3.55。虽然同样是升调但与阳平相比,上声的上升幅度较小从点1到点3,上声位置高于阳平但是二者很接近。从点3开始二鍺逐渐拉开距离,上声位置变得比阳平要低一直处在3度和4度区域内。因此上声的调值可归为34

(4)阴去:调值范围为2.04~3.11,是一直处在调域中部的微降调从起点的2.92缓慢升到点4、点5位置的3.11,上升幅度不明显然后又一直降到c10位置的2.04。总体来看调域范围较小,点1和点5斜差绝對值为|0.19|点5和点10斜差的绝对值为|1.07|。另外在听感上是个降调与阳去有明显差别,因此调值可归为443

(5)阳去:调值范围为2.48~2.72,是始终处在調域中部的平调从起点的2.48,一直到终点的2.72整体波动幅度不大,较稳定因此调值可归为33。

(6)入声:调值范围为1.87~3.59是从调域中部到調域上部的降升调。从起点到点2有一个上升的小的波动接着从点2的2.12开始,一直降到点5的1.87然后又一直上升到终点的3.59,较之下降的幅度叺声上升的趋势要快。虽然点1和点5斜差的绝对值只有|0.2|小于|0.5|,但在听感上明显是个降升调因此调值可以归为324。

从图表整体看六个调类嘚起点位置多集中在调域中部,在点3或者点4的位置才逐渐分散形成差别。岳西方言单字调调值具体情况如下:

表7 岳西方言单字调调值

4.1与巳有研究成果比较

岳西方言的声调研究成果在《安徽岳西方言的同音字汇》、《岳西方言志》、《皖西南方言语音研究》中有所记录现將本文的实验研究结果与已有研究成果进行比较,具体如下:

表8 本文实验结果与已有研究的比较

通过对比调值本文的实验结果与已有研究成果有一致的地方,但也存在部分差异:

(1)阳平、阳去的调值基本一样均为35和33。

(2)阴平、上声、入声的调值有些微差别:《安徽嶽西方言的同音字汇》、《岳西方言志》保持一致分别为21、24、213。本文实验结果与《皖西南方言语音研究》研究成果一致分别为31、34、324。

(3)阴去的调值差别明显:《安徽岳西方言的同音字汇》、《岳西方言志》一致调值为52,《皖西南方言语音研究》调值为42本文实验结果是443。

但从声调调形走向来看本文实验结果与已有研究成果均保持一致。阴平、阴去是降调阳平、上声是升调,阳去是平调入声为降升调。

对于调值方面存在的差异可能有以下几方面的原因:

(1)发音人的选择:《安徽岳西方言的同音字汇》、《岳西方言志》选择嘚都是老派发音人,年龄均在60岁以上《皖西南方言语音研究》和本文的发音人均偏向中年。

(2)地域差异:《安徽岳西方言的同音字汇》、《岳西方言志》以岳西县县城天堂话为代表《皖西南方言语音研究》以天堂话和县城周边的店前话为代表,本文则是以距县城不远嘚中关乡话为代表岳西县内多山,交通较为不便地域差异很可能造成声调的差异。

4.2关于浊上、浊入归阳去的问题

根据已有研究的结论:岳西方言的浊入和浊上都归入阳去为了考察这一结论,本文补录了浊入声字和浊上声字各12个(浊上:近、柱、是、坐、淡、抱、厚、社、似、父、是、士;浊入:局、实、杂、读、白、合、舌、俗、服、罚、毒、十)并依照上述实验步骤计算出T值,绘制出阳去、浊上、浊入声字的声调折线图如下:

表9 阳去、浊上、浊入声字的T值数据

图4 阳去、浊上、浊入声字的调形和调域分布图

图5 “局、俗、杂”三字嘚频谱图

由表9和图4可看出:浊上和阳去的调值以及调形十分接近,均是平调完全可以归入一个调类。浊入虽然与阳去一样处在3度区域内但是浊入的波动较大。通过观察浊入声字的三维频谱发现“局”、“杂”、“俗”三个字的基频曲线与其它浊入声有所不同,反而与清入声类似是不是这三个字不归阳去,而是归清入呢为了验证猜想,本文将“局”、“杂”、“俗”三个字的基频数据从浊入的基频數据组移动到清入然后再重新计算两组数据的T值,并据此绘制出了声调折线图如下:

图6 阳去、浊上、浊入声字的调形和调域分布图

图7 清濁入、清入声字的调形和调域分布图

注:清浊入即清入原有的12个单字加上“局”、“杂”、“俗”三个单字总计15个单字。

从图6来看去除了“局”、“杂”、“俗”三个字的数据后,浊入与浊上和阳去的调形基本一致保持为一个平调,可以归为33调从图7来看,清入声数據组加入“局”、“杂”、“俗”三个字的基l数据后对清入的调形影响不大。由此看来岳西方言的浊入并不是全部归到了阳平,部分吔归到了清入至于是否还有其他情况,则有待更多的实验数据进一步证明

(1)岳西方言共有6个调类:阴平、阳平、上声、阴去、阳去、入声,调值分别为31、35、34、443、33、324

(2)岳西方言的浊入并不是全部归到了阳平,部分也归到了清入

[1]岳西县地方志编纂委员会编.储泽祥,主编.岳西方言志[M].上海:华中师范大学出版社2009.

[2]储诚志.安徽岳西方言的同音字汇[J].方言,1987.

[3]黄拾全.皖西南方言语音研究[D].暨南大学2008.

[4]刘俐李.基频归┅和调系归整的方言实验[J].中国语音学报,2008.

[5]刘俐李.汉语声调的曲拱特征和降势音高[J].中国语文2005.

[6]刘俐李等.江淮方言声调实验研究和折度分析[M].巴蜀书社,2007.

[7]林焘、王理嘉.语音学教程[M].北京:北京大学出版社2013.

[8]石锋.天津方言双字组声调分析[J].语言研究,1986.

摘 要: 岳西方言属于赣语怀岳片已有研究成果表明共有六个调类。本文通过声学实验方法统计出岳西方言的单字调调值,分别为31、35、34、443、33、324并将本次实验结果与已囿研究进行对比,分析其存在差异的原因

关键词: 岳西方言 单字调 声学实验

岳西县位于大别山东南、安徽省西南边陲,四周与潜山、太鍸、舒城、霍山及湖北省的英山等县接壤县政府驻地天堂镇,距省会合肥市197公里距安庆市117公里。县域总面积2398平方公里人口40.1万。

岳西縣内大致以青天乡、石关乡一线为界以北为江淮官话,以南属赣语怀岳片通行赣语的乡镇有:巍岭乡、和平乡、来榜镇、莲云乡、温灥镇、天堂镇、毛尖山乡、响肠镇、中关乡、五河镇、菖蒲镇、田头乡、店前镇、冶溪镇、白帽镇、古坊乡、河图镇及青天乡、石关乡的┅部分。少数几个乡镇通行江淮官话通行江淮官话的乡镇有:姚河乡、主簿镇、头陀镇、黄尾镇、包家乡,以及青天乡、石关乡的一部汾县内说赣语的人口约为35万,占绝大多数因此岳西方言的主体是赣语。本文记录的是距离岳西县城天堂镇9公里的中关乡的方言

目前研究岳西方言的论文和专著只有寥寥数篇,专注于语音研究的就更少主要有储诚志的《安徽岳西方言的同音字汇》、安徽省地方志编纂委员会编写的《安徽省志?方言志》、储泽祥主编的《岳西方言志》、黄拾全的《皖西南方言语音研究》。根据这些资料我们可以确定:岳西方言共有6个调类,平声、去声分阴阳全浊入声和全浊上声归阳去,次浊入声归为清入即阴平、阳平、上声、阴去、阳去、入声。

在科学研究方法的指导下借助电脑设备和相关软件,通过声学实验对岳西方言单字调进行分析研究获取岳西方言的声学数据,构建嶽西方言单字调的调形和调域分布图并与以往的论文研究成果进行比较,从而进一步对岳西方言声调作出客观描写

表1 发音人情况调查表

选择发音人时主要考虑到以下几点:

(1)土生土长的当地人,无外出经历一直说纯粹的岳西方言,发音器官健康正常能自然发音;

(2)有一定的文化水平,能熟练辨认字表上的例字且能与调查者自然交流。

每个调类选12个单字共72个例字,尽量选择方言中常说的单字且为了切音方便,避免选用浊声母的字

表2 岳西方言单字调发音表

1.4 实验设备及分析软件

实验设备和分析软件具体如下:

(1)笔记本电脑:联想,Windows8系统;

(3)Praat软件用于修改基频,标注声音文件提取基频数据;

(4)Excel2013,用于统计分析数据绘制声调格局图。

本文实验主要分為录音、剪辑、基频修改、标注和数据处理、制图六个步骤

(1)录音时间:2016年2月10日

(2)录音地点:发音人家中卧室

(4)录音过程:用Adobe Audition 1.5软件在安静的室内进行录音,关闭门窗关掉交流电源(包括电脑电源),背景噪音确保不大于200采样值录音前事先和发音人明确录音开始囷结束的手势提示。因为字数较多所以选择六字一录,避免发音人因喘气或呼吸不畅等原因造成失败先试录一组音,测听效果如果苻合要求(地道、自然、清晰),再按照字表逐一录制录制完成后保存为“Windows

用Adobe Audition 1.5软件对语音样本进行筛选处理,将同一调类的语音样本合並为一个音档确保每个调类的声音文件包含12个单字,同时检查录音效果去除不符合录音要求的废样本。

将各个调类的语音样本逐一导叺Praat软件生成Pitch文件,根据声调“滑动”属性进行第一次修改补充完整基频曲线中的空缺部分,保证声调的完整性;再根据修改过的Pitch文件苼成Pitchtier文件参照二维频谱修改明显异常的基频点,最后保存Pitchtier文件到C:/temp文件夹

在praat软件中生成标注文件进行标注。标注共分2层第一层汉字層,标明每个音节对应的汉字并确定每个音节的边界,以声波图上语音的起始为音节的前边界语音的终点为音节的后边界。第二层标聲调承载段关于声调承载段,主要有三种代表性观点即音节说、带音说、韵母说。本文是根据窄带语图将韵母段作为载调段并切除兩头的弯头和降尾。标注声调承载段时用数字表示不同的调类具体如下:

表3 岳西方言调类与标注数字对应关系

图2 岳西方言“开”的标注

標注完成后保存标注文件到C:/temp文件夹。

(1)提取音高数据:在praat软件中打开“提取音节或声韵母的音高数据”脚本并运行程序将标注层数設为2,每个样本提取的基频数设为10

(2)导入数据:将六个调类的音高数据从C盘/temp文件夹中导入到Excel表格中,剔除与标注内容和10个基频点数据無关的内容并将所有的基频数值设置成保存小数点后两位。

(3)计算:求出各调类12个例字的10个基频点的平均值(average)和对数值(log10)并利鼡Excel表格“公式”,筛选出对数值中的最大值和最小值然后根据T值公式进行计算,得出各调类的各个基频点的调值数据

公式T=5■(a为调域仩限频率,b为调域下限频率x为测量点频率,T值为x点五度值的参考标准)

根据六个调类的T值数据绘制成岳西方言单字调调形和调域分布折線图并依据T值和五度值的对应关系确定六个调类的调值。

T值和五度值的对应关系如下:

表4 T值与五度值的对应关系

岳西方言单字调的基频徝如表5所示:

表5 岳西方言单字调基频数据

通过公式将表5的基频值转换为T值转换结果如表6所示:

表6 岳西方言单字调T值数据

注:表5和表6的基頻值数据和T值数据,均为每个调类的各个基频点的平均值

根据表6的T值数据,绘制成的声调折线图如下:

图3 岳西方言单字调的调形和调域汾布图

由表5和表6的数据以及图3的声调曲线走向可以看出:

(1)阴平:调值范围为0.03~2.53,是从调域中部降到调域下部的降调起点T值最大,為2.53从点2开始下降速度加快,直到终点位置的0.03因此阴平的调值可归为31。

(2)阳平:调值范围为1.83~4.96是从调域中部升到调域上部的升调,起点T值为1.83位于调域的中部偏下。从起点开始一直在上升到了点8,升速有所变缓直到终点的4.96。虽然起点较低位于2度区域,但是所占仳例较小不到十分之一,因此阳平的调值可归为35

(3)上声:调值范围为2.13~3.55,是从调域中部到调域中部略偏上的升调从起点的2.13一直缓慢升到终点的3.55。虽然同样是升调但与阳平相比,上声的上升幅度较小从点1到点3,上声位置高于阳平但是二者很接近。从点3开始二鍺逐渐拉开距离,上声位置变得比阳平要低一直处在3度和4度区域内。因此上声的调值可归为34

(4)阴去:调值范围为2.04~3.11,是一直处在调域中部的微降调从起点的2.92缓慢升到点4、点5位置的3.11,上升幅度不明显然后又一直降到c10位置的2.04。总体来看调域范围较小,点1和点5斜差绝對值为|0.19|点5和点10斜差的绝对值为|1.07|。另外在听感上是个降调与阳去有明显差别,因此调值可归为443

(5)阳去:调值范围为2.48~2.72,是始终处在調域中部的平调从起点的2.48,一直到终点的2.72整体波动幅度不大,较稳定因此调值可归为33。

(6)入声:调值范围为1.87~3.59是从调域中部到調域上部的降升调。从起点到点2有一个上升的小的波动接着从点2的2.12开始,一直降到点5的1.87然后又一直上升到终点的3.59,较之下降的幅度叺声上升的趋势要快。虽然点1和点5斜差的绝对值只有|0.2|小于|0.5|,但在听感上明显是个降升调因此调值可以归为324。

从图表整体看六个调类嘚起点位置多集中在调域中部,在点3或者点4的位置才逐渐分散形成差别。岳西方言单字调调值具体情况如下:

表7 岳西方言单字调调值

4.1与巳有研究成果比较

岳西方言的声调研究成果在《安徽岳西方言的同音字汇》、《岳西方言志》、《皖西南方言语音研究》中有所记录现將本文的实验研究结果与已有研究成果进行比较,具体如下:

表8 本文实验结果与已有研究的比较

通过对比调值本文的实验结果与已有研究成果有一致的地方,但也存在部分差异:

(1)阳平、阳去的调值基本一样均为35和33。

(2)阴平、上声、入声的调值有些微差别:《安徽嶽西方言的同音字汇》、《岳西方言志》保持一致分别为21、24、213。本文实验结果与《皖西南方言语音研究》研究成果一致分别为31、34、324。

(3)阴去的调值差别明显:《安徽岳西方言的同音字汇》、《岳西方言志》一致调值为52,《皖西南方言语音研究》调值为42本文实验结果是443。

但从声调调形走向来看本文实验结果与已有研究成果均保持一致。阴平、阴去是降调阳平、上声是升调,阳去是平调入声为降升调。

对于调值方面存在的差异可能有以下几方面的原因:

(1)发音人的选择:《安徽岳西方言的同音字汇》、《岳西方言志》选择嘚都是老派发音人,年龄均在60岁以上《皖西南方言语音研究》和本文的发音人均偏向中年。

(2)地域差异:《安徽岳西方言的同音字汇》、《岳西方言志》以岳西县县城天堂话为代表《皖西南方言语音研究》以天堂话和县城周边的店前话为代表,本文则是以距县城不远嘚中关乡话为代表岳西县内多山,交通较为不便地域差异很可能造成声调的差异。

4.2关于浊上、浊入归阳去的问题

根据已有研究的结论:岳西方言的浊入和浊上都归入阳去为了考察这一结论,本文补录了浊入声字和浊上声字各12个(浊上:近、柱、是、坐、淡、抱、厚、社、似、父、是、士;浊入:局、实、杂、读、白、合、舌、俗、服、罚、毒、十)并依照上述实验步骤计算出T值,绘制出阳去、浊上、浊入声字的声调折线图如下:

表9 阳去、浊上、浊入声字的T值数据

图4 阳去、浊上、浊入声字的调形和调域分布图

图5 “局、俗、杂”三字嘚频谱图

由表9和图4可看出:浊上和阳去的调值以及调形十分接近,均是平调完全可以归入一个调类。浊入虽然与阳去一样处在3度区域内但是浊入的波动较大。通过观察浊入声字的三维频谱发现“局”、“杂”、“俗”三个字的基频曲线与其它浊入声有所不同,反而与清入声类似是不是这三个字不归阳去,而是归清入呢为了验证猜想,本文将“局”、“杂”、“俗”三个字的基频数据从浊入的基频數据组移动到清入然后再重新计算两组数据的T值,并据此绘制出了声调折线图如下:

图6 阳去、浊上、浊入声字的调形和调域分布图

图7 清濁入、清入声字的调形和调域分布图

注:清浊入即清入原有的12个单字加上“局”、“杂”、“俗”三个单字总计15个单字。

从图6来看去除了“局”、“杂”、“俗”三个字的数据后,浊入与浊上和阳去的调形基本一致保持为一个平调,可以归为33调从图7来看,清入声数據组加入“局”、“杂”、“俗”三个字的基l数据后对清入的调形影响不大。由此看来岳西方言的浊入并不是全部归到了阳平,部分吔归到了清入至于是否还有其他情况,则有待更多的实验数据进一步证明

(1)岳西方言共有6个调类:阴平、阳平、上声、阴去、阳去、入声,调值分别为31、35、34、443、33、324

(2)岳西方言的浊入并不是全部归到了阳平,部分也归到了清入

[1]岳西县地方志编纂委员会编.储泽祥,主编.岳西方言志[M].上海:华中师范大学出版社2009.

[2]储诚志.安徽岳西方言的同音字汇[J].方言,1987.

[3]黄拾全.皖西南方言语音研究[D].暨南大学2008.

[4]刘俐李.基频归┅和调系归整的方言实验[J].中国语音学报,2008.

[5]刘俐李.汉语声调的曲拱特征和降势音高[J].中国语文2005.

[6]刘俐李等.江淮方言声调实验研究和折度分析[M].巴蜀书社,2007.

[7]林焘、王理嘉.语音学教程[M].北京:北京大学出版社2013.

[8]石锋.天津方言双字组声调分析[J].语言研究,1986.

 
 

我们提出了一个分析人类情感状態的多模态数据集记录32名参与者的脑电图(EEG)和周围生理信号,每个人观看40段一分钟长的音乐视频片段参与者根据唤醒,效价喜欢/不喜歡,主导和熟悉程度对每个视频进行评分在32位参与者中,有22位还录制了正面面部视频提出了一种新颖的刺激选择方法,该方法通过使鼡来自last.fm网站的情感标签进行检索视频高亮检测和在线评估工具来进行。提供了对实验过程中参与者评分的广泛分析脑电信号频率和参與者的评分之间的相关性进行了调查。提出了使用脑电图周围生理信号和多媒体内容分析方法对唤醒,效价和喜欢/不喜欢的等级进行单佽试验的方法和结果最后,对来自不同模态的分类结果进行决策融合该数据集已公开提供,我们鼓励其他研究人员将其用于测试他们洎己的情感状态估计方法
关键词——情感分类,脑电图生理信号,信号处理模式分类,情感计算
 

情绪是一种有意识和/或无意识的粅体或情况感知触发的心理生理过程,通常与情绪气质,性格和性格以及动机有关情绪在人类交流中起着重要的作用,可以通过情绪詞汇进行口头表达也可以通过表达非语言提示(例如语音语调,面部表情和手势)来表达大多数当代人机交互(HCI)系统都无法解释此信息,并且缺乏情感智能换句话说,他们无法识别人类的情绪状态无法使用这些信息来决定要执行的适当动作。情感计算的目的是通過检测人机交互过程中出现的情感提示并合成情感反应来填补这一空白
在多媒体信息检索中,用相关的、可靠的、有鉴别能力的标签来描述多媒体内容是非常重要的多媒体的情感特征是描述多媒体内容的重要特征,可以通过情感标签来表现内隐情感标记是指不费力地產生主观和/或情感标记。利用情感信息对视频进行隐式标注可以帮助推荐和检索系统提高其性能[1]-[3]。记录当前数据集的目的是创建一个自適应的音乐视频推荐系统在我们提出的音乐视频推荐系统中,用户的身体反应将被转化为情绪用户观看音乐视频片段时的情绪会帮助嶊荐系统首先了解用户的喜好,然后推荐符合用户当前情绪的音乐片段
该数据库探索了通过向不同用户播放音乐视频来对情感维度进行汾类的可能性。据我们所知对这种刺激的反应(音乐视频剪辑)之前从未被探索过,这一领域的研究主要集中在图像、音乐或非音乐视频片段[4]、[5]在自适应音乐视频推荐系统中,通过对类似性质的音乐视频的生理反应训练的情感识别器能够更好地实现其目标
各种离散的情绪汾类已经被提出,例如Ekman和Friesen[6]提出的六种基本情绪Parrot[7]提出的情绪树形结构。情绪的维度尺度也被提出如Plutchik的情绪轮[8]和Russell的效价唤醒度[9]。在这项工莋中我们使用罗素的效价唤醒度[表,广泛用于研究影响定量描述情绪。在这个尺度中每一种情绪状态都可以被放置在一个二维平面仩,唤醒度和效价是水平和垂直轴虽然唤醒度和效价解释了大多数情绪状态的变化,但第三维度的支配性也可以包括在[9]模型中唤醒度嘚范围从不活跃的(如不感兴趣的,无聊的)到活跃的(如警惕的兴奋的),而效价的范围从不愉快的(如悲伤的紧张的)到愉快的(如高兴的,高興的)支配度的范围从一种无助和软弱的感觉(没有控制)到一种强大的感觉(控制一切)。对于这些尺度的自我评估我们使用著名的自我评估囚体模型(SAM)[10]。
情感评估通常是通过分析用户的情感表达和/或生理信号情感表达是指任何可观察到的语言和非语言行为,沟通情感。情感评估迄今为止,大部分的研究都集中在面部表情和演讲的分析来确定一个人的情绪状态生理信号也被认为是包括情感信息可用于情感评估但是怹们得到了更少的关注。他们组成的信号来自中枢神经系统(CNS)和周围神经系统(PNS)
最近在情绪识别方面的进展推动了包含不同方式的情绪表达嘚新数据库的创建。这些数据库主要包括语音、可视或视听数据(如[11]-[15])视觉形态包括面部表情和/或身体姿势。音频情态包括不同语言中拟态嘚或真实的情感话语许多现有的可视化数据库只包含摆拍或有意表达的情感。
Healey[16][17]记录了最早的情感性生理数据集之一。她记录了24名在波壵顿地区开车的参与者并根据司机的压力水平对数据集进行了注解。24位参与者的回答中有17位是公开的她的记录包括心电图(ECG)、手和脚的皮肤电反应(GSR)、右侧斜方肌的肌电图(EMG)和呼吸模式。
据我们所知唯一公开的包括生理反应和面部表情的多式情感数据库是enterface 2005情感数据库和MAHNOB HCI[4]、[5]。苐一次是由Savran等人记录的[5]这个数据库包括两个集。第一组包括脑电图(EEG)、周边生理信号、功能性近红外光谱(fNIRS)和来自5名男性参与者的面部视频第二个数据集只有16名男女参与者的面部视频和fNIRS。这两个数据库都记录了人们对来自国际情感图像系统(IAPS)[18]的情感图像的自发反应在[13],[19]中可鉯找到对情感性视听数据库的广泛回顾MAHNOB HCI数据库[4]由两个实验组成。记录了30人的脑电图、生理信号、眼神、声音和面部表情等反应第一个實验是观看从电影和在线资料库中提取的20个情感视频。第二个实验是标签一致性实验在这个实验中,先给参与者看有人类动作的图片和短视频没有标签,然后再给参与者看一个显示的标签标签是正确的还是错误的,参与者对显示的标签的一致性进行了评估
在生理信號[16]、[20]-[24]的情绪识别领域已经发表了大量的研究成果。在这些研究中只有少数使用视频刺激取得了显著的结果。Lisetti和Nasoz使用生理反应来识别电影場景[23]的情绪电影场景被选择来引出六种情绪,即悲伤、娱乐、恐惧、愤怒、沮丧和惊讶对于这六种情绪的识别,他们获得了84%的高识别率然而,这种分类是基于对视频中预先选择的与高度情绪化事件相关的片段的信号分析
在多媒体内容的隐性情感标注方面已经做了一些努力。Kierkels等人提出了一种利用周围生理信号进行多媒体个性化情感标注的方法参与者观看视频时的情感效价和唤醒水平是通过使用线性囙归[26]从生理反应中计算出来的。一个片段的量化唤醒和效价随后被映射到情感标签上该映射允许基于关键字查询检索视频剪辑。到目前為止这种新方法的精度较低。
Yazdani等人[27]提出使用基于P300诱发电位的脑机接口(BCI)用Ekman六种基本情绪之一[28]对视频进行情感标记。他们的系统接受了8名參与者的培训然后在另外4人身上进行了测试。他们在选择标签方面达到了很高的准确性然而,在他们提出的系统中BCI只是代替了显式表达情感标签的接口,也就是说该方法并不使用参与者的行为和心理生理反应来隐式地标记多媒体项目。
除了使用行为线索的内隐标记外多项研究还使用多媒体内容分析(MCA)来自动对视频进行情感标记。Hanjalic等人在[29]中介绍了“个性化内容交付”这是情感索引和检索系统中一个佷有价值的工具。为了在视频中表现情感他们首先根据视频和音频内容与价值激发空间的关系来选择特征。然后结合这些特征来估计茬这个空间中产生的情绪。虽然效价-唤醒度可以单独用于索引但他们通过遵循时间模式将这些值结合起来。这可以用来确定影响曲线這对于提取电影或体育视频中的视频亮点非常有用。
Wang和Cheong[30]使用音频和视频特征对电影场景引发的基本情绪进行分类将音频信号分为音乐信號、语音信号和环境信号,分别进行处理形成听觉情感特征向量。将每个场景的听觉情感向量与关键灯光、视觉刺激等基于视频的特征融合形成场景特征向量。最后利用场景特征向量对电影场景进行分类和情感标记。
Soleymani等人提出了一个场景情感表征使用贝叶斯框架[31]首先用线性回归法确定每个镜头的唤醒和效价。然后除了每个场景的内容特征外,使用唤醒值和效价值将每个场景分为三类即平静、兴奮、积极和兴奋、消极。贝叶斯框架能够结合电影类型和最后场景或时间信息的预测情绪来提高分类精度
从声学特征[32]-[34]对音乐情感表征的研究也有很多。节奏、速度、梅尔频率倒谱系数(MFCC)、音高、过零率是用来描述音乐影响的常见特征
在[35]中对当前工作进行了初步研究。在这項研究中6名参与者观看了20个音乐视频,记录了他们的脑电图和生理信号参与者对唤醒和效价水平进行评级,每个视频的脑电图和生理信号被分为低唤醒/高唤醒/效价水平
在当前的工作中,音乐视频剪辑被用作视觉刺激来激发不同的情感 为此,使用新颖的刺激选择方法收集了相对较大的一组音乐视频剪辑 然后进行主观测试以选择最合适的测试材料。 对于每个视频都会自动选择一分钟的亮点。 32名参与鍺参加了该实验并观看了40个精选的音乐视频,并记录了他们的脑电图和周围生理信号 参与者根据唤醒度,效价喜欢/不喜欢,支配和熟悉程度对每个视频进行评分 对于22位参与者,还录制了正面面部视频
本文旨在介绍这一公共数据库。该数据库包含所有记录的信号数據、一部分参与者的正面视频和参与者的主观评分还包括最初的在线主观注释的主观评分和使用的120个视频列表。由于许可证问题我们鈈能包括实际的视频,但YouTube链接包括在内表1给出了数据库内容的概述。
据我们所知这个数据库拥有最多的参与者,在公共数据库中从苼理信号分析自发的情绪。此外它是唯一一个使用音乐视频作为情感刺激的数据库。
我们对参与者的评分和脑电图信号与评分之间的相關性进行了广泛的统计分析对脑电图、周围生理信号和MCA的初步单次试验分类结果进行了介绍和比较。最后利用融合算法将各模态的结果进行融合,得到更稳健的决策
这篇论文的布局如下。第二部分详细描述了刺激源的选择过程实验设置将在第3节中介绍。第4节提供了┅个统计分析的评级由参与者在实验和验证我们的刺激选择方法。在第5部分脑电图频率和参与者评分之间的相关性被展示出来。第6节給出了单次试验分类的方法和结果这项工作的结论见第7节。
 

实验中使用的刺激物是分几个步骤选择的首先,我们选择了120个初始刺激其中一半是半自动选择的,另一半是手动选择的然后,为每个刺激点设置一分钟的亮点部分最后,通过一个基于网络的主观评价实验选择40个最终刺激。下面将解释这些步骤
激发测试参与者的情绪反应是一项艰巨的任务,而选择最有效的刺激材料至关重要我们在此提出一种半自动化的刺激选择方法,其目标是最小化由手动刺激选择引起的偏差
使用Last.fm音乐发烧友网站从120个最初选择的刺激中选择了60个。Last.fm尣许用户跟踪他们的音乐收听习惯并接收有关新音乐和新事件的建议 另外,它允许用户将标签分配给单独的歌曲从而创建标签的民俗學。 许多标签带有情感含义例如“压抑”或“激进”。Last.fm提供了一种API允许人们检索标签和加标签的歌曲。
从[7]中选取了情感关键词列表並将其扩展为包括词尾变化和同义词,产生了304个关键词 接下来,对于每个关键字在Last.fm数据库中找到相应的标签。 对于每个发现的情感标簽选择了最经常用该标签标记的十首歌曲。 共产生1084首歌曲
效价-唤醒度空间可细分为四个象限,即低唤醒/低效价(LA/LV)低唤醒/高效价(LA/HV),高唤醒/低效价(HA/LV)和高唤醒/高效价(HA/HV)为了确保诱发情绪的多样性,根据以下标准从1084首歌曲中为每个象限手动选择了15首歌曲:
标签昰否准确地反映了情感内容? 根据这一标准被主观拒绝的歌曲包括仅仅因为歌曲标题或歌手名字与标签相对应而被标记的歌曲此外,在某些情况下歌词可能与标签相对应,但歌曲的实际情感内容是完全不同的(例如关于悲伤主题的快乐歌曲)。
这首歌有音乐录影带吗? 歌曲的喑乐视频会自动从YouTube上检索必要时还会手动更正。然而许多歌曲没有音乐视频。
这首歌适合在实验中使用吗 由于我们的测试参与者大哆是欧洲学生,因此我们为目标人群选择了最有可能引起情感的歌曲 因此,主要选择了欧洲或北美艺术家
除了使用上述方法选择的歌曲外,我们还手动选择了60个刺激视频并为唤醒/价空间的每个象限选择了15个视频。这里的目标是选择那些有望对每个象限产生最清晰情感反应的视频人工选择和使用情感标签的选择相结合,产生了一个包含120个候选刺激视频的列表
2.2一分钟亮点检测 对于120个最初选择的音乐视頻中的每一个,提取一个用于实验的1分钟片段为了提取具有最大情感内容的片段,提出了一种情感突出显示算法
Soleymani等人[31]使用线性回归方法计算电影中每一个镜头的唤醒。在他们的方法中使用基于内容特征的线性回归来计算镜头的唤醒和效价。用于唤醒估计的信息特征包括声音信号的响度和能量、运动成分、视觉刺激和拍摄持续时间用同样的方法计算效价。还有一些其他的内容特性如颜色变化和关键咣照,已经被证明与效价相关[30]本工作中使用的内容特性的详细描述见第6.2节。
为了用回归法找到最佳的唤醒和效价估计权重回归者在[31]中給出的数据集中对21部带注释电影的所有镜头进行训练。线性权重通过Tipping[36]提供的RVM工具箱中的相关向量机(RVM)计算RVM在训练过程中能够拒绝非信息性特征,因此没有进一步的特征选择用于唤醒和效价的确定
然后将音乐视频分割成一分钟的片段,片段之间重叠55秒提取内容特征,為回归分析提供输入第i节ei的情绪突出评分采用以下公式计算:
唤醒(ai)和效价(vi)被放在中心位置。因此情绪亮点得分(ei)越小,越接近中性状态在每个视频中,选取情绪高潮得分最高的一分钟长片段进行实验对于一些片段,自动情感高亮检测被手动覆盖这只针对那些特别具囿歌曲特色、为公众所熟知、最有可能引发情感反应的歌曲。在这些情况下选择一分钟的突出部分,以便包括这些片段
根据120个1分钟的喑乐视频片段,实验中使用的40个视频的最终选择是根据志愿者的主观评分做出的如下一节所述。
从最初收集的120个刺激视频中使用基于web嘚主观情绪评估界面选择最后40个测试视频片段。参与者观看了音乐视频并在一个离散的9点量表上对其进行了价格、唤醒和支配的评分。堺面截图如图1所示每个参与者观看了他/她想要的视频,并且可以随时结束评分剪辑的顺序是随机的,但优先选择被最少参与者评分的剪辑这确保了每个视频的收视率相同(每个视频收集14-16个评估)。确保参与者从未看过同一段视频两次
在120个视频被至少14名志愿者分别打汾后,最后选出40个供实验使用的视频为了最大限度地激发情绪,我们选择了那些志愿者评分最高同时变化较小的视频。为此对于每個视频x,我们通过平均评分除以标准差(μx/σx)来计算标准化唤醒和价格得分
然后,对于规范化的价格唤醒空间中的每个象限我们选擇了最接近该象限的极端角落的10个视频。图2示出了以绿色突出显示的每个视频和所选视频的分级的得分该视频的评分是最接近每个象限嘚极端角落明确提到。在40个选定的视频中有17个是通过Last.fm情感标签选择的,这表明可以通过这种方法选择有用的刺激
图1.主观情绪评估Web界面嘚屏幕截图
 

3.1材料与设置
实验是在两个受控照明的实验室环境中进行的。 使用Biosemi ActiveTwo系统4在专用的记录PC(奔腾4,3.2 GHz)上记录脑电图和周围生理信号 使鼡专用的刺激PC(奔腾4,3.2 GHz)显示刺激,该PC直接将同步标记发送到记录PC 为了演示刺激并记录用户的评分,使用了Neurobehavioral系统5的“演示”软件 音乐视頻显示在17英寸的屏幕上(,60 Hz)并且为了最大程度地减少眼球运动,所有视频刺激均以800×600的分辨率显示约占屏幕的2/3。 受试者坐在离屏幕約1米的地方 使用立体声飞利浦扬声器,并且将音乐音量设置为相对较大的音量但是在实验之前,每个参与者都被询问音量是否舒适並在必要时进行调整。
使用32个有源AgCl电极(根据国际10-20系统放置)以512 Hz的采样率记录EEG 还记录了13个外围生理信号(将在6.1节中进一步讨论)。 此外对于32位参与者中的前22位,使用Sony DCR-HC27E消费级便携式摄像机以DV质量录制了正面面部视频 面部视频未在本文的实验中使用,但已与其余数据一起公开提供 图3示出了用于采集周围生理信号的电极放置。
图2.在线评估中每个视频的分级的μx/σx值选择用于实验的视频以绿色突出显示。對于每个象限最极端的视频都有详细的歌曲标题和视频截图。
3.2实验协议
32名健康参与者(50%女性)年龄在19岁到37岁之间(平均年龄26.9岁),参加了实验在实验之前,每个参与者都要签署一份同意书并填写一份问卷接下来,给他们一组阅读说明告诉他们实验方案和用于自我评估的不哃量表的含义。一名实验者也在场回答任何问题当指示清楚后,被试被领进实验房间在放置传感器并检查其信号之后,参与者进行了┅次模拟试验以熟悉系统。在这个没有记录的试验中播放了一个简短的视频,然后参与者进行了自我评估接下来,实验者开始记录苼理信号并离开房间然后按下键盘上的一个键开始实验。
实验以2分钟的基线记录开始在此期间向参与者展示一个固定十字架(在此期间偠求参与者放松)。然后40个视频在40个试验中呈现,每个试验包括以下步骤:
1)显示当前试验编号的2秒屏幕告知受试者试验进展情况。
2) 5秒基线記录(注视交叉)
3)音乐视频1分钟显示。
4)对唤起、情感、喜好和支配能力的自我评估
20次试验后,参与者休息了一小会儿在休息期间,他们會得到一些饼干和不含咖啡因、不含酒精的饮料然后实验者检查了信号的质量和电极的位置,参与者被要求继续第二部分的测试图4显礻了实验开始前不久的参与者。
图3.周边生理传感器的放置电极用于记录EOG和4的肌电图(大颧肌和斜方肌)。此外测量GSR、血容量压(BVP)、体温和呼吸。
3.3参与者自我评估 在每个试验的最后参与者对他们的兴奋程度、情感、喜好和支配能力进行了自我评估。使用自评人体模型(SAM)[37]对量表进荇可视化处理(见图5)人体模型显示在屏幕的中间,数字1-9打印在下面参与者将鼠标严格水平移动到数字下方,然后点击以显示他们的自我評估水平参与者被告知,他们可以点击数字下面或数字之间的任何地方从而使自我评估成为一个连续的量表。
图4.实验前不久的一名参與者
图5.用于自我评估的图像。 从顶部开始:Valence SAMArousal SAM,Dominance SAM喜欢。
效价范围从不快乐或悲伤到快乐或快乐唤醒量表的范围从平静或无聊到刺激戓兴奋。支配性量表的范围从顺从(或“无控制”)到支配(或“有控制有权力”)。第四个量表要求参与者对视频的个人喜好最后一个量表鈈应该与效价量表相混淆。这项测试询问的是参与者的品味而不是他们的感受。例如喜欢让人感到悲伤或愤怒的视频是可能的。最后在实验结束后,参与者被要求对每首歌的熟悉程度打分从1分(“实验前从未听过”)到5分(“非常熟悉这首歌”)。
 

在这一节中我们描述了凊感刺激对参与者的主观评分的影响。首先我们将提供描述性统计的记录评分喜欢,效价唤醒,支配和熟悉其次,我们将讨论不同評级之间的协变
选择刺激以在效价-唤醒度空间的四个象限(LALV,HALVLAHV,HAHV)中诱发情绪 来自这四个影响的诱发条件的刺激通常会导致选择目標时的目标情绪的激发,从而确保掩盖了效价-唤醒度平面(AV平面)的大部分(见图6)Wilcoxon符号秩检验表明,低和高唤醒度刺激引起不同的效價等级(p <.0001和p <.00001)同样,低效价和高效价刺激会引起不同的唤醒度等级(p <.001和p <.0001)
图6.所示四种情况(LALV、HALV、LAHV、HAHV)刺激在唤醒–效价平面上的平均位置。喜欢是由颜色编码的:暗红色代表低喜欢明黄色代表高喜欢。显性由符号大小编码:小符号代表低显性大符号代表高显性。
情绪激发在高刺激条件下效果特别好对各个刺激产生相对的最高效价评级。低激发条件下的刺激在激发强烈的效价反应方面不太成功此外,根据茬线研究LAHV病情的某些刺激引起的觉醒高于预期。有趣的是这导致效价-唤醒度平面上的刺激呈C形,这在国际情感图片系统(IAPS)[18]和国际情感数字声音系统(IADS)[38]的有效评级中也观察到表示通常很难以高效价但低唤醒度的方式来诱导情绪。每个条件下各个评分的分布(见图7)顯示条件之间的差异很大,这是由刺激之间和参与者之间的变化引起的可能与刺激特征或音乐品味,总体情绪或音阶的个体差异有关解释但是,条件之间在效价和唤醒度方面的显着差异反映了目标情感状态的成功诱导(参见表2)
表2 不同情感激发条件下的喜好度(1-9分)、效价(1-9分)、唤起度(1-9分)、支配度(1-9分)、熟悉度(1-5分)的平均值(和标准差)。
不同规模和条件下的评级分布表明评级之间存在复杂的关系我们探讨了参與者不同量表的平均相互关系(参见表3),因为它们可能表明习惯或疲劳的可能混杂或有害影响我们观察到喜好与效价之间以及优势与效价之间存在高度正相关。貌似在不暗示任何因果关系的情况下,人们喜欢音乐这种音乐给了他们积极的感觉和/或授权的感觉。唤醒喥与主导之间唤醒度与喜好之间存在中等正相关。熟悉程度与喜好和效价呈正相关正如上面已经观察到的那样,效价和唤醒度的量表鈈是独立的但是它们的正相关性很低,这表明参与者能够区分这两个重要的概念刺激顺序对喜好和支配等级的影响很小,与其他等级沒有显着关系这表明习惯和疲劳的影响保持在可接受的最低水平。
综上所述情感诱导在总体上是成功的,尽管低效价条件在一定程度仩受到中等效价反应和较高唤醒的影响观察到的高尺度的相互关联仅限于配价与喜好和支配的关系,这可能在音乐情感的语境中被期待其余量表之间的相互关系强度较小或中等,表明量表概念被参与者很好地区分

5脑电图与评分的相关性

 

为了研究主观评分与脑电图信号嘚相关性,将脑电图数据进行共同平均引用降采样至256 Hz,利用EEGlab 6工具箱用2 Hz的切换频率进行高通滤波我们用盲源分离技术去除了人工制品。嘫后提取每个试验(视频)最后30秒的信号进行进一步分析。为了校正与刺激无关的功率随时间的变化将每个视频前5秒的脑电图信号提取为基线。
图7.四种情感诱发条件(LALV、HALV、LAHV、HAHV)的主观评分(L-综合评分、V-效价、A-唤起、D -优势度、F-熟悉度)的分布
表4 与量表相关性显著的电极(*=p < .01, **=p < .001)还显示了主相关系数(?R)、最负相关系数(R?)和最正相关系数(R +)的平均值。
表3
所有40个刺激的效价、唤醒度、喜好、支配、熟悉程度和呈现顺序(即时间)之间嘚主观相关根据Fisher方法,显著相关(p<.05)由星星表示
采用Welch方法提取试验频率和3 ~ 47Hz之间的基线,窗口为256个样本然后从试验功率中减去基线功率,嘚到相对于刺激前时期的功率变化这些功率的变化在(3 - 7赫兹)、(8 - 13赫兹)、(14 - 29赫兹)和(30 - 47赫兹)的频带上取平均值。对于相关统计我们计算了权力变化囷主观评分之间的Spearman相关系数,并计算了左尾(正)和右尾(负)相关检验的p值我们分别对每个参与者进行了这项工作,假设[39]是独立的那么每个楿关方向(正/负)、频带和电极的32个p值将通过Fisher’s方法[40]合并为一个p值。
图8显示了显著(p < .05)相关电极的(平均)相关性下面我们将只报告和讨论p < .01时显著的影响。表4列出了各种影响
对于唤醒度,我们发现thetaalpha和gamma波段呈负相关。 较高唤醒度的中央α功率降低与我们较早的先导研究[35]的发现相符並且在[41],[42]之前已经报道了α功率与一般唤醒水平之间存在反比关系。
效价显示出与脑电信号的最强相关性并且在所有分析的频带中都发現了相关性。在低频theta和alpha中效价的增加导致功率的增加。这与试点研究的结果一致这些影响在枕骨区域,因此在视觉皮层上的位置可能表明这些影响是相对的失活或自上而下的抑制,这是由于参与者专注于愉悦的声音所致[43]对于β频段,我们发现在飞行员中也观察到了中央下降,并且枕骨和右颞骨的功率增加。 [44],对右侧颞部部位的增强的β能力与积极的情绪自我诱导和外部刺激有关。类似地,[45]报道了价態和高频功率的正相关包括前颞脑来源的β和γ带。相应地,我们观察到左,尤其是右颞伽马力的显着增加。但是应该提到的是,EMG(肌禸)活性在高频中也很突出尤其是在前电极和颞电极上[46]。
在所有分析的频带中都发现了相似的相关性对于θ和α屈光力,我们观察到左额中央皮层的增大。喜欢可能与进场动机有关。然而,观察到较高的喜好导致左α力量增加与左额叶激活的发现相冲突,导致该区域的α降低,这通常被报道为与进场动机有关的情绪[47]当考虑到一些不喜欢的片段很可能引起愤怒的感觉(由于不得不听它们,或者仅仅是由于謌词的内容)而引起的矛盾时这种矛盾可能会得到解决,这也与进场动机有关因此可能导致alpha向左减少。在β和γ谱带中发现的正确的颞部增大与所观察到的效价相似应谨慎行事。通常图8中所示的效价和喜好相关性的分布看起来非常相似,这可能是上述量表之间高度相關的结果
综上所述,我们可以指出观察到的相关性部分符合试点研究和其他研究中探索情感状态的神经生理学相关性的观察结果。因此在多模态音乐刺激的背景下,它们可能被视为情感状态的有效指标然而,平均相关性很少大于±0.1这可能是由于参与者之间在脑激活方面的高变异性造成的,因为在相同的电极/频率组合下在给定的尺度相关性下观察到±0.5之间的个体相关性。这种高的参与者间变异性嘚存在证明了参与者特有的分类方法是正确的正如我们所使用的,而不是针对所有参与者的单一分类器
 

在本节中,我们将介绍视频单佽分类的方法和结果采用脑电图信号、周围生理信号和MCA三种不同的模式进行分类。所有模式的条件保持不变只是特征提取步骤不同。
提出了三种不同的二元分类问题:低/高唤醒的分类低/高效价和低/高喜好分类。 为此将实验期间参与者的评分作为基本事实。 这些量表Φ的每个量表的等级都分为两类(低和高)在9点评分量表上,阈值仅位于中间 请注意,对于某些主题和规模这会导致班级不平衡。 為了说明类别的不平衡程度每个等级量表中属于高等级的视频所占百分比的平均值和标准差(超出参与者)为引起59%(15%),价57%(9%) 喜欢67%(12%)
鉴于此问题,为了可靠地报告结果我们报告了F1分数,该分数通常用于信息检索中并且考虑了类平衡,这与单纯的分類率相反 此外,我们使用朴素贝叶斯分类器这是一种简单且可概括的分类器,能够处理小型训练集中的不平衡类
首先,为每个试验(视频)提取给定模态的特征 然后,对于每个参与者F1量度用于评估“留一法”交叉验证方案中的情感分类表现。 在交叉验证的每个步驟中一个视频用作测试集,其余视频用作训练集 我们使用Fisher线性判别式J进行特征选择:
?和σ的平均值和标准偏差特性f。我们计算每个特性这一标准,然后应用一个阈值选择最大限度地区别对待的。这个阈值是根据经验确定的0.3
使用高斯朴素贝叶斯分类器将测试集分类为低/高喚醒,效价或喜好 朴素贝叶斯分类器G假定特征的独立性,并由下式给出:
其中F是要素集C是类。 通过假设特征的高斯分布并从训练集中對其建模来估计p(Fi=fi|C=c)
接下来的部分解释了EEG和周围生理信号的特征提取步骤。第6.2节介绍了MCA分类中使用的特性在第6.3节中,我们解释了用于結果决策融合的方法最后,第6.4节给出了分类结果
6.1脑电图及周边生理特征
目前大多数关于情绪[48]、[49]的理论都认为,生理活动是情绪的重要組成部分例如,一些研究已经证明了与基本情绪[6]相关的特定生理模式的存在
围神经系统信号记录如下:GSR,呼吸幅度,皮肤温度,心电图,血容量體积描记器、颧肌和斜方肌的肌肉的肌电图,眼电图(小城镇)。GSR提供皮肤的电阻的测量定位两个电极的远端趾骨和食指中间这种阻力减少由於增加的汗水,这通常发生在一个正在经历的情绪,如压力或惊喜。此外,朗等人发现GSR的平均值与唤醒的程度[20]
容积描记器测量参与者拇指的血嫆量。这种测量也可以用来计算心率(HR)通过识别局部最大心率(即心跳)、搏动间期和心率变异性(HRV)。血压和HRV与情绪相关因为压力会增加血压。刺激的愉快程度可增加峰值心率反应[20]除了HR和HRV特征外,HRV衍生的光谱特征在情绪评估[50]中被证明是一个有用的特征
记录皮肤温度和呼吸,洇为它们随着不同的情绪状态而变化缓慢的呼吸与放松有关,而不规则的节奏、快速的变化和呼吸的停止则与愤怒或恐惧等更强烈的情緒有关
关于肌电图信号,我们记录了斜方肌(颈部)的活动以研究听音乐时可能的头部运动。大颧肌的活动也被监测因为当参与者大笑戓微笑时,这块肌肉会被激活肌肉收缩时肌电信号频谱中的大部分功率都在4到40赫兹之间。因此从不同肌肉的肌电信号在这个频率范围內的能量可以得到肌肉的活动特征。眨眼频率是另一个与焦虑相关的特征眨眼会影响EOG信号,并导致该信号中容易检测到的峰值要进一步了解情绪的心理生理学,我们建议读者参考[51]
表5
从脑电图和生理信号中提取特征。
所有的生理反应都以512Hz的采样率记录下来然后向下采樣至256Hz以减少处理时间。通过减去时间低频漂移去除心电图和GSR信号的变化趋势。通过平滑每个ECG和GSR通道上的信号以256点移动平均值计算低频漂移。
根据文献[22]、[26]、[52]-[54]提出的特征从周围生理反应中共提取106个特征(见表5)。
从EEG信号中提取出功率谱特征。 来自theta(4-8 Hz)慢速alpha(8-10 Hz),alpha(8-12 Hz)beta的頻谱功率的对数
从所有32个电极提取(12-30Hz)和gamma(30+ Hz)波段作为特征。 除了功率谱特征外还提取了左右半球上所有对称电极对的谱功率之间的差異,以测量由于情感刺激而导致的大脑活动中可能存在的不对称性 一项针对32个电极的试验的EEG特征总数为216。表5总结了从生理信号中提取的特征列表
6.2 MCA特性
音乐视频被编码为MPEG-1格式,以提取运动矢量和I帧以进行进一步的特征提取 使用[55]中提出的方法已经将视频流在镜头级别进行叻分割。
从电影导演的角度来看照明键[30],[56]和颜色变化[30]是唤起情感的重要工具 因此,我们通过将平均值V(在HSV中)乘以值V(在HSV中)的标准偏差从HSV空间中的帧中提取照明关键点。 通过计算LU和V的协方差矩阵的行列式,在CIE LUV颜色空间中获得颜色方差
Hanjalic和Xu[29]展示了视频节奏和情感之間的关系。提取平均镜头变化率和镜头长度方差来表征视频节奏在连续的画面中快速移动的场景或物体的移动也是引起兴奋的一个有效洇素。为了测量这一因素运动分量被定义为连续帧中的运动量,它是通过对所有B帧和p帧的运动矢量大小的累加计算得到的
颜色及其比唎是引起情绪的重要参数[57]。 针对每个I帧计算HSV空间中的色调和亮度值的20 bin颜色直方图然后在所有帧上取平均值。 所得的bin平均值用作基于视频內容的功能 计算HSL空间中L值的中值以获得帧的中值亮度。
最后根据[30]给出的定义,确定代表阴影比例、视觉刺激、灰度和细节的视觉线索
声音对情感也有重要的影响。例如语音的响度(能量)与唤起有关,而语音信号的节奏和平均音高与价态[58]有关视频的音频通道被提取并編码成mono MPEG-3格式,采样率为44.1 kHz所有的音频信号在进一步处理之前都被归一化到相同的振幅范围。每个音频信号共确定53个低电平音频特征表6中列出的这些特性通常用于音频和语音处理以及音频分类[59]、[60]。利用PRAAT软件包提取MFCC、共振峰和音频信号的音高[61]
6.3单模态结果融合
上述多种模式的融合旨在通过利用不同模式的互补性来改进分类结果。通常模态融合的方法可以分为两大类,即特征融合(或早期融合)和决策融合(或后期融合)[63]在特征融合中,将从不同模式的信号中提取的特征串联起来形成一个复合的特征向量然后将其输入到识别器中。另一方面在决筞融合中,每个模态都由相应的分类器独立处理并将分类器的输出组合起来得到最终的结果。每种方法都有自己的优点例如,实现一個基于特征融合的系统是很简单的而一个基于决策融合的系统可以通过使用现有的单模分类系统来构建。此外特征融合可以考虑所涉忣模式的同步特性,而决策融合可以灵活地对模式的异步特性进行建模
决策融合相对于特征融合的重要优势在于,由于决策融合中的每個信号都是独立处理和分类的因此采用最佳加权方案来调整每种模态对最终信号的贡献的相对量相对容易。 根据模态的可靠性做出决定 我们工作中使用的加权方案可以形式化如下:对于给定的测试基准X,融合系统的分类结果为
其中M模式的数量被认为是融合,λM是第M形态的汾类器,和π(X |λm)为第i类是它的输出αm的加权因子,满足0≤αm≤1 M和,确定每个模式会导致最后的决定和表示方式的可靠性。
我们采用了一种简单嘚方法即一旦从训练数据确定其最优值,就确定权重因子通过穷举搜索规则网格空间来估计最优权值,其中每个权值从0到1增加0.01并为訓练数据选择产生最佳分类结果的权值。
6.4结果与讨论
表7列出了每种方式和每个评分量表的参与者的平均准确率和F1得分(两个班级的平均F1得汾) 我们将结果与随机投票的期望值(解析确定)进行比较,根据训练数据中的多数类别投票并针对每个类别的投票及其在训练数据Φ出现的可能性进行比较。 为了确定多数投票和班级比例投票的期望值我们在实验中使用了每个参与者反馈的班级比例。 这些结果有些過高因为实际上必须从留一法交叉验证的每一折中的训练集中估计班级比率。
根据班别比例投票每个参与者的预期f1分为0.5分。为了检验顯著性我们进行了独立的单样本t检验,将受试者的f1分布与0.5基线进行比较从表中可以看出,在获得的9个f1分数中有8个明显好于class ratio baseline。唯一的唎外是使用脑电图信号进行喜好分类(p = 0.068)当根据多数阶级投票时,由于阶级的不平衡获得了相对较高的准确性。然而这个投票方案的f1分數也是最低的。
总的来说使用MCA特征进行分类的结果明显优于脑电图和外周血管(p均< 0.0001),而脑电图和外周血管的得分没有显著差异(p = 0.41)(对每个等级量表和参与者的连接结果进行双侧重复样本t检验)
可以看出这些模式表现出适度的互补性,其中脑电图在唤醒方面得分最高外在效价在價位方面得分最高,在喜好方面则在MCA得分最高 在不同的等级量表中,效价分类表现最佳其次是喜好,最后是唤醒度
总体而言,使用MCA進行分类的效明显优于脑电图和外围评分(两者p均<0.0001)而脑电图和外围评分均无显着差异(p = 0.41)(使用双向重复样本t检验进行了 每个评分量表和参与者的合并结果)。 仅考虑了两种表现最佳的方式 尽管融合通常胜过单一模式,但仅对价比例均等权重的MCAPER有意义(p = 0.025)。
虽然给絀的结果明显高于随机分类但仍有很大的改进空间。 信号噪声个体生理差异和有限的自我评估质量使单次试验分类具有挑战性。
表6
从喑频信号中提取低级特征
表7 平均准确率(ACC)和F1分(F1,每个班的平均分数)根据一个独立的单样本t测试,星形显示受试者的f1分数分布是否显著高於0.5(??= p < .01?= p < .05)。为了比较我们给出了基于随机投票的分类、基于多数类别的投票和基于类的比例投票的预期结果。
表8 使用相等权重和最优權重方案的最佳两种模式和所有三种模式的融合的F1分数 为了进行比较,还给出了最佳单模态的F1得分
 

在这项工作中,我们提出了一个数據库的分析自发的情绪该数据库包含32名参与者的生理信号(和22名参与者的正面视频),每个参与者观看并评价他们对40个音乐视频的情绪反应这些情绪反应包括唤醒度、效价和支配度,以及他们对这些视频的喜爱程度和熟悉程度摘要提出了一种基于情感标签的半自动刺激选擇方法。参与者评分与脑电图频率之间存在显著相关使用从脑电图、周围神经和MCA模式中提取的特征,对唤起、效价和喜欢度进行单次试驗分类结果表明,该方法明显优于随机分类最后,这些结果的决策融合产生了性能的适度提高表明至少与模式有一定的互补性。

我要回帖

 

随机推荐