主页 > C慢生活 >Siri「听」见你的心 >

Siri「听」见你的心

2020-06-08 | 浏览: 7745
Siri「聽」見你的心

麻省理工学院研究团队成功藉语音识别技术(speech pattern recognition),让语音助手可以不经询问,仅透过使用者的用字遣词及语调,判断对方的「沮丧指数」。从一般对话中侦测沮丧情绪的功能,有助于提早发现心理问题,进而寻求医疗协助。

传统评估方法

过去常见的方法,是让患者填答健康状况问卷(Patient Health Questionnaire, PHQ),了解患者过去的精神状况与生活习惯。而后由医疗人员根据专业知识,由关键回答组合中评估个案的状态。亦有人使用决策树(decision tree),由特定问答模式,推估患者的沮丧情绪。然而这些方法的前提,是患者必须先回答特定的问题,因此应用範围有限。

一种新的方法,则是从患者的说话特徵出发,分析其语音讯号随时间的变化。2018年,麻省理工学院(MIT)研究人员便是利用神经网路模型,从对谈的文字与音讯萃取语音特徵,直接从人们日常生活中的自然互动,搜寻沮丧情绪的迹象[2]。

从患者对谈纪录出发,寻找语音序列特徵

模型的训练与测试,运用了虚拟医师与142名个案的对谈纪录[3]。每段对谈中包括直接的问题(例如:「你觉得自己内向吗?」)与对话性的回覆(例如:「听起来很棒!」)。收集的资讯包括音讯与交谈内容的逐字稿。

这些个案皆有心理健康相关的因素,根据健康状况问卷的填答结果标记为0~27分的「沮丧指数」(通常10分以上视为有沮丧的现象)。训练资料集中约有20% 的「沮丧」个案。

模型架构:长短期记忆(LSTM)、上下文无关

训练模型的目标是判定个案「沮丧与否」以及「沮丧的程度」,可分别视为二元、多元分类问题。

Siri「听」见你的心

图一、整合对答内容与语音资讯之模型(来源:T. Alhanai et al, 2018.)

首先,输入的文字以Doc2Vec转换为向量,音讯则以约 300 个特徵值表示。音讯的特徵来自一帧帧影格的音高、共振峰频率、频谱特性,例如:梅尔倒频谱係数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。MFCC考量了人耳对不同频率声音的辨别程度,并取他们的平均值、标準差等统计资讯。

接着,以2至3层双向LSTM(bi-directional Long Short-Term Memory)模型,分别处理文字与音讯输入。激活函数(activation function)为tanh、sigmoid,并以交叉熵(cross-entropy)为损失函数(loss function)训练模型,判断这个人是否「沮丧」。

这是个「上下文无关(Context-free)」模型,因为机器没有限定要接收到什幺类型的问答内容,意即判断时不需仰赖对话中出现特定的问题与回答。此外,将资料以序列作为单位进行训练的另一大好处,则是能考量整段对话的内容,以及语调随时间的变化。学到这些与沮丧相关的语音特徵后,便能从新使用者所讲的话语中,寻找相近的特徵。

模型的表现

模型衡量的标準是精确度(precision)、召回率(recall)、以及综合前两者的F1分数。在精确度上,模型判定为沮丧的个案有七成与医师的判断相同;在召回率上,实际的沮丧个案有 83 % ,顺利为模型所侦测;F1 分数则达 77 %。相较于运用 SVM(Support Vector Machine,支援向量机)处理相关文字、音讯的模型(precision 60 %,recall 43 %)[4],有明显的进步。

过去的研究曾显示:有些字词,如:「难过」、「低落」等,常伴随较单调、波形较无起伏的音讯。而沮丧的人也倾向以较慢的语速说话,且词与词间有较长的停顿。目前研究人员正尝试摸索模型是基于哪些语音特徵来决定使用者的沮丧程度,希望能为结果提供更多解释,使人们对机器的判断更有信心。

编译来源

R. Matheson, “Model can more naturally detect depression in conversations”, MIT News, 2018.

参考资料

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)

上一篇: 下一篇:

推荐:

宝马娱乐登录网址_澳门银河y19|关注当前百姓生活|重点网络媒体|网站地图 申博sunbet138 申博亚洲sss667878