声纹识别是个什么原理?

谢邀

区分于专一将语音转换为文字的语音识别(speech recognition, 运用如语音输出法), 声纹识别目标正在于判别谈话者 / 发声者的身份(Identity) [1]。

声纹识别有两种运用处景: 1:1 考证(简称考证, Verification), 譬如显现为女友人 / 妻子的电话号打来, 接听以后发明声响没有是她, 那就让人缓和;1:n 考证(又称识别, Identification), 譬如生疏电话打来, 对于方说一句字面上没有任何意思的"老王, 是我啊", 要是然是熟人, 你就能很快辨患上 TA 的身份, 要是觉患上没有是, 那就有能够是某省的人打来的了。

声纹识别有两种识别场景: 文真相干的, 这需求谈话者说出流动的文本内容来给算法考证 :

azure.microsoft.com/en-

譬如, 汽车开起来有异响,咱们能够果断车出题目了; 文本没有相干的, 则没有需求谈话者说流动内容, 类比于汽车失常跑时刻没啥异响, 但过加速带时刻会有显然的异响. 经过这两个类比能够果断, 文本没有相干的声纹识别要比文真相干的要更具难度.

声纹识其余本色, 便是要找到形容特定工具的声纹特色(feature)。

声纹特色能够分为听觉特色(Auditory feature)和声学特色(Acoustic features)。 前者是指人耳能够甄别和形容的声响特色, 譬如谈话气声多 / 中气统统如许的形容。 后者是指盘算机算法(数学法子)从声响信号提掏进去的一组声学形容参数(向量)  [2]。 无非这二者本色上照样一回事, 因为人耳能够鉴其余声响特色也能够运用算法天生和提掏进去。

声纹特色另有言语学特色和非言语学特色, 譬如两湖区域的人谈话一般 n/l 没有分, 南边人分没有清卷舌战争舌音, 和一些特定的方言说法等。 这种特色能够辅佐声纹识别, 放年夜 1:n 考证时刻的检索工具局限。

此外, 声纹特色还能够分为短时特色和永劫特色。 类比咱们对于一集体的形容, 要是是一个失落的人, 咱们会形容他离家时穿甚么衣服(短时特色), 身高性别(永劫特色)等; 形容一个熟人的时刻, 咱们一般会说 TA 的脾气,干事格调(永劫特色)等, 这时刻要是说 TA 穿甚么衣服就显患上好笑了。 正在声纹识别领域, 咱们最常运用的是声纹的短时特色, 因为咱们用于识其余一段话一般都对于比短。 永劫特色一般是短时特色的均匀, 譬如根基频次 / 频谱特色等等。 永劫特色因而更少遭到谈话语气 / 谈话者身材状况变迁的影响。

声纹识别正在数学操作上, 便是对于输出的声响信号停止数学操作, 失去一组特色形容向量。 声纹识别法子的优劣, 则重要正在于从分比方声纹工具提取的分比方特色向量的区分度, 和从相反声纹工具的声响正在分比方光阴提取的特色向量之间相似度。 前者称为类间悬殊(Interclass Varience), 后者称为类内悬殊(Intraclass Varience)类比咱们对于一集体的形容, 要是说 TA 出门穿衣服, 这个形容能够作为一个特色, 然而没有是一个好特色, 因为险些一切人出门都邑穿衣服, 这个特色形容的类间悬殊过小。 而要是说 TA 脸部某其中央有个胎记, 那这便是一个好的形容特色, 因为这个形容拥有很好的区分度(类间悬殊年夜)和复现性(类内悬殊小)。 失去声纹工具的特色向量以后, 咱们把这个特色和注册的声纹特色向量停止对于比, 譬如盘算欧氏间隔(d), 当这个间隔年夜于未必值(Th)时, 咱们觉患上是源自分比方人, 小于这个值时, 则觉患上是统一集体。

至于特色提取法子, 遵照倒退进程有模板立室, 高斯夹杂模子(GMM), 联合因子剖析法(JFA), 深度神经收集法子等【3】。 深度神经收集以前的法子基础能够觉患上是传统法子。 传统法子是用能够用准确数学模子形容的操作对于声响信号停止剖析, 失去的特色拥有较好的可注释性, 需求的数据量绝对于较小。 深度神经收集对于声响信号的操作则未便运用数学模子停止准确形容, 它是一种数据驱动的法子, 需求更少量的数据对于模子停止练习(有多多数据 / 野生, 就有几智能)。 无非深度神经收集是更加壮年夜的特色提取法子, 只有保障充足多亲睦的数据输出, 就能够预期较好的动机。

咱们人脑的声纹识别体系跟盘算机声纹识别基础相似[4], 无非人脑的声纹特色提取更加灵便, 能够更没有便的联合短时 / 永劫 / 言语学 / 形象声响特色等形容停止剖析 [5]。

因为统一个声纹信号的多变性, 声响收罗设施的影响, 情况噪声的影响, 声响内容的变迁等要素, 声纹识别现正在还难以做到很高的正确率和牢靠性(FAR)。 因而正在运历时没有宜作为第一选项。


[1] Campbell, Joseph P. "Speaker recognition: A tutorial."Proceedings of the IEEE 85.9 (1997): 1437-1462.

[2] Mariéthoz, Johnny, Samy Bengio, and Yves Grandvalet.Kernel Based Text-Independnent Speaker Verification. No. LIDIAP-REPORT-2008-013. Idiap, 2008.

[3] Snyder, David, et al. "X-vectors: Robust DNN embeddings for speaker recognition."Submitted to ICASSP(2018).

[4] Maguinness, Corrina, Claudia Roswandowitz, and Katharina von Kriegstein. "Understanding the mechanisms of familiar voice-identity recognition in the human brain."Neuropsychologia (2018).

[5] Badcock, Johanna C., and Saruchi Chhabra. "Voices to reckon with: perceptions of voice identity in clinical and non-clinical voice hearers."Frontiers in Human Neuroscience 7 (2013): 114.

 

觉得好的话记得打赏赞助小灰灰哦,小灰灰灰更有动力的,谢谢

小灰灰

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: