问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
查看: 93|回复: 5

PIT & uPIT for Speech Separation

[复制链接]

3

主题

4

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2023-1-8 15:29:57 | 显示全部楼层 |阅读模式
PIT

Pit方法不同于多类回归问题或者deep clustering。它是直接优化最小的分离损失(pit & upit是优化mse损失,如果把mse损失换成SNR会有什么结果呢?类似TasNet
CASA计算听觉场景分析:机器将声音信号转化为有意义的信息的过程
分类网络通常需要混合物和其并行的目标源。优化网络以预测通常属于每个时频仓的,属于目标类别的源。
类似这样(mix<—>[target_spk1, target_spk2])
为什么大部分人都去做音乐或者背景噪声的分离,因为语音的特征相较于背景或音乐的特征更加复杂。音乐/噪声的音色比较固定。
DPCL方法对于two speaker和three speaker分离效果都是比较好的,但是DPCL方法存在一个近似假设,假设某一个tf-bins只属于一个speaker,这毫无疑问是不正确的。此外,该方法不能够与其他的方法结合(这个也是为什么PIT方法在后面语音分离任务上使用的更加广泛)。
先前的一些语音分离任务将该任务当做多类回归问题,分割问题,聚类问题。


这个说的意思就是我们在训练的时候仅考虑幅度谱,在测试的时候我们才考虑相位信息。


这一部分我比较存疑,因为在DPCL的文章里其实在inference也是变相的通过深度学习网络来估计mask。
首先文章中提出了一个损失函数使用的是IRM




但是这样就会出现一个问题。当存在slience区域时,mask的分子和分母都为零不方便计算。
因此,pit文章中介绍了另一种改进。直接将预测的audio与真实的audio之间计算mse损失。这就可以避免分子分母为零无法计算的情况。


PIT:就是他的训练准则。
Segment-based decision marking:在inference用来标记每一个meta-frame的位置。


这里说的意思应该是reference source是以集合形式给出,而不是一个有序列表。这是也是pit的训练准则,找到所有排列组合中最小的loss。


meta-frame: 在文章中说的意思是连续的N帧。


这个内容我个人想法是和下面的图类似。如果一个utterance被分为五个meta-frame,而他们通过pit方法输出的结果并不一定按照他们输入的顺序输出。


于是就设计一种speakertracing algorithm方法来应用在network的输出部分。本身论文并没有提出speaker tracking的算法,直接和target比算的oracle结果。
<hr/>uPIT

在该篇文章说了DPCL的另一个问题,也是DPCL核心问题:就是DPCL的目标函数是mix和target的embedding之间的差距,而我们真正想要是不同utterances之间的差距。
其实uPIT的方法就是使用了LSTM将原来PIT的meta-frames改为整个utterance。 本篇文章还提出了IAM(Ideal Amplitude Mask), IPSM(Ideal Phase Sensitive Mask), INPSM(Ideal Nonnegative PSM).

参考文献:


  • Hershey J R, Chen Z, Le Roux J, et al. Deep clustering: Discriminative embeddings for segmentation and separation[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 31-35.
  • Yu D, Kolbæk M, Tan Z H, et al. Permutation invariant training of deep models for speaker-independent multi-talker speech separation[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017: 241-245.
  • Yu D, Kolbæk M, Tan Z H, et al. Permutation invariant training of deep models for speaker-independent multi-talker speech separation[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017: 241-245
回复

使用道具 举报

4

主题

12

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2023-1-8 15:30:28 | 显示全部楼层
你好楼主,有相关speaker segmentation开源代码吗
回复

使用道具 举报

1

主题

4

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-1-8 15:31:21 | 显示全部楼层
这个部分还没有涉及,可能以后会做Speaker diarization。类似segmentation
回复

使用道具 举报

0

主题

5

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2023-1-8 15:31:35 | 显示全部楼层
噢噢
回复

使用道具 举报

0

主题

7

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2023-1-8 15:32:05 | 显示全部楼层
"使用了LSTM将原来PIT的meta-frames改为整个utterance"这样做为啥可以解决置换训练标签排列问题以及不用speaker tracing step了呢[好奇]
回复

使用道具 举报

1

主题

8

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2025-6-26 12:45:04 | 显示全部楼层
呵呵。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-7-7 21:52 , Processed in 0.084116 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表