关于提取语义features #68

ChaofengWu0 · 2025-01-09T12:21:18Z

你好，谢谢你这么棒的工作！
我有下面的这些问题想要问一下：
1.WavTokenizer可以提取帧级别的音素embedding吗？
2.WavTokenizer说到可以提取75tokens每秒，我在操作过程中用了part2部分的代码，用的是WavTokenizer-small-320-24k-4096这个模型，config设置的是wavtokenizer_smalldata_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml（这个是仓库里给的），我输入了两份语音，一份是12秒，在partB提取出的tensor的shape是（1，1，936）；一份是8秒，在partB提取出的tensor的shape是（1，1，610）。这是为什么呢。
3.我如果对一个语音片段做了WavTokenizer，想提取整段的语义embedding，直接用partB的代码就可以了吗？config和pre-trained模型用wavtokenizer_smalldata_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml 和 WavTokenizer-small-320-24k-4096可以吗？

jishengpeng · 2025-01-10T07:34:46Z

想提取整段的语义embedding，直接用partB的代码就可以了吗？config和pre-trained模型用wavtokenizer_smalldata_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml 和 WavTokenizer-small-320-24k-4096可以吗？

非常感谢你的关注

wavtokenizer可以提取帧级别的信息，codec在这一点上可以等价mel，但是在wavtokenizer中我们并没有和音素强制对齐。
如果你使用75token版本，他的原理是用一维采样信号的维度除以下采样倍数320，比如24000个点除以320得到75。我猜测你的情况来自于不是精确的24000个点。
encoder之后表征的就是包含语义和acoustic信息的特征了，如果需要离散化，就再过VQ就可以了。

ChaofengWu0 · 2025-01-10T07:50:49Z

好的，谢谢你，我再研究研究

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于提取语义features #68

关于提取语义features #68

ChaofengWu0 commented Jan 9, 2025

jishengpeng commented Jan 10, 2025 •

edited

Loading

ChaofengWu0 commented Jan 10, 2025

关于提取语义features #68

关于提取语义features #68

Comments

ChaofengWu0 commented Jan 9, 2025

jishengpeng commented Jan 10, 2025 • edited Loading

ChaofengWu0 commented Jan 10, 2025

jishengpeng commented Jan 10, 2025 •

edited

Loading