-
Notifications
You must be signed in to change notification settings - Fork 122
Open
Description
发现现在不能随意使用的标点有:双引号“角色风格突变”,破折号——,ms 念不出来;
请教下对于这种S1,S2交互的文本有些啥 具体格式上的要求?
比如我们部分的播客脚本如下,发现效果很差。
[S1]哦,就是抓重点的压缩,不丢关键信息对吧?
[S2]对呀!这样既省算力,又保语义。比如智能客服,你问快递到哪了,AI瞬间就答,不用等半天——这对5G、车载这种毫秒级场景太重要了。
[S1]那第二个技术,双Transformer,大解码器加小解码器,这俩咋分工啊?
[S2]像杂志社的主编和编辑——大解码器是主编,定整篇播客的基调。比如小宇老师用它做鸡兔同笼,主编先定温柔耐心的调;小解码器是编辑,抠每句话细节:讲到兔子抬脚,它会放慢到每分钟180字,语调降两度,像真人给孩子讲题时的耐心。对比传统方案,连贯性提升32%,CER才1.66%——生成10分钟故事,不会讲到一半突然断句或者语调跳戏。而且大解码器会偷偷学小解码器的细节,比如讲到奶奶的手,它会跟着放慢,像真人回忆时的哽咽。
[S1]哇,大解码器管大方向,小解码器管小情绪!那实际听感呢?真能比真人自然?
最后这个S1中,居然出现了角色都搞错的情况。不知道其他兄弟有没有遇到。
Metadata
Metadata
Assignees
Labels
No labels