Skip to content

请问下对于播客dialogue生成的时候对文本有什么规定的格式么? #45

@phoenixdna

Description

@phoenixdna

发现现在不能随意使用的标点有:双引号“角色风格突变”,破折号——,ms 念不出来;
请教下对于这种S1,S2交互的文本有些啥 具体格式上的要求?

比如我们部分的播客脚本如下,发现效果很差。

[S1]哦,就是抓重点的压缩,不丢关键信息对吧?
[S2]对呀!这样既省算力,又保语义。比如智能客服,你问快递到哪了,AI瞬间就答,不用等半天——这对5G、车载这种毫秒级场景太重要了。
[S1]那第二个技术,双Transformer,大解码器加小解码器,这俩咋分工啊?
[S2]像杂志社的主编和编辑——大解码器是主编,定整篇播客的基调。比如小宇老师用它做鸡兔同笼,主编先定温柔耐心的调;小解码器是编辑,抠每句话细节:讲到兔子抬脚,它会放慢到每分钟180字,语调降两度,像真人给孩子讲题时的耐心。对比传统方案,连贯性提升32%,CER才1.66%——生成10分钟故事,不会讲到一半突然断句或者语调跳戏。而且大解码器会偷偷学小解码器的细节,比如讲到奶奶的手,它会跟着放慢,像真人回忆时的哽咽。
[S1]哇,大解码器管大方向,小解码器管小情绪!那实际听感呢?真能比真人自然?

最后这个S1中,居然出现了角色都搞错的情况。不知道其他兄弟有没有遇到。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions