开云(中国)Kaiyun·官方网站 - 登录入口能作念到及时版块（不是预先生成-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期：2026-04-24 06:28 点击次数：57

我问过一些一又友为什么用豆包比别的App多。一个常见的谜底是语音交互作念的比较好。是以诚然从坐褥力角度开云(中国)Kaiyun·官方网站 - 登录入口，文本编码是token生成的主力，然而要是要让AI融入社会更多边际，语音AI其实是一个要点。我还记顺应年第一次听到Siri讲话有多骇怪。天然，可惜Siri十年无高出，这少量播客中也谈到了。

书反正传。今天故事的主角是ElevenLabs，好意思国语音AI赛说念的代表性公司。

Stripe CEO John Collison最近在我方的播客《Cheeky Pint》里和ElevenLabs皆集独创东说念主Mati Staniszewski作念了一场接近60分钟的对话，2026年4月14日在YouTube上线。John的发问方式一如既往地告成，"像Karpathy那样给我讲讲语音模子到底何如责任的""为什么手机上的语音体验照旧十年前的水平""你们的ARR数据到底是若干"。Mati险些莫得闪躲，把时期、产物、营业三个维度的中枢判断都讲了出来。

ElevenLabs在两个月前（2026年2月4日）刚刚完成Sequoia领投的5亿好意思元D轮融资，估值从一年前的33亿好意思元冲到110亿好意思元。这家2022年由两位波兰籍独创东说念主Mati Staniszewski和Piotr Dabkowski在伦敦拓荒的公司，用四年时刻把年度平常性收入（ARR）作念到了450million好意思元以上，其中2026年第一个季度单季就新增了超越100million。在AI领域，ElevenLabs平常被归类为"语音公司"，但Mati在此次对话里给出了一个更准确的自我界说：这是一家作念foundational audio models（基础音频模子）的研究公司，同期亦然一个匡助企业再行谋划客户交互方式的平台。

这篇著述把Mati在这场对话里讲到的重要判断作念了一次完竣的书面整理。

1. 从机械声说念到估量下一个音：语音模子200年的进化

John开场的第一个问题是：要是咱们像Karpathy讲LLM旨趣一样，从新讲一遍语音模子是何如责任的，那应该是什么样的？

Mati从18世纪讲起。第一个试图让机器发出东说念主声的东说念主叫Wolfgang von Kempelen，他用纯机械装配模拟东说念主的声说念（喉咙、嘴巴、鼻腔），试图让机器谈话。这台机器花了几十年才智发出元音。并吞个东说念主还发明了更着名的"机械土耳其东说念主"，一台看起来像是能下海外象棋的机器，实践上里面藏了一个真东说念主在操作。亚马逊自后给我方的众包平台取名Mechanical Turk，名字就来自这台机器。

从机械模拟到数字表示的跨越发生在Bell Labs。他们第一次用结构化的电子信号来表示语音，这是语音数字化的起原。再往后是phoneme拼接的期间。phoneme是语音学里的"音素"，便是把东说念主类发出的总计声息拆解到最小的单位，比一个音节还小。这个时期的语音搭伙本色上是一种拼接游戏：系统有一个音素库，字据概率判断下一个最可能出现的音素是什么，然后把它们串起来。

到了今天，语音模子的核神思制和大语言模子有了结构上的相似性，都是在估量"下一个"。LLM估量下一个文本token，语音模子估量下一个声息单位。但这两者的竣事旅途分辩浩大。ElevenLabs皆集独创东说念主Piotr Dabkowski的重要孝顺，是把Transformer架构和Diffusion模子这两种在天然语言和图像领域已警告证过的时期念念路引入了语音空间，让在phoneme层面的"估量下一个token"变得可行。在此之前，这条路走欠亨。

2. mel spectrogram和三段式活水线

传统的语音合成走的是一条"三段式"活水线：先把文本转成mel spectrogram，一种把声息的音高和能量随时刻变化的关系画成图的方式，再把这张"声息图"解码成最终的音频波形。Google DeepMind的WaveNet以及同期代的TTS模子基本都走这条路。

Piotr的作念法是在这条活水线上动刀：把中间的编码-解码武艺抽象掉一部分，让文本到波形的调动旅途更短。Mati在节目里莫得精通伸开时期细节，但他明确说这是ElevenLabs在架构层面的两大调动之一。

3. "Britishness是透涌现来的"：洞开式参数化怎样让声息更像东说念主

语音模子要作念到"像东说念主"，需要惩处两个并行的问题。第一个是前边说的怎样估量下一个声息单位。第二个相似重要：怎样让声息听起来像特定的"某个东说念主"，而不单是是一个正确但泛泛的朗诵机器。

Bell Labs期间的惩处决策是硬编码。工程师预先界说一组参数（音高范围、能量频谱、语速），然后从中登第组合。你要一个"温雅的英式口音男声"，就手动拨几个参数。

ElevenLabs的作念法反过来了。模子我方决定这些参数应该是什么，不预设英国口音、波兰口音、西班牙口音这些类别标签，也不预设"温雅""追到""垂危"这些心境标签。

"Britishness是透涌现来的。模子我方估量——是英国口音、波兰口音、照旧英语腔，都不需要预先界说。心境也一样。"

用机器学习的术语说，口音和心境在ElevenLabs的模子里，是emergent property，透露属性。模子在多数数据中我方找到了这些维度的表示方式，而不是东说念主类工程师一条一条编写礼貌告诉它什么是"英国口音"。这个相反告成讲授了为什么ElevenLabs早期的声息听起来就比同业更天然：硬编码参数撑不起确凿东说念主声里那么多维度的细小变化，口吻的彷徨、呼吸的节拍、句尾的神秘上扬。这些东西只好让模子我方学出来，才智作念到。

4. 数据标注才是着实的护城河

Mati说，任何模子都离不开三样东西：架构、算力、数据。关于语音来说，数据是最难的。

这听起来反知识，互联网上到处都是音频，播客、有声书、电话灌音、新闻播报。但问题在于，这些音频险些都短缺ElevenLabs需要的标注。"what"维度的标注相对丰富，说了什么内容、哪个词对应哪个时刻段，但"how"维度险些是空缺的。谈话东说念主在这段话里用了什么心境？他的口音偏向哪个区域？语速在哪些地方加速、在哪些地方延缓？何处有刻意的停顿？

ElevenLabs莫得去找外部标注干事商，而是我方组建了一支标注团队，专门进修他们识别音频里的这些细粒度特征。Mati直言，市面上的通用众包标注职业念不了这件事，他们对"声息"的解析不够深。

这支团队产出的标注数据集告成催生了一个附带收益。ElevenLabs当先作念语音转文本模子（speech-to-text）统统是为了私用，因为市面上莫得一个充足好的转写器具能承诺他们作念数据标注的精度要求。模子作念出来之后发现质地远超市面产物，于是索性发布出去，变成了一条新的产物线。ElevenLabs今天救济超越100种语言的语音转笔墨，这个才略的发祥便是"咱们的标注团队需要更好的器具"。

5. Eleven v3和Expressive Mode：从"模子我方演"到"你可以导演"

即便有了洞开式参数化和高质地标注数据，ElevenLabs的语音模子在2025年底之前还有一个显着的局限：你无法结果模子"何如说"。

你给模子一段文本，模子我方决定用什么节拍、什么心境、什么停顿方式去朗诵。要是你对此次的"演出"不惬意，惟一的观点是再行生成一次，等模子给出另一个连忙版块。这就像让一个演员目田证据：你要么继承他的演绎，要么重来一遍，但你莫得观点告诉他"这句话说慢少量""这里加一个戏剧性停顿""用更安抚的口吻"。

Eleven v3惩处了这个问题。这是ElevenLabs在2025年底发布的模子，第一次把controllability（可控性）引入了TTS。你面前可以给模子具体的演出辅导：调节语速、调节心境色调、在特定位置插入停顿。

在voice agent场景里，这个才略的产物化形态叫Expressive Mode。开启之后，agent能感知对话另一端谈话东说念主的心境情状。要是对方垂危，agent不仅在语义内容上给出安抚性回答（这由LLM隆重），同期在语音的音色、语速、调子上也作念出对应的调节（这由voice model隆重）。两层同期在心境上匹配，才智让对话嗅觉天然。

这个才略背后的前提条款，又回到了数据标注。要让模子学会"按辅导演绎"，进修数据需要同期标注"说了什么"和"何如说的"，这恰是ElevenLabs那支里面标注团队从一启动就在作念的事。

6. 文本LLM还是过了图灵测试，语音为什么差这样远

节目到大要20分钟时，John抛出了一个敏感的追问：

"我开车回家时想让手机给我读一份PDF。iOS的屏幕朗诵跟篡改配合不了。Gemini的语音模式告成卡死。总计汽车告白都说有语音结果，但实践体验烂透了。咱们用文本LLM、用Claude Code作念多样事情还是毫无闭塞了，为什么语音照旧十年前的样式？"

Mati承认这个判断是对的。"咱们照实在语音上过期了十年。他们还在用Siri的transcription。"

他给了一个时刻线来讲授为什么。能作念到有声书级别质地的文本转语音，只是三年前的事。能作念到及时版块（不是预先生成，而是边说边出），两年前。能着实部署到坐褥环境、承受企业级负载，2025年。也便是说，语音AI在时期上变得"够用"是极其晚近的事。

"2026年，车载场景能用上好的语音模子了，但那是云霄版块。纯土产货、不需要联网的车载语音，还要再等两三年。"

但时刻线只讲授了一半问题。另一半是：即便底层模子还是充足好了，把它作念成一个真恰好用的语音助手还需要惩处orchestration的问题，也便是各枢纽的编排。

7. orchestration：语音助手着实卡住的地方

一个语音助手在一轮对话里需要作念五件事，况且需要在极短的时刻内把它们串起来：

第一步，speech-to-text（语音转笔墨），把你说的话变成文本，这是"听"。

第二步，turn-taking（轮次判断），判断你是说罢了照旧只是在停顿念念考。这件事东说念主类靠直观完成，但机器需要详细判断千里默时长、句子是否语义完竣、高下文是否默示还有后续。这自己便是一个还没统统惩处的研究问题。

第三步，LLM推理，解析你的意图，生成回应。

第四步，器具调用，有些央求需要去数据库查信息、调用API扩充动作、查验身份考证。这一步时刻不行控，可能秒回，也可能需要几秒。在恭候的这段时刻里，agent需要"优雅地"不让对话断掉。

第五步，text-to-speech（笔墨转语音），把回应说出来。

单拎出来，每一步今天的时期都能作念到可以的水平。但把五步串在一皆、在低蔓延下和洽好、且全程嗅觉天然，这件事"还莫得通过着实的对话式图灵测试"。Mati用了一个荒谬义的坐标系来分级：在客服电话这种垂直场景里，ElevenLabs的agent还是能通过语音图灵测试了，你分不清电话另一头是东说念主照旧AI。但在洞开域场景里，比如和另一个"东说念主"在游戏里目田对话，还差得远。

8. cascaded照旧speech-to-speech：两条时期路子的遴选

围绕orchestration的商榷天然引出了一个时期路子问题。

今天行业里有两种作念voice agent的方式。第一种叫cascaded（级联式），便是上头说的五步活水线：speech-to-text → LLM → text-to-speech，每一步孤苦运行，中间用文本看成"邻接器"。第二种叫speech-to-speech，告成从输入的语音生成输出的语音，中间不经过文本层。

speech-to-speech的上风是蔓延低，少了两次文本调动，天然更快。劣势是你失去了对总计这个词活水线的可不雅测性。在cascaded架构里，你能看到每一步发生了什么：用户说了什么、LLM解析成了什么、生成了什么回应。要是某一步出错，你能定位问题。在speech-to-speech里，你只知说念输入和输出，中间是个黑箱。

ElevenLabs面前重押cascaded。原因是企业客户需要可见性、需要能在活水线中间插入业务逻辑（比如考证用户身份、查数据库、扩充操作），需要能设保护栏恶臭agent说出不该说的话，需要能审计每一轮对话。这些在cascaded架构里都可以作念到，在speech-to-speech里作念不到或者作念起来极其费力。

"speech-to-speech模子用的是更小的模子，是以它们也更笨。"

Mati以为speech-to-speech更妥贴"伴侣型"运用，用户瞄准确性和可控性要求没那么高，但对蔓延和花样连贯性要求高，甚而"幻觉可能反而是一个feature"。异日可能出现羼杂架构：浅薄对话走speech-to-speech，复杂任务走cascaded。

John追了一个荒谬义的角度：强制模子通过文本层推理，是否让模子变得"更智慧"了？就像笔墨的发明改变了东说念主类大脑的神经通路那样。Mati的回答是：speech-to-speech模子照实"更笨"，但部分原因是它们用的是更小的模子来保证速率。

9. personalized transcription：让机器只听你一个东说念主的声息

John在节目里吐槽了另一个我方的痛点：他有少量爱尔兰口音，Siri平常听不准他说的话。但他的口音不会变。表面上，一个专门"听过"他多数语音的模子应该比通用模子发扬好得多。就像你走进咖啡店，第一次和伙计谈话他可能听不太懂你的口音，但第十次他就统统能解析了。

Mati承认ElevenLabs面前的语音转笔墨亦然在跑大家通用模子，但他给出了一个明确的产物承诺：针对特定谈话东说念主作念fine-tune（微调）的个性化transcription版块，会在接下来几个月内上线。

他举了两个场景来评释这个才略为什么遑急。第一个是医疗：手术室里，大夫需要对系统下达语音辅导，周围有顾问、有麻醉师、有多样仪器声。系统必须只听大夫一个东说念主的声息，把其他总计东说念主的声息和布景杂音过滤掉。第二个是家用硬件拓荒：比如你家里有一个智能音箱，你可能但愿它只反映你的声息，也可能但愿它反映全家东说念主的声息，这应该是用户可以遴选的。

ElevenLabs还是能作念到相配好的speaker diarization，也便是谈话东说念主识别，在多东说念主对话中准确判断"这句话是谁说的"。这自己便是transcription领域里比较难的问题。下一步是在此基础上进一步作念到fine-tune，让模子对特定谈话东说念主的口音、用词习尚、发音特征有专门的适配。

10. form不如voice：ElevenLabs我方的实验

ElevenLabs在我方的注册历程里作念过一个对照实验：除了传统的"填表格留信息"，还加了一个选项，"和voice agent对话留信息"。

结果两件事同期发生。

第一，用户更怡悦走完历程。填表有显着的摩擦，字段多、要打字、半途容易烧毁。语音对话莫得这个问题，说几句话就完成了。第二，也许更遑急的是，用户在语音对话中怡悦提供多得多的信息。填表时，用户只会简单地写几个重要词描摹我方的需求。但一朝变成对话，他们会主动伸开，use case有多复杂、波及哪些系统、预算在什么量级。agent还可以追问澄莹，把信息粒度进一步推高。

"写出来很资料，说出来就天然多了。"

这个机制在跨过时期门槛之后还自带一个附加上风：多语言救济。agent能用任何语言对话，大家各地的潜在客户都可以用我方的母语留资，而填表平常只好英文。

ElevenLabs把这个才略洞开出来之后，还是有多家公司在此基础上构建AISDR，用AI驱动的销售印迹开发agent。从银行到汽车厂商，都有东说念主在用voice agent作念proactive outreach，也便是由agent主动拨打电话斟酌潜在客户，而不是等客户我方找上门。

11. 从330M到450M+：一个季度新增100million ARR

ElevenLabs在2025年底的ARR约为330million好意思元（公开数据；Mati在节目里口述的数字是350million，与官方口径略有进出）。2026年第一个季度，单季新增ARR超越100million好意思元，Mati称之为"企业增长最强的一个季度"。按这个口径推算，到播客录制时（2026年4月）公司ARR还是在450million好意思元以上。

企业业务里超越50%还是走sales-led销售模式，也便是由专职销售团队主导签约而非客户自主下单。客户名单里有Deutsche Telekom、T-Mobile、Revolut、Klarna、Meta、IBM。但ElevenLabs的增长引擎并不单靠企业直销。

12. self-serve为什么是必选项

John在节目里追问了一个好多东说念主想问的问题：你们为什么宝石self-serve？

self-serve的理由是用户无用经过任何销售斟酌就能我方注册、我方选配、我方付费、我方启动使用产物。Stripe自己便是这种模式的典型——开发者掀开官网，当天就能集成支付功能，不需要和任何东说念主打一通电话。ElevenLabs在这件事上和Stripe有始有终。

AI行业里有多数公司把产物藏在"Contact Sales"按钮后头。你想试用？先填个表，等SDR（Sales Development Representative，隆重开发新客户的销售岗）斟酌你，再安排demo，再走采购历程。ElevenLabs的作念法统统相背：险些总计产物和模子都可以在网站上告成注册使用。

Mati给了几档次由。

ElevenLabs用户用得顺不顺、模子遵循好不好、哪个功能有bug，self-serve能让你在最短时刻内看到确凿反馈。Contact Sales模式下，产物问题时时要经过多层传递才智到达工程团队。

第二，时期自信。"咱们信托咱们的时期是大家最佳的，是以咱们但愿总计东说念主都能告成体验。"Mati说Stripe亦然一样，最佳的时期版块对总计东说念主洞开，这自己便是最强的营销。

第三，开发者和中小企业用户是异日的探路者。他们时时比大企业更怡悦尝试新模子的范围才略，用出团队我方都没猜想的use case。ElevenLabs的每一代新模子发布时，起先玩出款式的都是self-serve用户。

"新模子发布时咱们平常以接近资本价提供给客户，让他们能用上最佳的版块——诚然新模子对咱们来说资本反而更高。"

最贵的资本卖最低廉的价钱。逻辑是先让用户看到才略的天花板，把distribution（用户遮蔽面）作念起来，再在usage增长中把经济模子跑通。

Mati还在节目里announce了一个新动作：ElevenLabs行将给所灵验户洞开纯pay-as-you-go付费模式。曩昔用户只可买订阅套餐，面前可以统统按量付费，用若干付若干。

这个变化的布景是一个荒谬义的故事。Mati说他永远向Stripe团队反馈一个诉求：但愿Stripe救济usage-based billing，按用量计费的才略。Stripe那边一直没作念。结果Mati的财务隆重东说念主Maciek和Stripe团队聊完的第二天，Stripe就官宣了收购Metronome，一家专门作念usage-based billing的SaaS公司。"是以面前你们有了。"

这是AI期间产物订价的一个开阔趋势。订阅制打底，但必须给用户按量付费的选项。John我方举了个例子：你在用Claude，打字打得正欢，俄顷被奉告"你已达到当天使用上限"。你想多付钱陆续用，但系统不给这个选项。这是一个显着的产物劣势，每一个AI产物都需要惩处。

13. voice模子的经济学：参数更少、资本更低、但尺寸不会无尽涨

John问：语音模子的进修资本和大语言模子比起来何如样？

谜底是小得多。语音模子的参数目级在几十亿到一百亿出面之间（few billion to low tens of billion）。看成对比，头部大语言模子的参数目级在千亿级别（hundreds of billions）。模子更小意味着进修资本更低，但ElevenLabs最新的5亿好意思元融资仍然有十分一部分要花在研究和算力上，因为他们在作念的不单是是语音模子，还有音乐模子、配音模子、对话模子等总计这个词"音频堆栈"。

语音模子的尺寸会不会像LLM一样越作念越大？Mati以为不会无尽涨。比如有声书朗诵，模子大小还是接近天花板，再加参数对证地的擢升很有限。在cascaded架构里，语音部分会一直保持小而快，你不但愿它成为总计这个词活水线的蔓延瓶颈。但要是异日出现和会架构（把语音和LLM合在一个端到端模子里），阿谁模子会大到十亿、千亿参数级别。

订价口径上，TTS产物按文本token计价，voice agent和transcription按通话时长（分钟）计价。企业合约按年签，范围越大扣头越深。

14. land-and-expand：从一个部门扩张到总计这个词公司

ElevenLabs和Deutsche Telekom的互助是一个典型的land-and-expand案例。当先的切入点是marketing，帮品牌作念Magenta斟酌的语音内容和播客生成。作念完之后遵循好，扩展到了客户救济。再之后，扩展到了电话相聚层面，让用户拨入电话就告成跟AI agent对话。三个部门，并吞个时期平台，但每次扩展都波及新的集成、新的合规要求、新的业务逻辑。

爱尔兰有一个叫Guinness Pint Index的项目也引起了Mati的关注。一个开发者用ElevenLabs的voice agent主动给爱尔兰的3000家酒吧打电话，问现时一品脱健力士黑啤卖若干钱，然后汇总成一个世界及时价钱指数。这种proactive agent场景，agent主动发起对话、汇集信息、汇总结果。曩昔要么不存在，要么资本高到只好大企业才作念得起。面前是一个东说念主、一个周末就能搭起来的事。

OpenClaw生态里ElevenLabs亦然默许保举的voice器具。用户搭建我方的AI agent时，OpenClaw会优先保举ElevenLabs看成语音层。这给ElevenLabs带来了一批新的个东说念主开发者用户，和self-serve造成了正轮回。

15. 给失去声息的东说念主把声息找总结

在总计营业和时期话题之间，Mati插入了几个让节目歧视显着变化的案例。

ALS（肌萎缩侧索硬化症）患者和喉癌康复者，通过ElevenLabs的声息克隆时期，第一次能用接近我方原来声息的方式和家东说念主谈话。Neuralink互助过的一位患者，通过脑机接口配合ElevenLabs的声息重建，收复了用我方声息抒发的才略。还有一位女士，娶妻前俄顷失去了声息。等了数年，ElevenLabs的时期终于大约基于她曩昔的声息样本重建出充足传神的版块。她用这个声息再行念出了婚典誓言。

Mati说这是他们作念的总计事情里最遑急的一件。

ElevenLabs在2026年3月公开告示了一项承诺：参预10亿好意思元的免费声息重建时期，干事100万长期失声的东说念主。对一家估值110亿的公司来说，这十分于把10%的价值告成参预到一件莫得营业答复但有慑服社会价值的事上。

16. 470东说念主、span of control翻倍、每个团队都偶然期主干

ElevenLabs面前大要470东说念主。公司2022年拓荒时只好两个东说念主，Mati和Piotr。其时候的行业热门照旧crypto和metaverse，AI波澜还莫得起来。

Mati和Piotr各自的告成报告东说念主数都超越15个。传统束缚学课本提议的span of control（束缚幅度）大要是6-8个告成报告东说念主。ElevenLabs翻了一倍。Mati承认这是创业者跑通之后的过后总结，不一定适用总计公司，"五到十年后才知说念对不合"。

每个产物所在、研究所在的团队范围保持在10东说念主以下。go-to-market团队按行业切分红更小的单位，每个单位孤苦真切我方隆重的商场。

另一个机制相似重要。ops和talent这种传统上不写代码的部门，ElevenLabs里面都会配一个时期主干，十分于这个非时期团队的"tech lead"。这个东说念主的职责是把团队的责任流自动化、把数据变成可以探索的形态、把能用剧本替代的手工操作全部剧本化。

招聘团队便是一个例子。时期主干帮他们批量合手取合适的候选东说念主画像、分析哪些招聘信号和入职后的发扬正斟酌、自动生成定制化的口试速读材料给口试官。这里的时期资源饰演的是amplifier（放大器）的变装，不是replacement——它不替代招聘共事，而是把每个东说念主的产出成倍放大。销售、客户得手、商场部门也在用相似的逻辑运转。

17. agency：Mati以为AI期间最遑急的职工教导

"高agency的东说念主是AI波澜的赢家。组织里低agency的东说念主会被淘汰。"

John抛出这个不雅点，Mati统统认可。

agency在ElevenLabs文化里指的是一种不等辅导、我方找问题、我方探索惩处决策的主动性。非论你是第一年的低级工程师照旧十年警告的VP，要是你有agency，AI器具会成倍放大你的产出。要是你莫得，再多的器具也帮不了你，因为你不会主动去用它们。

ElevenLabs筛东说念主时最敬重四点：第一性旨趣念念维（first principles），owner心态（ownership），追求超卓（striving for excellence），保持祥和（staying humble）。Mati说ownership里最重要的一项便是agency。

他还说了一句话，也许是全场最私东说念主的抒发：他和Piotr最夸耀的事，是看见公司被文化建起来，而不是被某一个东说念主或某一个产物建起来。当文化自己成为增长引擎，独创东说念主就不再是瓶颈了。

中枢问答

Q1: ElevenLabs的语音模子比拟同业听起来更像东说念主，时期上的重要相反是什么？

把"怎样说"，即心境、口音、韵律、停顿，作念成模子的透露属性（emergent property），而不是东说念主工硬编码的参数。模子在多数高质地标注数据中我方学会了这些维度的表示方式。前提是ElevenLabs我方组建了一支懂音频的专科标注团队，提供了市面上不存在的"how"维度标注。最新的Eleven v3还把controllability加了进来：你可以告诉模子何如说，而不单是是说什么。

Q2: 为什么文本LLM还是过了图灵测试，语音AI还没过？

不是单个模子不够好，是orchestration（编排）还不够好。一个完竣的语音agent需要在毫秒级蔓延内串联五个枢纽（听、判断你是否说完、念念考、调用器具、说），况且每个枢纽的时刻不行控。在客服电话这种垂直场景里，这套编排还是能通过语音图灵测试了。但在洞开域对话里，距离"分不清对面是东说念主照旧AI"还有显着距离。

Q3: ElevenLabs从330M到450M+ ARR，中枢增长机制是什么？

self-serve打底的land-and-expand。总计模子和产物对外洞开使用，新模子甚而以接近资本价提供，让distribution先跑起来。企业客户从一个部门切入（平常是marketing或support）开云(中国)Kaiyun·官方网站 - 登录入口，考证遵循后向其他部门扩散。470东说念主的公司里企业业务超越50%走sales-led模式，但底层的用户感知和口碑传播靠self-serve驱动。

上一篇：开云(中国)Kaiyun·官方网站 - 登录入口毕竟史姑娘专员这个事情也曾不簇新了-开云(中国)Kaiyun·官方网站 - 登录入口
下一篇：没有了

开云(中国)Kaiyun·官方网站 - 登录入口能作念到及时版块（不是预先生成-开云(中国)Kaiyun·官方网站 - 登录入口

热点资讯

相关资讯