对话时空壶田力:当AI遇上同传,建造跨语言沟通的巴别塔

360影视 国产动漫 2025-04-01 23:33 3

摘要:科幻小说《银河系漫游指南》里面有种叫巴别鱼的生物,可以突破传统翻译工具的物理限制,通过解析脑电波实现跨物种语言的即时互译。这个看似遥不可及的幻想,如今在深圳一家名为时空壶的公司手中,正逐步走向现实。

电影《银河系漫游指南》中的巴别鱼

科幻小说《银河系漫游指南》里面有种叫巴别鱼的生物,可以突破传统翻译工具的物理限制,通过解析脑电波实现跨物种语言的即时互译。这个看似遥不可及的幻想,如今在深圳一家名为时空壶的公司手中,正逐步走向现实。

时空壶是全球首创AI同传翻译耳机的公司,他们正在用技术打破人类之间的语言壁垒,让跨语言交流变得如同说同一种母语一样自然。从2016年创立至今,他们的产品已销往全球170多个国家,并且在北美市场占据了40%的份额,用户突破百万。今年初,中国海关总署甚至将时空湖的W4 Pro同传翻译耳机作为中国从“制造”到“智造”转型的代表展示给全世界。

随着大模型技术的发展,AI翻译正从简单的“直译”进化为理解语境、把握情感的"意译"。年初在拉斯维加斯举办的消费电子展(CES)上,时空壶发布了翻译行业的首个人工智能同声传译系统Timekettle Babel OS (The Road to Babel Fish 通往巴别鱼之路),首次将大语言模型作为AI翻译的底层能力,打造逼近母语的自然交流体验,赋能时空壶各终端硬件和软件应用。

其中“Babel”在希伯来语中的原意是“混乱”。《圣经》中有一个“巴别塔”(Tower of Babel)的故事。根据这个故事,人类原本说同一种语言,并试图建造一座通天塔。上帝为了阻止这一计划,让人类说不同的语言,相互无法理解,从而使塔无法完成。

在跟时空壶创始人田力的对话中,他提到当美国一位牧师使用时空壶的产品让说不同语言的教徒能在同一次礼拜中交流时,牧师感叹道:“上帝要爱世人,但是你们这个产品帮助我们把不同的族裔的人聚在了一起……宗教还没做到这一点,科技产品帮我们做到这一点。”

在一个日益全球化但语言障碍依然存在的世界,科技能否真正打破人类交流的最后屏障?我跟田力探讨了时空壶面临和克服的技术挑战:从双向收音的蓝牙通信难题,到无需唤醒词的语音识别,再到真正意义上的双向同声传译。时空壶的技术壁垒到底在哪里?为什么连苹果、科大讯飞这样的科技巨头也难以复制他们的核心功能?在AI时代,语言翻译技术的未来在哪里?

存在于科幻小说中的“巴别鱼”如何在现实中逐步成形,以及它将如何改变我们理解与交流的方式,这是本期播客的主要内容。

以下为节选。

品牌渊源与科幻DNA

潘乱:“时空壶”这个名字听起来像科幻小说中的装置,它有什么来源或典故吗?

田力:这个渊源很有意思。我是科幻迷,最喜欢的作家之一是阿西莫夫。他有本被誉为历史上最伟大的中篇科幻之一《永恒的终结》,里面有个悬浮在空中的时间机器叫”时空壶”。我们公司前台就做了这么一个装置,公司名字就这么来的。

潘乱:贝佐斯曾表示《星际迷航》影响了Alexa的设计,马斯克则称《银河系漫游指南》启发了他的太空探索。我看你们公司会议室也都是用科幻元素的名字命名的,时空壶还有哪些元素是直接从科幻作品中获得灵感的?

田力:我们的会议室都是以著名科幻作家或作品命名的。我们现在所在的会议室叫“三体”。我们即将建设的声学实验室很可能会叫“42实验室”,取自《银河系漫游指南》中“宇宙的终极答案”。

还有一个会议室叫“巴别鱼”,也来自《银河系漫游指南》。主角在宇宙飞船上听不懂外星人说话,就塞了一只鱼在耳朵里,就能听懂外星人说话。这个形象在英美国家非常深入人心,知名度接近西游记在中国的地位。

在科幻世界中,翻译设备的想象有两个著名IP:一个是巴别鱼,另一个是《星际迷航》里的宇宙翻译器。这些科幻作品对我们的产品开发有天然的启发。

创业初心与技术突破

潘乱:你大概是什么样的从业背景,为什么会想到创业做AI同传耳机这个方向?

田力:我并没有一开始就想做这件事。我的性格比较喜欢折腾,不太喜欢做同质化的事情。我从上一家硬件创业公司出来后,因为之前的工作关系,认识了很多AI公司的人,包括微软、谷歌、科大讯飞等。

创业的契机源于三件事:

第一,当时我意识到2016年左右AI技术有了重大突破,但很多公司在做AI To B,做解决方案和项目,最后变成了软件项目外包公司。很少有公司能做出产品让普通消费者感受到AI的价值。

第二,我父母去欧洲旅游时,虽然我给他们下载了很多翻译APP,但他们回来说连去便利店买水的勇气都没有。我妈妈在阿尔卑斯山突发高原反应,但无法与说法语的医生交流。他们觉得拿着手机那种尴尬的姿势交流不符合习惯。

第三,我在深圳高交会亲自尝试用翻译APP与外国展商交流,发现实际效果很差。需要按住说话、松开翻译,对方要看屏幕,反应迟钝,还容易错过对方的开头几句话。很难坚持超过一分钟的交流。

这让我认识到,虽然AI翻译技术已经较为成熟,但在现实中两个不同语言的人很难像朋友聊天一样自然交流。问题不在于翻译技术本身,而是需要创造一个让人们愿意交流的场景。

潘乱:你曾是华为中国区最年轻的金牌个人获奖者,华为工作经历对你有什么帮助?

田力:华为对我是从0到1的历练。它在中国可能是管理最好的公司,没有之一。在华为我做市场工作,虽然学的是工科。华为教会我基本素养和思维方式的转变。比如,做一个好的销售,首先是利他而非利己的,需要关心对方的感受,理解对方的价值点。华为也教会我职业素养、如何与上下级同事合作、如何交付等基本训练。

开拓新品类的挑战与思考

潘乱:时空壶最近被《新闻联播》深度报道了近四分钟,这是很有含金量的认可。中国海关总署也认可它为代表中国从“制造”到“智能制造”转型的典范。你如何看待中国在全球AI硬件行业中的地位演变,像时空壶这样的公司能扮演什么角色?

田力:首先感谢CCTV和海关领导的认可。我们对自己定位很清晰,我们是产品公司,是小公司,在这个大潮中只是一朵小浪花,但努力成为“弄潮儿”。

从我的角度看,中国的基础设施、技术和信息流动,已经让深圳的创业者,或中国任何角落的创业者能够共享全球资源和视野。我们站在巨人肩膀上,以前是谷歌、微软、科大讯飞,今天则是OpenAI、DeepSeek等。

就像从哈勃到韦伯望远镜,是有递进关系的。我们享受了基础设施的便利,包括物理和信息层面的,开发时可以利用大家的经验和教训。

潘乱:为什么这波AI硬件公司大多聚集在深圳?

田力:硬件这块主要是产业链便利。在深圳,打车半小时就能到达很多上下游合作伙伴,有很多交流活动。比如韶音在我们旁边,大疆在15分钟车程内,还有很多优秀硬件公司都在附近,方便交流。

上游如东莞、惠州有很多工厂,非常开放,即使我们是小公司,他们也愿意尝试合作。我们第一代产品就是在一家上市公司的几千人工厂生产的,很感谢他们。

深圳还有很多方案商,这在其他地方可能不是特色。想做产品时,不需要从零开始思考用什么芯片,而是可以找方案商,他们像导师一样帮你完成市场认知建立、技术方案选择、芯片选型等全流程,几乎可以“拎包入驻”。

潘乱:作为新品类的开创者,时空壶最大的优势是什么?在没有成熟市场参照的情况下,你如何判断产品方向的正确性?

田力:正因为我们是新品类的开拓者,在无人区行走,就像发现新大陆一样有先发优势。前提是你没有“死在沙滩上”,而是真的登陆了。

关于如何判断方向正确性,实事求是地说,最初我们并不确定。我们的第一代产品设计——两个人各戴一只耳机交流——当时有很大争议。大家认为陌生人很难接受这种方式。

但我们决定先做出我们设想中的体验,再检验市场接受度。即使只有少部分人接受,只要他们的体验被颠覆,那这个无人区的探索就算阶段性成功。然后通过与用户深度交流,发现产品问题,进一步改进。

我们的终极目标很清晰:就是让人们像我们现在这样自然交流。苹果产品的目标是“disappear”,让用户几乎感觉不到它的存在。我们也一样,希望最终的体验不需要规划、不需要教育,就像人类上百万年的自然交流方式——看着对方的眼睛,张口说话,不需要做操作,像朋友一样聊天。

技术突破:从无到有的探索

潘乱:“把翻译软件塞进蓝牙耳机”这事难在哪里?

田力:最初我以为很简单,找人开发翻译软件,找个蓝牙耳机和它结合就完了。但我找遍了很多方案商,都说做不了。

为什么?我们设想的场景是两个人各带一个耳机进行交流。但标准的蓝牙耳机在录音时只有一只耳机在工作。虽然播放音乐是左右声道立体声,但录音时变成了单通道,像单行道一样。这就导致两人各戴一只耳机对话时,只有一人的声音能被录进来,给对方戴耳机就没意义了。

这是我们首先遇到的挑战,是通信技术问题,而不是AI技术问题。之前没有人解决是因为没有这个需求。过去人们可能会分享耳机听音乐,但很少有人想分享耳机一起通话。所以从蓝牙协议1.0到现在,一直没有解决多人录音的问题。

作为创业公司,我们本想把现有技术组合起来,但立刻撞上第一堵墙。在深圳这样的硬件之都都找不到解决方案,甚至咨询了高通、海思等芯片厂商的工程师,他们都确认这个问题没有现成解决方案。

所以我们只能自己搞。虽然公司2016年成立,但真正作为正式项目开始是2017年,第一代产品到2019年才出来。当时我预计三个月能出产品,结果搞了一年半才做出来,而且只能算40分的产品。

潘乱:在对话过程中如何确保只收录我们两个人的对话,过滤掉背景噪音?

田力:解决了通信问题后,我们面临的第二个挑战是语音识别问题。人与人的对话与人机对话不同,不能有唤醒词。我们需要开发一套算法,不需要唤醒词但能检测说话的开始和结束。

当时智能音箱流行,都需要唤醒词。还有耳机可以用“嘿,Siri!”唤醒。但我们的产品不能有唤醒词,因为这不符合人类交流习惯。

这需要先降噪,然后检测说话的开始和结束,专业术语叫VAD(Voice Activity Detection))检测。目的是解放双手,让两个人交流时能自由自在地沟通,不需要每次都点一下按钮。我们的目标是“想说就说,想停就停”,甚至可以打断对方,像正常人类交流一样。

我们解决了通信问题、唤醒问题后,终于达到了两个人可以相对自在地交流的程度。但那时还是“单向同传”——我说话你可以边听翻译,但你说话必须等我说完。下一步挑战是实现两个人可以同时说话。

W4 Pro的设计理念

潘乱:时空壶W4 Pro的外观与普通TWS耳机有明显区别,为什么选择这种形状?它如何支持你们的技术需求?

田力:我们做W4 Pro是想尝试开放式耳机设计,有些用户觉得这种设计长时间佩戴更舒适。其次,我们希望在上面展现更好的技术,比如三麦克风阵列算法,形成更强的降噪效果。

这对我们的场景非常关键,因为两个人各戴一个耳机交流时,我的声音很容易串到你的耳机里。普通耳机场景不存在这个问题,因为人们通常不会在旁边有人说话时打电话。但我们的产品恰恰是两个人戴着耳机互相对话,两个耳机都在收音。

我们必须屏蔽掉对方的声音,只收集佩戴者的声音。普通耳机很难做到这一点。而且我们对声音质量的要求更高,因为这个声音最终要给机器识别并翻译。机器对错误的容忍度比人耳低,因为人有大脑可以自行脑补。所以我们使用三麦克风和更先进的技术来更好地屏蔽周围声音,包括对话对象的声音。

从挫折中重生

潘乱:新闻联播报道提到2019年时空壶面临重大挫折。你们的复盘结果是什么,之后做了哪些调整?

田力:这像是技术拼图。就像大疆要实现航拍,先要做飞控,然后是远程图传系统,再到自己做摄像头、云台等,一点点拼成完整技术链条。

我们也是如此。当你戴上我们的耳机时,从录音到传输到云端处理再返回耳机,整个过程延迟要控制在几百毫秒内,是一个完整技术链条。翻译部分主要在云端,包含语音识别、机器翻译、语音合成三个步骤。

2019-2020年时,我们没有能力自己做这些AI引擎,因为烧钱且有些是“重复造轮子”。我们与翻译引擎的关系像滴滴与地图的关系—滴滴需要地图,但不必从创业第一天就自己做地图。当时几乎所有互联网公司都做翻译和识别,而且差别不大,成本也低。

所以我们更关注当时业界未解决的问题—真正沉浸式的交流场景,而翻译只是整个过程中的一个环节。直到最近我们才开始自己做引擎。

差异化竞争优势

潘乱:苹果为AirPods增加了实时翻译功能,科大讯飞也推出支持40多种语言的翻译耳机。时空壶与它们相比有何独特之处?为什么这些拥有强大语音识别和AI技术的公司不能简单复制你们的双向同声传译能力?

田力:最初他们可能看不上这个市场。我们为了解决通信问题,牺牲了听音乐功能。这部分是技术限制,也是战略决策。我们希望消费者把我们的产品视为可穿戴的翻译设备,而不是能翻译的音乐耳机。

其实早在2018-2019年,谷歌的Pixel Buds配合Pixel手机已能进行翻译,但交流方式是戴耳机的人把手机凑到对方面前,像采访一样。对陌生人来说挺尴尬的。

我们与大公司相比的最大优势是专注。这是我们看好但别人不看好的领域,我们投入大量精力、技术和know-how,形成了今天的壁垒。但必须承认,创业公司的壁垒大多是动态的,不是静态的。就像特斯拉如果停止创新,其他公司可能三年内就能追上。

我们的领先窗口期可能只有半年。我们的优势是在这个领域的专注积累,以及解决通信技术、降噪技术上的突破。这些技术是为特定交流场景服务的,不一定适用于其他领域。

用户体验与场景拓展

潘乱:让陌生人愿意戴耳机交流有难度。你有没有想过开发不需要对方佩戴但仍可转化为语音的产品形式?

田力:耳机对我们来说不是最重要的,重要的是场景。我们希望提供自由、沉浸式的跨语言交流体验。

很显然,在路上随便问路这种简单交流,给陌生人分享耳机不方便。所以我们最初设计就明确,这不是为所有场景设计的产品。

人类交流在时间、空间和对象上非常多元丰富。今天我们一对一交流是一种场景;爬山时遇到背包客想边走边聊是另一种场景;开会时一对多又是另一种场景...这是一个排列组合的网络,我们目前只解决了其中一个点。

我们有其他模式,比如我戴耳机通过外设收音,适合听会为主不需要交流的场景;或者通过手机外放让对方听到翻译,交流不那么自由但更简便。

至于不需要对方佩戴的交流方式,我们在研究。眼镜可以快速看到翻译结果,但对方是否有眼镜?除非全世界都有你的眼镜,这需要难以想象的市场占有率。

全球反馈与独特使用案例

潘乱:你们的产品已销往170多个国家,有哪些使用方式让你印象深刻?

田力:因为我们在无人区探索,看到的风景总是不一样的。最初我们以为产品主要用于旅行,但发现很多意想不到的使用方式。

举两个例子:在英国,家长买我们的产品与孩子练习外语。比如,中国家长英语不好但想和孩子练习,他们接孩子放学路上,家长戴一只耳机说中文“我们去超市吧”,孩子戴另一只听到“Let's go to supermarket”,可以用英语回答。普通翻译APP也能做,但没有这种沉浸感。

另一个是美国一个教堂的神父。他的教堂有讲西班牙语的墨西哥信众,他本会说西班牙语,但要做两次礼拜,一次英语一次西班牙语。他用我们的产品,让墨西哥信众戴耳机,自己用英语布道,听不懂英语的人戴耳机听西班牙语。神父反馈说:“上帝要爱世人,你们的产品帮助我们把不同族裔的人聚在一起(bring people together)。”这正好对应圣经中巴别塔的故事—上帝让人类说不同语言使他们无法合作。

这些使用方式表明,人们渴望更亲密的关系,渴望更自然的交流状态,超越了翻译技术本身。

潘乱:你们的产品能用于跨国恋爱或家庭交流吗?

田力:这是很经典的使用场景,尤其在美国和欧洲。今年1月在美国时,我约了一位用户吃饭,他是拉斯维加斯曼达里湾酒店的调酒师,在哥伦比亚有个女朋友。他们语言不通,有时她来美国找他,有时他去哥伦比亚。他们用我们的产品交流。

还有使用场景是与外国亲属沟通。比如与岳父母交流,过去总要让配偶充当翻译,现在可以直接交流,建立更好的关系。所有这些都指向一件事:更好的人际关系。

AI与翻译技术进化

潘乱:你们的产品支持40种语言和93种口音,准确率达95-96%。哪些语言最难准确翻译,你们如何衡量翻译的“准确性”?

田力:翻译不存在绝对的准确性问题。有人说“翻译是遗憾的艺术”,因为你永远不能完全理解一个民族的思想。语言背后是文化、是文明的思考,中英文有很多无法完全准确还原的内容。

一般来说,中英德日法西这些大语种翻译准确率相对较高。小语种如印尼语、马来语,甚至阿拉伯语(虽不算小语种)的识别和翻译准确率都不高。

部分原因是语言结构不同,但很大原因是这些语言为主的国家在AI投入和人才密集度较低。阿拉伯世界在AI上的投入、积累的数据比中美差很远。基础设施差一点,使用体验就会与中英文翻译相距甚远。

这也是我们在研究的方向—大厂关注的大语种之外,很多角落被遗忘,但实际痛点依然存在。

潘乱:在翻译过程中,如何处理语气词、停顿词、重复词?

田力:这涉及直译和意译的区别。绝大多数情况下人们需要的是意译。所以语气词等是否保留取决于目的—有人希望保留因为它表达了情绪,而不仅是把口语表达变成新闻稿。

大模型时代的翻译正逐渐从直译向意译进化,这更符合人类表达习惯,尤其对口语化沟通更有价值。

大模型时代的翻译革命

潘乱:用户反馈中提到翻译错误、语种不全、延迟高、易掉线等问题。大型语言模型的出现会如何改变这些问题?

田力:首先讨论“快”(延迟)和“准”(准确率)。关于延迟,我们需要理解体验变化—从过去按住说完放开等翻译的交替传译,到现在边说边听到翻译的同声传译,用户感知的延迟概念已经变了。

现在的挑战不是说完一句话到翻译出来的延迟,而是开始说话到开始翻译的延迟。对人类同传译员的要求是两三秒内开始翻译,无论句子多长,这要求更高。

关于准确率,大模型时代确实有显著改善。它更容易理解真实意思,而不是逐字直译。它能去掉废话语气词,纠正语法错误,使表达更清晰。

潘乱:与传统生硬翻译相比,时空壶结合大模型的翻译有何改进?

田力:这就像人类顶级同传译员的能力。一个顶级译员能在你开始说话后两三秒内开始翻译,即使你的句子很长或有转折。

他们如何做到?首先会提前了解会议主题背景,分析讲话主旨。他们能从上下文理解避免低级错误—比如在金融论坛,如果听到“披萨”一词可能会自动忽略或纠正,因为背景是金融概念。

他们关注的是传达概念而非逐字翻译。这正是大模型时代AI能做到的—更深刻理解主旨,这是我们正在做的。

潘乱:时空壶开发的Babel OS系统是业界首个AI同传翻译大模型,它与通用大模型在翻译场景下有何专业优势?

田力:我们的Babel OS不仅是语言模型,而是包含整套技术的系统。它服务于完整交流场景,包含翻译引擎和前端技术。

在大模型时代,最直接的变化是在“快”和“准”两方面。从技术角度,过去是从识别到翻译到语音合成的级联式模型,现在大模型正向端到端模型发展—中文语音进,英文语音出(speech to speech translation)。

这像是多语言精通者的思维方式—不是先翻译再理解,而是直接理解后用另一种语言表达。当AI通过这种方式处理时,能更精准传达意思。

此外,当一个模型处理多种语言时,可以利用语言间的相通性,提高效率和准确率。当然,即使是OpenAI、微软、谷歌也难以覆盖所有语种(全球有4000多种定义语言)。我们可以在某些小语种发挥优势,大语种则采用大公司已做好的部分。从终极角度看,翻译能力不可能被一家公司垄断,一定是博采众长的过程。

翻译技术的分级标准

潘乱:现在很多产品宣称能实现实时翻译,但它们之间有何区别?可以定量分析吗?

田力:我们现在自己有时会拿自动驾驶作参照物,就比方自动驾驶的分级,你看它是从 L1 到L5,那我们其实也同样可以对标。比方说什么是L1?就是当年大家拿一个电子词典,或者一个手机 APP 去打字给对方看的翻译,这是一个文本翻译,它的效率是最低的。然后到了进化到 L2 的时代的时候,它更像是接近于那种终于可以从逐字逐句的翻译变成我说话,他帮我语音的翻译了。

我们给自己定义成我们当前处于 L3,就是类似于那种语音的同传翻译,比方说我边说你会边听到,而且你也可以就是双向同传的这种交流,正常的交流不会变成了我说话的时候你就被禁言了,你想补充一个什么事儿想说就说,想停就停。所以 L3 我们定义是类似于语音同传的这种翻译,这是我们现在能做到的事儿,但这个还仅仅只是在翻译的交互模式上的一个进化。

L3 到 L4 的本质的最大的区别是在于从直译到意译的质变。L4 可能就能从捕捉你的声音的语气、情绪的很多东西,包括你的意思的一些真实的表达的意图的东西,和人类的水平是同样了。L3 可能只能说你接近于人,但是 L4 你就能达到和人的水平是一致了。比方说你说话时是疑问的,是质问的、是愤怒的还是愉悦的,都可以在翻译过程中把这个结果进行修正。很多个性化的表达,习惯性的表达,很多的专业术语都能在 L4 这个档位得到解决,也就是说它就可以等同于人类顶尖语言的水平。

L5就是超越人类的水平了。超越人类水平就是什么呢?它可以在一个多模态的层面上去观察你想要表达的意思,比方说现在大家还是基于你说话的信息,但未来可能是你的表情,你的过去的积累的一些你的沟通习惯,这些东西就相当于你真的是有了一个私人秘书,对你“察言观色”,理解你说话的“弦外之音”,甚至可以替你发言。

端侧AI的未来

潘乱:考虑到网络环境和隐私顾虑,你们是否计划将翻译处理从云端转移到设备本地?

田力:这非常重要。由于网络不稳定和隐私需求,对端侧处理的需求越来越大。我们正在开发端侧方案,虽然有算力限制导致翻译能力弱化的权衡。

人的交流对实时性要求非常高。网络不好时,用户会焦虑,甚至导致交流中断。所以端侧模型势在必行。我们正研究如何用仅有过去1%参数量的模型在终端设备上实现翻译体验。大概今年下半年会发布相关消息。

未来展望

潘乱:耳机是一个自然的起点,但肯定不是跨语言交流的唯一解决方案。你们已经推出了X1语音翻译机等非耳机产品,未来还计划开发哪些非耳机产品?针对不同的使用场景(例如旅游、会议、工厂、学校等),你对扩展到耳机之外的其他形态有什么愿景?

田力:无论是耳机还是其他形态,都只是一种介质(手段),不是目的。我们的目标是让不同场景中的人们能自然无障碍地交流。

介质可能是眼镜、领夹式麦克风、手表或纯软件(我们也有纯软件产品)。重要的是在特定场景下让交流舒适自然。

比如X1的演讲模式,台下观众不需要我们的硬件产品,只需手机扫码就能听到自己语言的翻译。这不会增加我们的硬件销量,但能创造更好的体验,让人们眼睛一亮:“我终于能听懂你说什么了!”

我们的终极目标始终是做出现实版的“巴别鱼”,在此过程中会尝试各种形态。

潘乱:感觉你是一个非常谨慎的创业者,会把很多问题都前置思考,然后再去做决定,这会不会让你在这个速度上产生一些问题?你怎么平衡这个事情的?

田力:这个问题其实你会发现其实它是一个双向的,一方面我们确实是在做一个无人区的探索,但另一方面你也感觉到好像我们对这个事又比较谨慎。在你看来这两个是矛盾的,但其实在我看起来它不算矛盾,是因为你本来就是在做一个新的东西,那新的东西你确实就要想清楚你到底在服务什么样的人群,而不是扩大化的事情。

我们是希望你真的有需求的时候找我们,因为这个时候你的产品的方向,你的该迭代的东西,你才会看的更清楚。我觉得这个其实并不影响我们在往前进的速度,只不过我们要清晰的认知到现在的产品,在我的心目中,现在可能还没有达到那种理想的状态,还没有达到那种真正的像科幻里边那种,是一个珠穆朗玛峰的东西。我们现在可能只是还达不到这个 8,800 多米的高度,我可能还在五六千米的位置,还在往上攀登,但是我们的庆幸之处在于,当我爬到五六千米的时候,其实已经能满足相当一部分人他的需求了,只是 8,000 多米的时候,是一个任何人都能感受到你这个产品魅力的时候,都能解决他的问题的时候。

潘乱:你给时空壶的产品打多少分?什么会代表“100分产品”?你觉得8 千米那时候是一个什么样的产品形态?

田力:从产品适用范围和细节改善角度,我给70分。这不是说质量有问题,而是我们还不能解决所有语言障碍。语言障碍非常多,是个多维矩阵,我们只解决了一点点。

未来随着AI模型进化,能更好传递意图、情绪,体验细节更实时、延迟更短,AI总结能让交流更及时,就像从L3到L4自动驾驶,L3还需要人接管,L4就不用总是操心了。

那如果说到8,000米理想的状态,理想状态就是巴别鱼—戴在耳朵里的设备,让你不再担心语言障碍。第一天就能看到远方的大洋,但需要哪条河流能到达,你不知道,只知道一直向那个方向走。

潘乱:如果不考虑当前技术限制,你认为语言翻译的终极形态是什么?

田力:我经常问新同事:“30年后翻译产品会变成什么样?”有人说是脑机接口,如三体人用脑电波交流;有人提到《黑镜》里的隐形眼镜;《流浪地球》里吴京与俄罗斯人交流时各戴一个耳机。

郭帆导演曾在节目中用过我们的耳机,调侃说:现在科幻电影不好拍,还没拍完,产品先做出来了。

终极状态是你感受不到它的存在,像空气一般无感。它可能在不同场景有不同形态—银行或医院里的固定装置,户外则是便携设备。形态一定是多元化的。

最终这些分支是否会闭合成统一形态?

这是非常有趣的问题。看整个产业的进化史会很有意思。我们希望活到那一天,成为基础设施提供者之一。那时人们不再担心语言障碍,像基础设施一样随处可用,我们希望成为其中最重要的玩家之一。

结语

潘乱:在这个充满不确定性的世界,语言障碍仍是人类连接的最大挑战之一。时空壶正用科技力量打破这一障碍,让我们距离科幻小说中描绘的无障碍交流未来更近一步。期待有朝一日,语言不再是人类沟通的障碍,希望时空壶能加速这一天的到来。

田力:谢谢。

来源:潘乱一点号

相关推荐