近日,中央网信办启动的 "清朗・整治 AI 应用乱象"专项行动,把“智能体窃取用户数据”列入重点整治名单。这其实捅破了一层窗户纸:很多智能设备,表面上在服务你,背地里在拿走你的东西。
语音数据尤其敏感,一旦泄漏,可能引发机密外泄与不可逆的身份盗用。这样隐私的数据要传到某个云端服务器才能处理,用户心里难免不踏实。
上海熙瑾信息技术有限公司从2019年创业第一天起,就把方向定得很明确:做端侧离线语音智能。简单说,就是让AI语音能力直接在设备上跑,不联网、不上传、不经过任何外部服务器,照样能准确地听、聪明地懂、流畅地说。

我们到底在做什么?
如果只是把语音转成文字,技术上没多稀奇。熙瑾做的是另一层:在完全离线的条件下,让机器拥有一套完整的“听觉感知系统”。
何谓完整的听觉感知?不光要听清说了什么,还要同时判断“谁在说”、“什么情绪”、“人在哪里”,以此实现拟人化的交互体验。我们沿着这个方向逐项突破,积累了一组拿得出手的指标:
离线语音识别:支持160种语种与方言,转写准确率高达98.6%;
声纹识别:自动区分发言人、实现多人会话分离与无感身份认证,让设备拥有“听声识人”的本领;
情感识别:推断多维度情绪状态,辨别六大基础情感,为个性化交互提供策略支撑;
声源定位:实现多声源分离与动态追踪,精准度达到±5°;
语音交互:支持智能问答、快捷指令与多轮自由对话,交互体验如丝般顺滑。
把单项能力拉出来,业界或多或少都有人在做。但全部做扎实、全部在端侧稳定跑通,而且跑得快、功耗低,这才是熙瑾的硬实力。

技术最后要落在产品上
我们目前的主力产品有两款,走的是不同的落地路径。
第一款是“熙瑾·会悟”——给会议场景用的离线AI秘书。目标用户很明确:对信息安全有刚需的政企单位。
开会时只需一键,系统就能实时把语音转成逐字稿,声纹技术自动标注每一段话是谁说的。会议结束5分钟,即可生成一份结构化的纪要,讨论议题、待办清单、发言人观点,每一项都清晰分明。

最重要的话,整个过程中不需要互联网,可以选择部署在私有服务器、私有云,多端、多并发使用;或是给会议室配上台端侧AI会议一体机,下达语音指令,即可实现会议全流程智能记录。
第二款是智能语音交互芯片模组。这是一枚标准化的硬件模组,可以装进机器人、家电、车载系统、无人机等各种设备里,相当于给设备配上一套本地的“听、说、懂”能力。
拿我们和道通智能合作的无人机项目举例会更直观。无人机经常要在深山、荒漠这类没信号的地方作业,云端语音服务根本连不上。我们的模组是端侧跑的,0网络依赖,同时支持中文、英文、俄文识别和指令交互,跨国团队作业时不用来回切换设备。
这还不止,模组里集成了声纹安全解锁功能:只有预先授权的飞手声音才能启动和操控无人机。设备不会听陌生人的话,这对警用执法、安保巡逻、应急救援来说,是实实在在的安全保障。

这些事为什么我们能做?
团队底子不复杂,但结构很清晰。
前沿研究由上海交通大学唐新怀教授带队,负责跟踪学术前沿、探索技术方向。硕博学历占比53%的核心研发团队,负责把实验室里的东西变成能交付的产品。
六年下来,公司从高校科研合作起步,逐步深入到能源、航天、媒体等多个行业,与银河麒麟完成国产适配,客户覆盖央国企及政府单位。目前拥有31项软著与专利,通过ISO体系认证,累计服务超2500家。这些数字不为别的,只想说:这条路上我们走得扎实,不是一时兴起。

我们选“端侧离线”这条路,不是要否定云的价值。云当然有用,很多场景离不开云。但确实有一些场景,数据不应该离开本地;有一些用户,应该有权利选择“不把声音交给别人的服务器”。
熙瑾想做的事就是给这些人一个选择:你可以要智能,也可以要安全。这两件事不矛盾。如果你正在找这样的方案,欢迎前往上海熙瑾信息技术有限公司官方了解更多内容,亲自体验看看它能不能解决你的实际痛点。
(本文来源:日照新闻网。本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。对文章事实有疑问,请与有关方核实或与本网联系。文章观点非本网观点,仅供读者参考。)
近日,中央网信办启动的 "清朗・整治 AI 应用乱象"专项行动,把“智能体窃取用户数据”列入重点整治名单。这其实捅破了一层窗户纸:很多智能设备,表面上在服务你,背地里在拿走你的东西。
语音数据尤其敏感,一旦泄漏,可能引发机密外泄与不可逆的身份盗用。这样隐私的数据要传到某个云端服务器才能处理,用户心里难免不踏实。
上海熙瑾信息技术有限公司从2019年创业第一天起,就把方向定得很明确:做端侧离线语音智能。简单说,就是让AI语音能力直接在设备上跑,不联网、不上传、不经过任何外部服务器,照样能准确地听、聪明地懂、流畅地说。

我们到底在做什么?
如果只是把语音转成文字,技术上没多稀奇。熙瑾做的是另一层:在完全离线的条件下,让机器拥有一套完整的“听觉感知系统”。
何谓完整的听觉感知?不光要听清说了什么,还要同时判断“谁在说”、“什么情绪”、“人在哪里”,以此实现拟人化的交互体验。我们沿着这个方向逐项突破,积累了一组拿得出手的指标:
离线语音识别:支持160种语种与方言,转写准确率高达98.6%;
声纹识别:自动区分发言人、实现多人会话分离与无感身份认证,让设备拥有“听声识人”的本领;
情感识别:推断多维度情绪状态,辨别六大基础情感,为个性化交互提供策略支撑;
声源定位:实现多声源分离与动态追踪,精准度达到±5°;
语音交互:支持智能问答、快捷指令与多轮自由对话,交互体验如丝般顺滑。
把单项能力拉出来,业界或多或少都有人在做。但全部做扎实、全部在端侧稳定跑通,而且跑得快、功耗低,这才是熙瑾的硬实力。

技术最后要落在产品上
我们目前的主力产品有两款,走的是不同的落地路径。
第一款是“熙瑾·会悟”——给会议场景用的离线AI秘书。目标用户很明确:对信息安全有刚需的政企单位。
开会时只需一键,系统就能实时把语音转成逐字稿,声纹技术自动标注每一段话是谁说的。会议结束5分钟,即可生成一份结构化的纪要,讨论议题、待办清单、发言人观点,每一项都清晰分明。

最重要的话,整个过程中不需要互联网,可以选择部署在私有服务器、私有云,多端、多并发使用;或是给会议室配上台端侧AI会议一体机,下达语音指令,即可实现会议全流程智能记录。
第二款是智能语音交互芯片模组。这是一枚标准化的硬件模组,可以装进机器人、家电、车载系统、无人机等各种设备里,相当于给设备配上一套本地的“听、说、懂”能力。
拿我们和道通智能合作的无人机项目举例会更直观。无人机经常要在深山、荒漠这类没信号的地方作业,云端语音服务根本连不上。我们的模组是端侧跑的,0网络依赖,同时支持中文、英文、俄文识别和指令交互,跨国团队作业时不用来回切换设备。
这还不止,模组里集成了声纹安全解锁功能:只有预先授权的飞手声音才能启动和操控无人机。设备不会听陌生人的话,这对警用执法、安保巡逻、应急救援来说,是实实在在的安全保障。

这些事为什么我们能做?
团队底子不复杂,但结构很清晰。
前沿研究由上海交通大学唐新怀教授带队,负责跟踪学术前沿、探索技术方向。硕博学历占比53%的核心研发团队,负责把实验室里的东西变成能交付的产品。
六年下来,公司从高校科研合作起步,逐步深入到能源、航天、媒体等多个行业,与银河麒麟完成国产适配,客户覆盖央国企及政府单位。目前拥有31项软著与专利,通过ISO体系认证,累计服务超2500家。这些数字不为别的,只想说:这条路上我们走得扎实,不是一时兴起。

我们选“端侧离线”这条路,不是要否定云的价值。云当然有用,很多场景离不开云。但确实有一些场景,数据不应该离开本地;有一些用户,应该有权利选择“不把声音交给别人的服务器”。
熙瑾想做的事就是给这些人一个选择:你可以要智能,也可以要安全。这两件事不矛盾。如果你正在找这样的方案,欢迎前往上海熙瑾信息技术有限公司官方了解更多内容,亲自体验看看它能不能解决你的实际痛点。
(本文来源:日照新闻网。本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。对文章事实有疑问,请与有关方核实或与本网联系。文章观点非本网观点,仅供读者参考。)