2023年,以ChatGPT为代表的认知大模型初步实现了向通用人工智能演进的“智慧涌现”,被公认为是人工智能发展史上一次重大技术阶跃。高盛预测基于大模型的生成式AI将推动未来10年全球GDP增长7%,约合近7万亿美元。
OpenAI推出GPT-4o
北京时间5月14日凌晨,OpenAI推出新旗舰模型GPT-4o,可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言。
据了解,GPT-4o支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。在录播视频中,两位高管还做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。
目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。
近两日,谷歌即将召开年度I/O大会,也将发布其新的语音助手等AI新产品。
智能语音是指通过人工智能技术和语音识别技术,使计算机能够理解和处理人类语音的能力。它涉及语音识别、自然语言处理和语音合成等技术,旨在实现与计算机进行自然对话和交互的能力。
作为新一代信息技术和人工智能产业的重要组成部分,智能语音不断实现关键技术突破,精度、速度与智能化水平正在逐年提升。在实际应用环境的匹配度方面,相关技术产品已经可以满足“混合语种”“复杂环境”“多人交互”等更为高端的任务需求。
智能语音技术具有以下技术特点:
自然语言处理:智能语音识别系统可以处理自然语言,即自然而然地表达的语言,不需要特定的语法和格式,可以更好地满足用户的需求。
高准确率:智能语音识别系统采用了深度学习等人工智能技术,可以识别多种语音信号,包括口音、语调、语速等,具有较高的准确率。
实时性:智能语音识别系统可以实时地处理语音信号,即用户说话时,系统可以实时地进行识别和处理,提高用户的使用体验。
多语言支持:智能语音识别系统可以支持多种语言的识别和处理,包括中文、英语、日语、韩语等,具有较强的国际化能力。
个性化服务:智能语音识别系统可以通过学习用户的使用习惯和特点,提供个性化的语音服务,例如推荐用户喜欢的音乐、电影等。
智能语音行业现状及未来市场前瞻
新一轮科技浪潮的推动下,人工智能产业正以蓬勃之姿飞速发展。今年全国两会期间,“人工智能”被首次写入《政府工作报告》。报告提出,要深化大数据、人工智能等研发应用,开展“人工智能+”行动。
工业和信息化部赛迪研究院数据显示,2023年,我国生成式人工智能的企业采用率已达15%,市场规模约为14.4万亿元。专家预测,2035年生成式人工智能有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元。人工智能时代,自主可控的AI技术尤为重要。以正处于黄金期的智能语音技术为例,据国际数据公司IDC分析,2030年,全球智能语音服务市场规模将达约731.6 亿美元,复合增长率27%。
目前,我国已有超过19个大语言模型研发厂商,其中15家厂商的模型产品已经通过工信部备案,包括百度、阿里、商汤、昆仑万维、字节跳动、华为、腾讯、科大讯飞、同花顺、京东、小米、360、澜舟科技、出门问问、复旦大学 MOSS、智谱 AI。
AI技术持续突破及其巨大的成长空间将会为整个产业链提供良好的发展动力,逐步从作为行业发展有益补充,转变为产业数字化智能化转型的真正核心竞争力。