Babylon Voice 是一个基于语音识别技术的网络应用,用户可以通过语音命令与其功能进行交互,提升工作效率,并增强无障碍体验。
clickclickclick是一个强大的框架,能够让手机和电脑自动执行各种任务,使用本地或远程的大型语言模型,旨在提升工作效率和用户体验。
Aria-UI是一款能够理解和执行图形用户界面指令的智能工具,擅长处理多样的指令格式,旨在提高在不同场景下的适应性和准确性。
ChatTTS资源大全专注于提供多样化的聊天和文本转语音资源,支持多种语言和灵活的API接口,适合开发各种语音相关应用。
EyePilot是一个基于眼动手势的辅助桌面窗口应用程序,使用户能够仅通过凝视来操作桌面。该项目目前正在寻求赞助,欢迎通过polar支持我们。
Prismui是一套基于shadcn/ui的可定制组件库,提供美观、易用且适合生产的界面元素,帮助开发者快速构建现代网站。
Belva是一个AI电话助手,改变了您与世界互动的方式。它通过处理预约、预订和客户问题解决等任务,简化了沟通。使用Belva非常简单,只需说明您的目标或任务,让AI助手为您处理剩下的事务。无论是预约还是解决客户问题,Belva凭借其先进的语言能力和类人理解力,提供无缝的体验。
Sibylia是一个利用先进的AI模型自动生成引人入胜的音频描述,使内容更加可访问的解决方案。它将视频转化为文本和音频格式,为更广泛的受众打开了可访问性的大门,旨在创造一个更加包容和多样化的数字环境。
VoiceAI Chat是一个支持文本和语音输入的用户友好型AI聊天应用,能够识别并转录口语为文本。用户可选择文本或语音作为输入方式,语音输入时只需点击麦克风图标并开始说话,应用会将语音转录为文本并显示在聊天框中。
基于GPT4-o的模块化开源语音转文字再转语音的解决方案,支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程,旨在提供高度模块化和可定制的语音交互体验
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
Ferret-UI 是一个多模态大型语言模型,旨在更好地理解移动用户界面。它具有处理和理解用户界面屏幕的能力,特别是在引用、定位和推理方面,能够有效地处理图像和文本信息,并支持从基础到高级的UI任务训练。该模型还具备任意分辨率技术,可以放大细节,并在各种引用和定位任务上表现优异。
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
Leelo是一款专为企业设计的AI驱动文本转语音工具,能够将文本转换为自然流畅的音频,帮助企业提升内容传播效果。
VoiceGPT是专为Apple Watch用户设计的语音助手,允许用户通过语音与GPT4进行智能对话,并将回答朗读出来。只需在Apple Watch或iOS设备上激活应用,开始说话,VoiceGPT将把你的声音转化为文本并发送给GPT4处理,随后将回答朗读给你。
OpenAI的Whisper高质量语音识别模块C/C++移植版,支持在iOS和Android上运行,提供真人级别的识别效果,完全免费,具有开源、低内存和跨平台特性,适合资源受限环境。
WeAccess.ai 提供可持续和包容性的数字无障碍解决方案,专注于网站的 WCAG 合规和人工智能支持,旨在帮助有残疾的人士(如视力障碍、听力障碍、阅读障碍等)更好地访问网站。
SoundHound是一个语音AI平台,提供语音驱动设备、服务、车辆和移动应用的对话智能解决方案。它可以集成到各个行业和用例中,帮助用户构建自己的语音助手,访问内容领域。