AI精选（181）-人工智能领域内的最新进展：Yi-Coder: 轻量级代码语言模型，性能卓越

主理人：

AI深度研究员

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、Yi-Coder: 轻量级代码语言模型，性能卓越

Yi-Coder 是一系列开源代码语言模型，参数量小于 100 亿，却能提供最先进的编码性能。它擅长理解长文本，最大上下文长度可达 128K 个 token，并支持 52 种主流编程语言，包括 Java、Python、JavaScript 和 C++ 等。Yi-Coder 提供了多种模型版本，包括基础版和聊天版，用户可以根据自己的需求选择合适的版本。除了模型本身，Yi-Coder 还提供了丰富的示例和教程，帮助用户快速上手使用。在多个代码生成和理解任务上，Yi-Coder 的表现都非常出色，例如在 HumanEval、CodeEditorBench 和数学编程任务上都取得了领先的成绩。

https://github.com/01-ai/Yi-Coder

二、AI眼镜热潮：科技与时尚的完美结合

AI眼镜成为新潮流，吸引众多消费者关注，科技与时尚的结合引发热议。文章深入分析AI眼镜的功能与市场前景，展现其在生活中的多种应用场景。讨论了AI眼镜的技术创新，如何改变人们的生活方式，提升日常体验。预测未来AI眼镜的发展趋势，强调其在智能穿戴设备中的重要地位。

https://stcn.com/article/detail/1288783.html

三、SmileDial - 加拿大牙科诊所的自然牙科人工智能接待员

利用我们为加拿大牙科从业人员提供的人工智能驱动的接待系统，节省时间、降低成本并提高患者满意度。更多地关注真正重要的事情——您的患者。

来源：https://www.smiledial.io/

四、超快AI语音助手，50行代码实现！

本项目使用LiveKit、Deepgram、Cerebras和Cartesia等技术，在500毫秒内实现AI语音助手的快速响应。项目结构简单易懂，仅需50行代码即可运行，并提供详细的安装和运行说明。用户可以使用LiveKit的agents-playground进行连接和测试，体验快速响应的AI语音助手。项目代码开源，供开发者学习和参考，为构建快速高效的AI语音助手提供参考。

https://github.com/dsa/fast-voice-assistant

五、LLaMA-Omni: 低延迟语音交互，让大模型更“会说话”

LLaMA-Omni 是基于 Llama-3.1-8B-Instruct 的语音语言模型，支持低延迟、高质量的语音交互，可根据语音指令同时生成文本和语音响应。模型仅需 4 个 GPU，训练时间不到 3 天，即可实现 226ms 的低延迟语音交互。LLaMA-Omni 能够根据语音指令生成文本和语音响应，并通过 Gradio 演示提供便捷的交互体验。项目代码开源，并提供详细的安装和快速入门指南，方便开发者快速上手。

https://github.com/ictnlp/LLaMA-Omni

六、CrisperWhisper: 精确语音识别，精准时间戳， verbatim 转录

CrisperWhisper 是 OpenAI Whisper 的改进版本，专注于快速、精确、逐字的语音识别，并提供精准的词级时间戳。与原始 Whisper 不同，CrisperWhisper 旨在转录所有语音，包括填充词、停顿、口吃和错误启动，而不是省略不流畅的部分。CrisperWhisper 在 OpenASR 排行榜的 verbatim 数据集（TED、AMI）中排名第一，并被 INTERSPEECH 2024 接受。CrisperWhisper 使用调整后的分词器和自定义注意力损失进行训练，以实现更准确的词级时间戳。CrisperWhisper 在填充词检测、幻觉缓解方面表现出色，并提供用于 Python 脚本的代码示例。

https://huggingface.co/nyrahealth/CrisperWhisper

该内容为专享内容

购买AI深度研究员的简报专栏即可查看全部内容