该项目提出了一种新方法,通过神经网络同时学习能量模型和其对数分配函数。利用最小-最小优化公式和双重随机梯度下降,它消除了对马尔可夫链蒙特卡洛(MCMC)方法的依赖,并能学习一个通用的对数分配函数。这解决了在具有巨大组合空间的离散空间中训练概率能量模型(EBMs)的难题。
该项目利用统计物理方法深入分析深度图卷积网络(GCNs)在节点分类任务中的泛化性能,特别关注上下文随机块模型(CSBM)数据生成模型下的表现。研究探讨了网络深度、残差连接和正则化对GCNs性能的影响,发现增加网络深度对实现贝叶斯最优学习率至关重要,同时残差连接和缩放有助于缓解过平滑问题。这为设计更有效的深度学习模型提供了理论基础,特别是在处理图结构数据时。
vicuna-33b是最新发布的高性能开源模型,尽管开源,但不允许商用,适用于各种自然语言处理任务。
这是一个双层递归卷积网络模型的参考实现,旨在提供灵活的应用支持和优化的性能。
Cool Tech Papers 是一个平台,旨在帮助用户发现新颖且有趣的计算机科学和机器学习研究。用户可以直接在网站上查看论文,并通过 chatwithpdf 接口提问,促进对研究的深入理解。
LLM Explorer 是一个为机器学习研究人员、开发者和人工智能爱好者设计的平台,帮助用户了解最新的自然语言处理技术,集成到项目中,并保持在人工智能进步的前沿。
Finned是一个聚合和分析行业数据的平台,旨在推动金融与体育博彩行业的发展。用户可以通过单一平台访问来自多个来源的数据,从而做出明智的决策。
斯坦福开发的一种遵循指令的 LLaMA 模型,基于 Meta 的 LLaMA 7B 模型进行微调,性能接近 OpenAI 的 text-davinci-003,支持在单个 GPU 或 CPU 上运行。
LiteRT是Google AI Edge团队推出的高性能、可信赖的边缘AI运行时,旨在继承TensorFlow Lite的优势,并拓展其愿景,支持多种AI框架并优化资源利用率,方便集成和部署。
基于GPT-2模型的中文文本生成项目,旨在为中文自然语言处理提供强大的文本生成能力,支持预训练和fine-tuning,适用于多种场景,如创作、对话等。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。
这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型,支持在Apple M2 Ultra上进行高效的模型训练和推理,提供简化的模型权重下载和加载流程,同时兼容Python环境。
由AI2开发的开源LLM评估系统,用于对基础模型和指令微调模型进行全面评估。
深度求索发布的开源代码大模型,33B版的性能显着优于现有的开源代码LLM。该项目包含多个规模的代码语言模型,从10亿到330亿标记不等,经过预训练,使用16,000标记的窗口大小和额外的填空任务,支持项目级别的代码补全和填充,在多种编程语言和各种基准测试中取得最先进性能。
OneDiff是一个用于加速扩散模型的工具,提供了一种新的免训练、几乎无损的范式,显著提升模型的迭代速度。
Raspberry是一个旨在为微调具有推理能力的LLM创建开源玩具数据集的项目,特色在于通过合成复杂用户查询和自我批评数据来提升模型的推理能力。
Fast Stable Diffusion CPU是一款专为CPU优化的快速稳定扩散模型,在Core i7-12700上生成一张512x512的图片仅需21秒,具有优越的性能和广泛的兼容性,适合各种计算环境。
testIT 是一个利用人工智能为模型仿真和仿真建模提供样本的工具。它通过聊天和模型创建机器人来实现更复杂的仿真,同时注重用户驱动的创新。