Self-Translate是一种技术,通过利用多语言语言模型的少样本翻译能力,能够有效地提高多语言语言模型的性能,克服对外部翻译系统的依赖,尤其在非英语输入场景下表现优越。
该研究定义了一种风格的语言模型代理,该代理具有推理和运用外部知识的能力,通过对先前轨迹的迭代训练来提升其性能。
一种特殊的神经网络架构,可以在不增加推理成本的情况下,为语言大模型(LLM)增加可学习的参数。该研究发现模型比密集模型更能从指令调优中获益,因此提出将MoE和指令调优结合起来。
CoPE是一种新的位置编码方法,允许根据上下文来调整位置,以关注更高抽象级别的序列元素。它能够根据需要计算每个注意力机制头的距离,解决标准Transformer无法解决的计数和复制任务,并在语言建模和编码任务上拥有更好的困惑度(PPL)。
Taylor AI 是一个高效的工具,旨在帮助用户在几分钟内微调开源大语言模型(如Llama2、Falcon等)。它让用户专注于实验和构建更好的模型,而不用花时间在繁琐的Python库上或跟进每一个开源LLM的更新。同时,用户拥有自己的模型,提升了数据安全性和控制权。
该项目提供了一种利用多模态半监督学习进行文本识别的方法,结合了标记和未标记数据以提高识别精度。
Custom.MT是一个为本地化团队、语言服务提供商、产品经理和翻译人员设计的生成式AI和机器翻译平台。它提供了包括模型微调、机器翻译评估、内部机器翻译、语言数据匿名化、术语合规、翻译记忆清理、数据获取和开源机器翻译研讨会等多种服务。此外,Custom.MT还为流行工具如Trados、Smartling和memoQ提供AI翻译平台,以及API文档、博客、案例研究、事件和网络研讨会等资源。
在APL语言中实现自回归transformer(如GPT2)的项目,支持反向传播和使用Adam优化算法进行训练,旨在结合高性能和简洁代码的优势。
卡内基梅隆大学团队在首届AI数学奥林匹克竞赛(AIMO)中获得亚军的开源项目,包含完整的训练数据集(AIME、AMC、Odyssey-Math)、验证集、模型微调代码和数据收集脚本,为研究AI解决数学问题提供了宝贵资源