DKT2是一个基于xLSTM架构的深度知识追踪模型,旨在提升知识追踪模型在大规模数据下的适用性和全面性。它整合了Rasch模型和项目反应理论(IRT),不仅提高了预测性能,还增强了模型的可解释性,从而更精确地描述学生的知识状态,支持个性化教育。
DKT2是一种基于xLSTM架构的深度知识追踪模型,旨在解决传统LSTM在并行计算、存储决策修改和存储容量方面的局限性。它集成了Rasch模型用于输入表示,并结合项目反应理论(IRT)实现可解释的输出。研究显示,DKT2在单步、多步和不同历史长度的预测任务中,在Assist17、EdNet和Comp三个大型数据集上始终优于17个基线模型。其设计更贴近实际教育应用场景,增强了适用性和全面性,使其在智能辅导系统中具有更大潜力。
xLSTM是由LSTM发明者创造的新架构,旨在实现与Transformer类似的规模和性能,同时缩小与现有最先进LLMs的差距。
用于稳健弹道预报的可解释自感知神经网络,旨在提高神经网络对分布外数据的认知不确定性估计,以适应安全关键型应用,如自动驾驶汽车。
llm-viz是一个用于GPT风格大语言模型的三维可视化工具,能够帮助用户深入理解模型的内部结构及其行为。通过交互式的方式,用户可以探索模型的输入、输出以及权重分布,提供多种视角和缩放功能以进行详细分析。
GPT Finder是一个平台,用户可以轻松寻找自定义预训练的GPT模型。只需输入需求,便可探索可用的自定义GPT模型,比较不同模型,选择最符合需求的选项。
SynapseML是一个轻量级、可扩展的分布式机器学习库,旨在支持大规模数据处理和机器学习任务。它与Apache Spark紧密集成,提供多种机器学习算法和丰富的数据预处理工具,能够与Azure服务无缝对接,适合在多种数据源和输出格式中使用。
一种称为LoLCATs的新方法,用于将现有的大型语言模型(如 Llama 和 Mistral)转换为具有亚quadratic时间复杂度的线性化版本,同时保持模型性能。