SMI–TED是IBM开发的基于SMILES字符串的大型变压器编码器-解码器模型,专注于化学和材料科学研究。它预训练于PubChem的9100万SMILES样本(相当于40亿分子标记),支持分子属性预测、分子生成等任务,在量子属性预测等基准测试中表现优异。模型提供289M和8X289M两种参数规模,支持SMILES、SELFIES、3D分子图等多种表示形式,适用于学术研究和材料创新。