Text2Graph-R1 是一个开源项目,旨在复制 DeepSeek R1 的文本到图结构的提取训练方案。该项目基于 GRPO(Guided Reward Policy Optimization)强化学习技术,通过多阶段训练流程(包括数据生成、监督训练和强化学习)优化模型从非结构化文本中提取结构化信息的能力。项目特别强调通过多种奖励机制(如格式奖励、JSON有效性奖励和F1奖励)提升输出质量,并支持零样本图结构提取任务。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型