参考数据鲸 (linklearner.com)
1. 跑通baseline
报名
申领大模型API
模型服务灵积-API-KEY管理 (aliyun.com)
跑通代码
在anaconda新建名为“LLM”的环境,并安装好相应包后,在jupyter notebook上运行baseline01.ipynb
2. 赛题解读
一般情况下,拿到一个赛题之后,我们需要明确:
1)这是一个什么场景下的赛题;
2)这个赛题要解决什么问题。
本次学习活动的赛题“复杂推理能力评估”是一个大语言模型处理推理任务的问题
数据集为逻辑推理数据,其中训练集中包含500条训练数据,测试集中包含500条测试数据。每个问题包括若干子问题,每个子问题为单项选择题,选项不定(最多5个)。目标是为每个子问题选择一个正确答案。推理答案基于闭世界假设(closed-world assumption),即未观测事实或者无法推断的事实为假。
具体的,每条训练数据包含 content
, questions
字段,其中content
是题干,questions
为具体的子问题。questions
是一个子问题列表,每个子问题包括options
和answer
字段,其中options
是一个列表,包含具体的选项,按照ABCDE顺序排列,answer
是标准答案。
数据集格式如下:
round1_train_data.jsonl
: 每一行代表一条反应
测试集 round1_test_data.jsonl
不包含answer
字段。
赛题背景
该比赛聚焦于通过解决复杂的逻辑推理题,测试大型语言模型的逻辑推理能力。
这些逻辑题涵盖了多种关系和推理规则,能够全面评估模型的逻辑推理能力。赛题设置上,采用了多样化的逻辑题,覆盖了不同难度的逻辑推理任务,强调了逻辑推理在AI领域的重要性。
比赛的研究成果将有助于评估和改进模型的逻辑推理能力。这对于开发更智能、更有效的人工智能系统具有重要意义。同时,大赛希望提供机会给选手学习和应用逻辑推理与自然语言处理的知识,培养跨学科的研究人才。
比赛任务
本次比赛提供基于自然语言的逻辑推理问题,涉及多样的场景,包括关系预测、数值计算、谜题等,期待选手通过分析推理数据,利用机器学习、深度学习算法或者大语言模型,建立预测模型。