8000 关于数据集处理方法的疑问及请求进一步解释 · Issue #24 · YiyanXu/DiffRec · GitHub
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content
关于数据集处理方法的疑问及请求进一步解释 #24
Open
@pangy9

Description

@pangy9

我试图在rechorus框架上复现您的工作,但是我对数据集处理部分有一些疑问,希望能得到您的进一步解释。

数据集划分:您提到将数据按时间排序后,按7:2:1的比例分为训练、验证、测试集。我尝试对MovieLens-1M数据集进行类似处理,但发现训练、验证、测试集的用户数量不均匀。而您提供的数据集中,用户数量均为5949。请问您是否对每个用户的历史数据进行了划分?另外,您是否使用了5-core过滤法?

比例问题:在您的clean数据集中,训练集、验证集、测试集的比例似乎是7:1:2,而非7:2:1。您在另一个issue中确认过比例是7:2:1,这让我对数据集处理方法产生了疑问。希望您能详细解释一下具体的处理步骤。

数据集特殊处理:我注意到在您的数据集上,模型效果很好,但在其他数据集上效果较差。同时,其他基线模型在您的数据集上也能超过DiffRec。这让我怀疑您是否对数据集进行了特殊处理,使得推荐模型的效果普遍较好。

如果您能提供一个处理数据的ipynb格式文件,我将非常感激。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions

      0