We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
非常好的论文,感谢,有几个问题: 1、论文里提到了新闻,小说,pubmed,显然比较窄,应当如何扩展到各个专业的文字,各行各业? 2、如何适应更多的模型,显然白盒是比较困难的,可能一些高频常用的模型可以白盒。大部分应该是黑盒模式 3、提供的local_info_ref 中的结果是测试结果吗?使用这些测试结果和新预测数据的比较作为可能性的判定吗?那么在实际应用中测试文字的广度,文字的代表性,使用的黑盒模型的代表性是否是 准确度的关键呢?
以上问题的整个实施流程能否解答一下
感谢!
The text was updated successfully, but these errors were encountered:
1、论文里提到了新闻,小说,pubmed,显然比较窄,应当如何扩展到各个专业的文字,各行各业?
零样本检测器使用预训练大模型进行文本检测,理论上来说,预训练大模型覆盖到的各个专业的文本都可以检测。论文中提到的三种数据集只是用于评测的三个代表,不是方法的适用范围。
2、如何适应更多的模型,显然白盒是比较困难的,可能一些高频常用的模型可以白盒。大部分应该是黑盒模式
我们使用固定的gpt-neo-2.7b开源模型作为代理模型,用于检测不同模型生成的文本,包括黑盒模型,比如论文中提到的ChatGPT和GPT-4。
3、提供的local_info_ref 中的结果是测试结果吗?使用这些测试结果和新预测数据的比较作为可能性的判定吗?那么在实际应用中测试文字的广度,文字的代表性,使用的黑盒模型的代表性是否是 准确度的关键呢?
文件夹local_info_ref中的是ChatGPT和GPT-4上的测试结果,作为参照用于计算机器生成文本的概率。由于这些测试结果只反映ChatGPT和GPT-4这两个源模型,以及预定义的几个文本领域,所以用于检测新的源模型生成的文本或者新的文本领域时,概率的估计可能不准确。建议用新的数据集重新生成测试结果,用于参照,计算概率。对于中文,gpt-neo-2.7B也有不错的准确率。当然,针对中文的模型可能会更好,同时也需要重新生成用于参照的测试结果。
Sorry, something went wrong.
No branches or pull requests
非常好的论文,感谢,有几个问题:
1、论文里提到了新闻,小说,pubmed,显然比较窄,应当如何扩展到各个专业的文字,各行各业?
2、如何适应更多的模型,显然白盒是比较困难的,可能一些高频常用的模型可以白盒。大部分应该是黑盒模式
3、提供的local_info_ref 中的结果是测试结果吗?使用这些测试结果和新预测数据的比较作为可能性的判定吗?那么在实际应用中测试文字的广度,文字的代表性,使用的黑盒模型的代表性是否是 准确度的关键呢?
以上问题的整个实施流程能否解答一下
感谢!
The text was updated successfully, but these errors were encountered: