数据介绍 / Introduce
该数据集专门针对 NLP/NLU 问题。该集合的主要目的是创建一个面向领域的对话系统,用于回答与 Unity3D 和游戏开发相关的问题。数据的其他用途是文本分类和论坛问题 EDA。数据注解数据集包含两个单独的文件: headers.csv - 每个问题的 Web 预览,其中包含问题的标题、作者的匿名 ID、问题的回复和投票评级、问题状态(评论、发布、回答、编辑、提问); best_answers.json - 已回答的问题(回复大于 0),其中包含问题的标题、问题的回复和投票评分、与问题相关的标签、对应的 Markdown 符号格式的最佳答案;致谢该数据集使用 Scrapy 框架和 Zyte 云平台从 Unity Answers Forum 收集,用于部署和管理网络爬虫。 Apache Spark 用于执行基本预处理:删除缺失值、将数据转换为特定格式、过滤无效记录、匿名真实 ID 和用户名。
数据列表 / List
发布时间 |
数据包名称 |
数据格式 |
数据量 |
数据大小 |
下载 |
2024-03-06 10:11:10 |
Unity Answers 论坛数据集 |
zip |
-- |
16.39MB |
下载 |
登录下载 |
发布时间 |
数据包名称 |
数据格式 |
数据量 |
数据大小 |
下载 |
2024-03-06 10:11:10 |
Unity Answers 论坛数据集 |
zip |
-- |
16.39MB |
下载 |
登录下载 |