终极中文聊天语料库:一站式解决聊天机器人数据难题

张开发
2026/5/30 10:28:29 15 分钟阅读
终极中文聊天语料库:一站式解决聊天机器人数据难题
终极中文聊天语料库一站式解决聊天机器人数据难题【免费下载链接】chinese-chatbot-corpus中文公开聊天语料库项目地址: https://gitcode.com/gh_mirrors/ch/chinese-chatbot-corpus中文聊天语料库是一个专为聊天机器人开发者打造的开源项目它系统化地搜集和整理了目前市面上已有的开源中文聊天语料让开发者无需四处搜集下载和分别处理各种不同格式的语料轻松获取高质量的训练数据。 丰富多样的语料资源该项目搜集了8个公开闲聊常用语料包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料以及短信、白鹭时代问答等语料为聊天机器人开发提供了充足的数据支持。 语料详细信息语料名称语料数量语料来源说明语料特点语料样例是否已分词chatterbot560开源项目按类型分类质量较高Q:你会开心的 A:幸福不是真正的可预测的情绪。否douban豆瓣多轮352W来自北航和微软的paper, 开源项目噪音相对较少原本是多轮平均7.6轮Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · ·是pttPTT八卦语料77Wv1版本42W开源项目台湾PTT论坛八卦版繁体语料较生活化有噪音Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧否qingyun青云语料10W某聊天机器人交流群相对不错生活化Q:看来你很爱钱 A:噢是吗那么你也差不多了否subtitle电视剧对白语料274W开源项目来自爬取的电影和美剧的字幕有一些噪音对白不一定是严谨的对话原本是多轮平均5.3轮Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了否tieba贴吧论坛回帖语料232W偶然找到的多轮有噪音Q:前排鲁迷们都起床了吧 A:标题说助攻但是看了那球真是活生生的讽刺了否weibo微博语料443W来自华为的paper仍有一些噪音Q:北京的小纯洁们周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛看着小纯洁撸么。否xiaohuangji小黄鸡语料45W原人人网项目语料有一些不雅对话少量噪音Q:你谈过恋爱么 A:谈过哎别提了伤心..。否 简单快速的使用方法1️⃣ 下载语料你可以通过以下方式下载语料阿里云盘提取码: 81aoGoogle Drive2️⃣ 配置环境将解压后的raw_chat_corpus文件夹放到当前目录下目录结构如下raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ...然后修改 config.py 中的 raw_chat_corpus_root 变量为自己的目录。3️⃣ 执行处理脚本在项目根目录下执行以下命令python main.py或者python3 main.py 生成结果说明每个来源的语料分别生成一个独立的*.tsv文件都放在新生成的clean_chat_corpus文件夹下。生成结果格式为 tsv格式每行是一个样本先是query再是answer格式如下query \t answer 项目结构项目主要包含以下几个部分process_pipelines/包含各个语料的处理管道language/语言处理相关模块config.py项目配置文件main.py主程序入口 如何获取项目要获取该项目你可以通过以下命令克隆仓库git clone https://gitcode.com/gh_mirrors/ch/chinese-chatbot-corpus 版权说明本项目为非商业项目为纯搜集和汇总资料如有侵权请在issue下留言。如果你在研究中使用了该语料库可以引用以下bibtexMisc{chinese-chatbot-corpus, title {Chinese Chatbot Corpus}, author {codemayq}, howpublished {\url{https://github.com/codemayq/chinese_chatbot_corpus}}, year {2018} }中文聊天语料库为聊天机器人开发者提供了便捷、高效的数据解决方案无论你是新手还是有经验的开发者都能从中受益。赶快尝试使用让你的聊天机器人开发更上一层楼 【免费下载链接】chinese-chatbot-corpus中文公开聊天语料库项目地址: https://gitcode.com/gh_mirrors/ch/chinese-chatbot-corpus创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章