23级山东大学软件学院创新实训-个人纪录(一)

张开发
2026/4/15 10:46:05 15 分钟阅读

分享文章

23级山东大学软件学院创新实训-个人纪录(一)
在LingualSpark灵语星火智能外语学习平台的第一阶段研发过程中我承担了需求统筹、数据采集、数据集处理、数据清洗标注以及最终报告输出等关键工作。以下是对各环节工作的详细展开希望能为类似项目提供参考。统筹需求调研梳理项目输入组织团队完成用户需求分析需求调研是整个项目的前置基础。我的工作主要是统筹团队对已有项目材料、任务书要求以及典型学习场景进行分析而不是开展实地问卷或访谈。梳理需求来源首先我仔细研读了项目任务书和前期调研简报从中提取出系统的核心定位——“多年龄适配、AI驱动、私有化部署”。在此基础上我组织团队对幼儿、小学生、中学生、成人四类典型学习者的行为特点、学习目标、常见痛点进行了桌面研究和内部研讨形成初步的用户画像。设计调研工具内部使用为了统一团队对需求的理解我设计了一份简单的调研提纲和需求收集模板用于团队内部讨论时记录各方意见。提纲围绕几个核心问题展开不同年龄段学习者最需要哪些功能现有学习平台存在哪些共性问题AI生成内容在哪些场景下最有价值这些材料仅供团队梳理思路不对外投放。组织需求分析会议我召集项目组成员包括算法、后端、前端、产品方向的同学举行了两次需求分析工作坊。第一次采用头脑风暴形式每人列出自己认为重要的功能点合并去重后得到约40条原始需求。第二次采用亲和图法将这些需求归类到“故事阅读”“口语对话”“单词学习”“个性化推荐”“系统管理”等模块并依据任务书要求排出优先级。最终形成了八大核心需求方向多级难度分级、多轮对话能力、发音纠正、个性化推荐、低延迟响应、趣味性激励、数据隐私保护、跨设备同步。这些结论为后续数据采集和功能设计提供了明确依据。对话与文本数据集处理Empathetic Dialogs、Writing Prompts、CNN 的下载与预处理我们需要高质量的对话和文本数据集来训练和微调本地大模型。我负责下载并处理三个特定数据集Empathetic Dialogs人机对话、Writing Prompts写作提示和CNN新闻文章集用于文本摘要。每个数据集的处理侧重点不同我分别制定了处理方案。Empathetic Dialogs 数据集处理该数据集包含约2.5万组基于情绪标签的多轮对话适用于训练模型的情感理解和共情回复能力。从官方仓库下载原始文件每个对话包含对话历史、情绪标签如“excited”“sad”“frustrated”和回复。处理步骤包括首先解析JSON结构提取每轮对话的说话人和话语然后将对话按轮次拆分为单条记录并统一添加情绪标签字段接着使用nltk进行分词和去停词但保留标点符号以维持对话的自然节奏。我注意到数据集中存在少量非英文对话和特殊符号编写了正则表达式过滤掉非ASCII字符。最终输出为JSON Lines格式共约15万条单轮话语按情绪标签分类存储便于后续按需加载。Writing Prompts 数据集处理该数据集来源于Reddit的“Writing Prompts”子版块包含大量的故事开头提示和用户创作的后续故事适用于训练模型的创意生成能力。数据量较大约30万条提示-故事对原始格式为CSV每行包含提示标题、提示正文和故事正文。处理时我首先使用pandas读取CSV剔除空值和明显过短故事少于50词的条目。然后对故事正文进行长度截断保留前512个token使用GPT-2的tokenizer估计超出部分直接丢弃。由于部分故事包含不适宜内容我基于一个敏感词库进行了自动标记标记出的约3%条目单独存放不作为训练集使用。清洗后的数据划分为训练集85%、验证集10%、测试集5%存储为JSONL格式以节省空间和提升读写速度。CNN 新闻数据集该数据集包含约9万篇CNN新闻文章及其摘要适用于训练文本摘要模型。原始数据为STP格式每个文件一篇我需要批量解析。我编写了一个Python脚本遍历所有文件提取文章正文和对应的摘要每篇文章通常有3-4个参考摘要我选择第一个作为标准摘要。处理过程中发现部分文章正文包含HTML标签如p、br使用BeautifulSoup进行清理摘要中存在缩写如“U.S.”“N.Y.”保留原样以维持真实场景。我们选取了数据格式统一成指令微调 JSONL保留 instruction、input、output 三段。TinyStories 的样本构造instruction 使用原始提示词input 为空output 放 story处理后的WP数据案例处理后的Empathtic Dialologs数据案例协助数据清洗与标注制定规范抽样复核保证质量原始采集的数据和公开数据集存在噪声且部分新闻文章缺乏结构化标签如难度分级、主题分类因此需要系统的数据清洗与人工标注。我作为协助者主要负责制定标注规范、组织标注团队并进行质量复核。输出《需求规格说明书》并组织评审在所有需求梳理和数据准备工作完成后我参与撰写最终的《用户需求分析报告》并组织跨角色评审会议确保需求被各方准确理解和确认。报告撰写报告分为六个章节。第一章为引言说明报告背景、目的和范围。第二章为需求分析方法简述了基于任务书和团队研讨的需求梳理过程。第三章为用户画像与核心需求按幼儿、小学生、中学生、成人四个角色分别描述其学习特征、痛点和期望并附上内部研讨得出的需求列表。第四章为需求优先级使用MoSCoW方法列出Must-have如多级难度分级、多轮对话、Should-have个性化推荐、发音评测、Could-have故事生成配图、Wont-have社交功能。第五章为数据支撑总结新闻采集和数据集处理成果说明数据如何映射到用户需求。第六章为后续建议包括功能开发顺序、技术选型建议和风险提示。报告全文约7000字图文并茂并附有需求梳理原始记录。报告归档与后续最终报告存入项目文档库并同步作为验收依据。我还在团队内部做了一次分享复盘需求分析中的经验教训例如“需求优先级必须与数据采集能力对齐”“标注规范必须包含边界案例”等这些经验被写入团队知识库。需求规格说明书展示

更多文章