面试腾讯,都问了哪些问题?
腾讯面试官:衡量AIGC内容质量都有哪些指标?
面试官您好,在过往工作经验中我负责过多款AIGC产品,我们在评估AIGC内容的质量,会综合考虑内容特性、使用场景、用户需求、安全合规等维度。
通常从可量化的客观指标和用户感知的主观维度入手。
以下是分类别整理的核心评估指标:
??一、通用核心指标(各类内容均适用)
这类指标是判断内容是否合格的基本依据,不因类型不同而变化:
??1. 准确性
判断信息是否真实、符合常识,比如文本中的数据与事件、图像中物体的属性与场景逻辑是否合理。
例如“狗在水中游泳”可以成立,但若说“狗属于水生动物”则属错误。
常用评估方法包括人工核对事实,或借助知识图谱等数据库进行自动比对。
??2. 相关性
生成内容是否紧贴用户给出的 prompt 或需求,有没有偏离主题。比如用户想要“关于新能源汽车发展的说明文”,却得到大量涉及“太空探索”的内容,就属于相关性弱。
可通过人工1~5分打分,或使用语义相似度模型进行评估。
??3. 原创性
内容不应直接复制或大幅借鉴训练数据,应具备一定独特性。比如图像不能只是对某张训练图片的微调,文本不宜整段照搬现有文章。
常用查重工具或相似度模型进行检测。
??4. 安全与合规
杜绝出现有害、偏见或违法的内容,比如涉及Bao力、歧视、Se情,或不符合法规的信息。
一般通过安全过滤模型+人工复核进行把控。
??5. 一致性
长内容或多轮生成中,信息应保持前后统一。
比如文本里的人设不能突然改变,图像系列风格要一致,视频中物体不可出现不合理变化。
??二、类型特有指标
??1. 文本内容
除通用指标外,还需额外关注语言质量和逻辑结构:
1)流畅性:语句是否通顺、符合语法,避免错字和语病。
评估方法可借助人工阅读感评分,或使用语言模型自动化检测。
2)逻辑性:观点是否清晰,论证是否合理,因果关系或时间顺序是否正确。
可人工评判逻辑,或借助结构分析工具。
3)信息量与冗余:是否涵盖用户需求的关键信息,是否存在无意义重复。
可通过计算信息密度(有效词数/总词数),并比对用户意图做判断。
4)风格匹配:是否贴合所要求的文体和语气,比如不能把悼词写得很搞笑。
常用风格分类模型辅助,再加人工校验。
??2. 图像内容
在通用指标基础上,强调视觉层面的表现:
1)构图合理性:主体是否突出,视觉层次是否舒服,透视和比例是否准确。
可借助构图分析算法,或人工进行审美评判。
2)风格一致性:若生成多张图像,其画风、色调等是否协调统一。
3)细节丰富度:比如物体的纹理、光影、背景等信息是否完整清晰。
可人工判断细节,或借助清晰度、噪点水平等图像指标。
??3. 视频内容
在图像指标之外,额外强调时间维度上的连贯与合理:
1)帧间一致:动作是否流畅不跳帧,物体运动是否自然、符合物理规律。
可使用光流法检验运动平滑度,或通过人工观察判断。
2)时间逻辑:事件发展是否符合时间顺序,比如步骤不可颠倒混乱。
3)画质清晰度:不仅单帧要清晰,整体也需保持良好分辨率、少压缩失真。
常使用VMAF、PSNR等技术指标进行评估。
4)音画同步(如含音频):声音和画面是否对齐,比如人口型应对上说话声音,动作与音效一致。

腾讯面试官:如何评估Agent产品的好坏
面试官您好,最近我做了几款AI Agent相关的产品,我们团队内部是如何判断一款AI Agent是否出色的呢?
我们一般是从技术实现、使用体验、商业效益及安全合规等多个角度进行全面评估。下面????我分别进行阐述:
??一、核心能力:是否高效达成目标
??1. 目标完成能力
1)成功率:在标准测试或真实环境中完成指定任务的比率,例如客服型Agent解决问题的准确率、工具型Agent正确执行指令的比率。
2)任务广度:是否可处理多种类型任务及边缘场景,如能否应对模糊提问或非常规需求。
3)输出质量:所生成内容的专业性、逻辑性和实用性,比如所撰写报告的准确度或所推荐方案的合理性。
??2. 交互表现
1)上下文理解:在多轮对话中能否有效关联历史信息,避免遗漏关键内容。
2)表达自然度:语言是否流畅自然,避免机械和生硬感,比如减少模板式应答。
3)意图识别:能否准确识别用户的显性及隐含意图,比如将“有点热”联系到“调低空调温度”。
??3. 效率与资源占用
1)响应延迟:包括单次请求的响应时间与复杂任务的处理时长。
2)多任务支持:是否具备并发处理多个请求或子任务的能力,例如同时服务多个用户。
??二、用户体验:是否好用、愿意用
??1. 用户主观感受
1)满意度调研:通过NPS、CSAT等工具收集反馈,重点包括用户是否愿意再次使用。
2)情感化设计:是否具备符合用户期待的语气和个性,能否传递共情与信任。
??2. 容错与引导机制
1)错误应对:在无法理解需求时是否能够得体应对,比如提供备选方案或转接人工,避免交互中断。
2)主动引导:能否通过提问帮助用户澄清模糊需求,减少用户操作负担。
??3. 个性化能力
1)用户适配:能否根据用户历史行为、身份特征提供差异化服务,如为VIP用户提供优先处理。
2)场景调节:能否在不同情境下调整应答策略,例如在工作场景保持严谨,在休闲环境增加轻松元素。
??三、技术与工程实现:是否稳健、可扩展
??1. 系统稳定性
1)故障频率:尤其在高压或高并发情况下是否仍维持正常运行。
2)输出一致性:相同输入是否能够稳定输出相同结果,保障使用过程中的可靠性。
??2. 扩展与集成
1)外部调用:能否接入API、知识库或运行代码以拓展能力边界。
2)多模态支持:是否支持文本、语音、图像等多种形式的输入与输出。
??3. 可解释与可追溯
1)决策透明:能否说明结果背后的依据或数据来源,尤其在医疗、金融等高合规要求场景。
2)日志完备:是否完整记录交互行为,便于审计回溯与体验优化。
??四、商业价值:是否带来真实收益
??1. 成本与效率
1)人力节省:相较于人工处理,是否能显著降低成本,如客服费用下降30%。
2)效能提升:是否提高处理效率或拓展服务能力,比如实现全天候自动应答。
??2. 用户增长与留存
1)转化推动:是否帮助提升用户注册、下单等关键行为。
2)使用黏性:用户使用频次和时长是否因Agent而提升。
??3. 生态与品牌价值
1)数据反馈:交互数据是否可用于优化其他业务,如改进推荐算法。
2)品牌增强:是否因AI能力形成差异化优势,提升品牌技术形象。
??五、可持续进化:能否持续迭代优化
??1. 反馈机制
1)数据收集:是否具备实时回收用户行为与反馈的数据能力。
2)迭代速度:从发现问题到发布修复或优化版本的周期长短。
??2. 自主学习与适应
1)小样本学习:能否借助用户行为数据自主优化,减少对标注数据的依赖。
2)跨领域适配:是否能够将现有能力快速迁移至新业务场景。
总结来说,优秀的AI Agent需实现技术、体验与商业价值的乘法效应:
技术是基础,保障功能可靠与合规;
体验是关键,通过自然和人性化的交互赢得用户信任;
商业是目标,必须为业务带来可衡量的增长或降本增效。
作为产品负责人,需在技术可行性、用户真实需求和商业目标之间把握平衡,推动AI智能体向更智能、实用和可信的方向发展。

腾讯面试官:什么是RAG?如何从零搭建一个RAG系统?
面试官您好,我将从以下几部分回答您的问题。
??一、什么是RAG
RAG,也就是检索增强生成,是一项结合实时检索与大模型生成能力的技术框架。
它通过从外部知识库动态获取相关信息,并让大语言模型基于这些信息生成回答,显著提升答案的准确性、时效性和可信度。
尤其适合弥补传统大模型在实时性、专业性和事实一致性方面的不足。
??二、RAG的核心组成
一套完整的RAG系统通常包括三个关键部分:
??1. 检索模块:负责理解用户问题,并从知识库中查找最相关的信息片段。常用技术包括语义向量模型(比如BERT)和向量数据库(比如FAISS)。
??2. 生成模块:将检索结果和用户问题组合,输入大语言模型(如GPT-5、Llama等)生成自然、流畅且准确的回答。
??3. 知识库:作为系统背后的“外脑”,可以是企业文档、数据库、实时信息源等任何结构化的数据。
??三、如何构建RAG系统
从产品经理的视角,该如何构建RAG呢?
??步骤一:明确需求与场景
首先要确定系统要解决什么问题——是应对信息过时、专业度不足,还是减少模型幻觉?
常见落地场景包括:客服答疑、企业内部知识库、法律医疗咨询、内容辅助生成等。
??步骤二:构建高质量知识库
数据是关键。需完成领域数据的收集、清洗与标注,来源可包括PDF、数据库和API等。随后通过向量化处理构建易于检索的索引结构,同时要特别注意数据的时效性、覆盖面和合规性。
??步骤三:设计检索策略
检索一般分为“粗排”和“精排”两步:粗排依靠向量相似度快速召回候选文档,精排则进一步结合时间、来源权威性等维度做最终排序。
需在响应速度、召回率和准确率之间做好平衡。
??步骤四:生成模块融合与优化
通过Prompt工程将检索上下文和用户查询有效组合,例如模版化拼接:“根据以下资料:{context},请回答:{query}”。也可对生成模型做轻量化微调,增强领域适应性。
??步骤五:系统评估与持续迭代
评估应涵盖检索质量(如MRR、NDCG)、生成质量(准确性、流畅度、人工评价)和系统性能(延迟、吞吐量、成本)。
建立用户反馈和A/B测试机制,推动知识库与模型持续更新。
总结来说,RAG通过检索与生成的结合,显著提升了大模型在实际应用中的可信度和可用性。
产品经理应该在场景定义、数据建设、效果评估和成本体验之间做好平衡,推动系统持续优化与业务落地。








