detection paper reading 1

一手阅读

Premise Order Matters in Reasoning with Large Language Models

  • 前提顺序不会极大影响人类表现,但LLM不然
  • 符合直觉因为不需要来回看,可以顺着推出来
  • 完全相反的顺序也会好一些(双向是吧)

Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

  • 用三个任务测试视觉模型、语言模型和大模型
    1. 匹配和图像相符的标题
    1. 评估不同标题之间的质量
    1. 解释幽默所在
  • 发现人类解释仍远好于大模型

CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models

  • 多模态识别讽刺
  • 考虑到大模型会先入为主,让大模型先分别对文本(多模态的,这里概称文本了)生成其是讽刺和非讽刺的理由
    • 由此产生带噪音的背景知识
    • "
      通过引入对立标签,我们鼓励LMM采用多样化的视角,从而提供包含刻意噪声的丰富背景知识。由于错误类别的理由理想情况下会比真实类别的理由包含更多无用信息,这种做法使得讽刺类别的关键上下文得以更有效地突显和对比。这允许后续模型在考虑多样化视角的情况下进行逻辑推理,识别出真实的讽刺意图,同时减少LMM生成的理由中潜在噪声的影响。
      "
  • 粗粒度预训练阶段使用原始数据+竞争性文本(大模型生成的关于讽刺和非讽刺的理由)
  • 细粒度微调部分使用包括讽刺目标的原始数据+大模型生成的单一讽刺理由
  • 评论:有借鉴意义

Can ChatGPT’s Performance be Improved on Verb Metaphor Detection Tasks? Bootstrapping and Combining Tacit Knowledge

  • 将动词隐喻划分为主谓和谓宾两种,生成动词字面搭配表,将搭配的主宾进行主题映射
  • 对输入的待检测文本进行主谓宾抽取,映射主题之后进行判断
    • 依据是 主宾的主题是否符合前面得到的字面搭配的主题
    • 如不符合主题则为隐喻
Algorithm 1 隐喻检测流程
输入:D:动词字面搭配字典
      N:输入文本
      wn:句子n中的目标动词
输出:if_metaphor:隐喻判断结果

1. 对于每个句子n,获取动词wn的主语和宾语主题
2. 若主语主题不在D中wn的字面主题列表,则判断为隐喻
3. 若宾语主题不在D中wn的字面主题列表,则判断为隐喻
4. 返回隐喻检测结果
  • 评论:这种检测方式是不是有点太机械了,不是很人工智能啊,如果这样的话那以往用字典穷举一下不就行了
    • 大概比较AI的点在识别主谓宾

Exploring Chain-of-Thought for Multi-modal Metaphor Detection

  • motivation:隐喻识别需要对文本和视觉进行深入解释,需要广泛的常识信息
  • 传统方法:使用OCR识别多模态数据中的文本,导致文本位置丢
  • 分别专注提取图像信息、文本信息和对二者融合,这三个均通过prompt引导模型实现
  • 使用图像编码器和文本编码器分别编码图像和文本模态信息。图像编码直接使用数据本身,文本模态信息由原始文本和前面生成的三个拼接而成。
    • 考虑到MLLMs生成的额外信息为文本形式,将这些信息作为额外的文本输入特征,与原始文本进行拼接后,通过文本编码器获取特征向量。
    • 将两个模态的特征映射到相同的特征空间,通过添加适应层(如GeLU激活函数的线性层),将文本平均特征和图像CLS token特征统一处理并拼接,以形成最终融合的隐喻特征表示。
  • 设计了一个主分类器来处理跨模态隐喻检测,辅以图像主导和文本主导的隐喻分类器。通过这种方式,模型在捕捉隐喻的来源模态时具备了更高的精细度,有助于提高分类准确性。
    • 补充图像描述向量与视觉模态输入向量结合作为图像向量
    • 文本分析向量与文本输入向量结合作为文本向量
    • 合并作为跨模态向量
  • 最终的损失是三个分类器损失的加权和
  • 通过大模型对文本、多模态数据进行分析之后的内容拼接起来,作为小型模型的输入,再进行微调

Generative Agents: Interactive Simulacra of Human Behavior

  • 斯坦福小镇
  • agent能够记忆, 检索, 反思, 互动以及根据动态变化的环境进行规划
  • 两个评估
    • 检验在孤立情况下是否能产生可信的个体行为
    • 检测交互中的稳定性和突发行为
  • 环境感知
    • 感知内容加入 记忆流 中
  • 记忆提取
    • 按照最近性(Recency)、重要性(Importance)和相关性(Relevance)综合评分提取记忆
    • 最近性有衰减指数
    • 重要性可以直接通过prompt让模型进行评分, 在创建记忆对象时生成
    • 相关性通过计算嵌入向量的余弦相似度
    • 评分为三者加权和
  • reflect
    • 基于多条 感知内容 和 记忆 自动生成反思
    • 重要性分数超过阈值时会生成reflection
    • 对最近100条记忆,prompt使模型提出3个最显著问题, 检索记忆生成回答病存储作为reflection
  • 规划
    • 根据当前情景和反思指定自动制定规划, 存储在记忆流中
    • 需要一个长期规划, 举例:避免12点和12点半各吃一次午餐
    • 规划要符合相应agent的性格与经历,并可中途改变
  • 行为生成
    • 基于上述四项,生成实际行为并存入记忆流
    • 生成对话时两个agent会根据各自的记忆和相应的近期观察\经历来生成对话
      • 由prompt引导生成
  • 评估
    • 存在问题
      • 位置理解问题, 错误行为, 对话风格以及agent被对话影响

Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

  • 大模型有文化偏见和刻板印象
    • eg. 即使阿拉伯语的提示明确提到了伊斯兰祈祷,语言模型也会提到酒精饮料
  • 维基百科等常用来源可能不适合构建具有文化意识的LLM
  • 实验
    • 分析了它们在以阿拉伯和西方名字为人物生成的故事中的词汇选择。
    • 在西方任务重更多积极词语,阿拉伯更多涉及贫穷主题
  • 结果
    • 尽管有着阿拉伯的文化背景,但 LM 仍然偏爱西方实体。
    • 即使是单语阿拉伯语专用的语言平台也表现出西方偏见。
    • 多语言的本地语言使用者表现出更强烈的西方偏见。
  • 预训练数据相关
    • 阿拉伯语)维基百科通常被认为是预训练数据的最优质来源之一,但它却是所有语料库中最以西方为中心的。
      • 原因:大部分讨论西方内容
    • 网络爬取内容大部分机器翻译,也会导致西方偏见

AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators

  • 事实主张(claim) 的识别和注释
    • 首先要对问题下一个定义,什么是claim,什么是claim识别
    • 在事实核查任务 与 论证挖掘 任务重,claim存在区别
      • 前者中claim仅包括客观信息, 后者中主客观信息根据作用都可以被认定为claim
    • 事实性主张与非事实性主张之间的界限模糊
      • verifiability可验证性:事实与非事实主张,其标准是明确和具体的。它关注的是声明内容是否真实。
      • check-worthiness可检验性:可检验与不值得检验, 通常与声明的社会重要性、公众影响以及是否可能引发争议有关。它不仅仅考虑声明的真实性,还考虑声明是否对社会有足够的影响,值得投入资源进行核查。
  • AFaCTA:
    • 模型包括三个步骤
      1. 直接判断verifiability
      1. 思维链, 引导LLM按照 分析主客观信息, 提取事实信息, 验证verifiability, 确定verifiability, 事实分类的步骤一步步思考
      1. 辩论式推理(Reasoning with Debate), 返回判断
      • 模仿批判性思维
      • 让模型分别生成对立的两种观点和依据,即包含verifiable信息和不包含
      • 使用第二个LLM判断哪种观点更符合事实,从而避免模型的偏向性
      • 为了避免偏向性,辩论环节会通过交换两种观点的位置,确保模型做出更公正的判断。
    • 三步的输出加权确定结果
      • 在步骤1和步骤2中,模型返回的每个判断都有1票。在步骤3中,最终的辩论判断会根据推理的一致性进行投票,两个辩论位置交换后的判断会各得0.5票。
      • 最终的标注会根据这些投票结果得出。如果某条声明在三个步骤的投票总数超过1.5票,则被标记为“事实性声明”(factual claim);否则,标记为“非事实性声明”。
      • 一致性判断:如果所有步骤的投票结果一致,说明标注结果更为可靠。
  • PoliClaim数据集
    • 政治演讲语料
  • 结果
    • 数据分类
      • Gold:标注完全一致,置信度高。
      • Silver:标注部分一致,存在一定的不确定性。
      • Bronze:标注不一致,需要进一步人工验证或分析。
    • AFaCTA在完全一致样本上超过了人类专家的标注准确率(GPT-4达到98.49%)。在不一致样本上仍需要人类监督。
    • 自动标注可以显著减少人工工作量,节约约50%的标注时间。
  • 结果分析
    • GPT-4 AFaCTA 由于对细粒度或隐含事实过于敏感而犯了假阳性错误。由于上下文限制,它会犯假阴性错误。
    • GPT-3.5 似乎不太能识别意见中的隐含事实。
  • 启发:
    • 虽然是数据标注的工作,但在识别上有点意思
        1. 辩论式推理, 在前面的CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models中也有出现,可以让模型在对立的观点中有一些思考
        1. 对不同步骤得出的结论进行加权得到最终结果
        1. 根据不同步骤得出结论的一致性对数据进行分类分析

二手阅读

mind your step(by step)

  • 一些任务中思维链会降低效果
    • 条件: 人类经过思考后会降低效果且可以推广到大模型中
    • 举例: 人造单词分类, 面部识别, 包含异常的数据分类(这个任务没看懂啊)
  • 人类的约束条件和大模型并不完全一致, 表现为一些人类思考后效果降低的任务推广不到大模型
  • 虽然模型和人类的认知过程之间没有完全相似之处,但考虑思维对人类表现产生负面影响的情况可以帮助我们确定思维对模型产生负面影响的情况。
    • 即 进一步搭建了 认知心理学和NLP 的联系

The Earth is Flat because…: Investigating LLMs’ Belief towards Misinformation via Persuasive Conversation

  • 包括三个阶段:初始信念检查、劝说对话(多轮)、最终信念检查。
  • 四种劝说策略(简单重复、逻辑劝说、可信性劝说、情感劝说)
    • 逻辑劝说: 提供伪逻辑或“科学”支持。
    • 可信性劝说: 利用伪专家或权威身份增加可信度。
    • 情感劝说: 引发用户情感共鸣(如同情或恐惧)。
  • 模型效果
    • GPT-4最好,最终错误率为20.7%,Vicuna-13B其次,Llama-2-7B-chat最差,错误率高达78.2%。
  • 劝说策略的效果
    • 逻辑劝说最有效:在大多数情况下,逻辑劝说的误导性最强,其次是可信性劝说。
    • 重复策略也显著有效:简单重复的误导效果在多轮后显著提升,GPT-4的误导率在三轮重复后翻倍
  • 模型面对误导信息时主要表现为五种行为:
    • 拒绝: 主动驳斥误导信息,提供证据支持原始信念。
    • 谄媚: 在回答中附和用户观点,但隐式信念未改变。
    • 不确定性: 选择“我不知道”,表明信念动摇。
    • 接受: 直接改变信念,接受误导信息。
    • 自相矛盾: 在同一回答中同时支持和反驳误导观点(主要是模型处理问题的异常)。

Decoding Preferences: Analyzing Human and LLM Preferences for Better Model Evaluation

  • 大模型的偏好难以量化缺乏解释性, 且容易刻意迎合评估指标而被操控
  • 使用GPT对模型回答中的偏好进行评分
  • 实验结果
    • 人类偏好主观支持回答, 对事实性错误有一定容忍, 对模型直接回答无法完成持有负面态度
    • LLM倾向于事实性正确, 简洁回答, 澄清意图, 强调无害性与安全性
    • 参数规模相近的模型偏好更一致, 修改prompt可以显著提升评估分数, 这是由于llm迎合了评估标准

detection paper reading 1
http://zqizhang.github.io/2024/11/05/paper_reading/
作者
Wang Xun
发布于
2024年11月5日
许可协议