自然语言处理 day1
- 语言是人为创造的承载信息的符号系统.
- 符号是人为创造的, 没有天然意义.
- 自然语言是结构化的一维序列.
- 中文中最小语义单位是语素,可以是字或词
- 数学, 代码, 语音, DNA序列, 音乐(但是音乐具有二维性质,同时间会有很多条声轨), 蛋白质(但是蛋白质具有复杂的三维结构)
- 分词->词性标注->识别专有名词->句法关系分析->语义分析(包括语义角色分析(施动者, 受动者)等).(传统做法) 深度学习常用端到端的处理,忽略这些中间环节(实际是模型完成的).
- 理解(NLU: L->R(representation))和生成(NLG: R->L)
- 有本体的等价物方便做逆向,但从现象到有限完备不靠谱
- 从汉语到汉语语法结构到英语语法到英语;词性标注再或者从词到词(深度学习自己选择合适的层次).
- 在深度学习进行端到端的处理时,会从源语言转化成向量(或许可以视作语义).但模型得到的"语义"是动态的,在不同模型中不一样.
- 获取信息和知识
- 智能客服
自然语言处理 day1
http://zqizhang.github.io/2022/09/19/自然语言处理1/