发明 202210223976X 基于多角度语义理解与自适应双通道的视觉问答方法 2024
已下证 2人
G06F16/332 G06F40/35 G06V10/80 G06N3/0442 G06N3/0464 G06N3/08
免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。
本发明属于计算机视觉和自然语言处理领域结合的跨模态任务技术领域。技术方案是:基于多角度语义理解与自适应双通道的视觉问答方法,包括以下步骤:步骤1;对输入的图像进行预处理,通过使用对象检测模块提取输入图像中显著区域的视觉特征与几何特征;步骤2;对于问题文本的嵌入,使用空格与标点符号的方法将句子分割成单词(数字或基于数字的单词也被当做是一个单词);接下来采用预训练的词向量模型将单词执行向量化表示;最后将词向量表示通过长短时记忆网络,获取最后一个时间步上的状态,得到问题特征。该方法能够使得训练出来的模型更具有鲁棒性;面对更复杂的视觉场景具有较强的泛化能力,提升答案的语义性,提升视觉问答模型的准确率。