- 庄园;韩旭;孙骁;姜家乐;周嘉升;
可见光定位(VLP)由于其低成本、高精度、现有基础设施大量部署等优点而在室内定位研究与应用中受到广泛关注。然而,VLP系统在接收端倾斜或被遮挡的情况下定位性能严重下降。针对这一问题,设计了一个可见光惯性紧组合定位系统。该系统引入惯性测量单元以估计接收端倾角,从传感器原始观测层面进行滤波融合以削弱遮挡的影响,并通过附加运动约束来增强定位性能。系统在实际测试中平均定位精度达10.27 cm,在遮挡和倾斜情形下相比纯VLP精度分别提升了35.34%和63.19%,综合性能优于现有方法。
2025年04期 v.71;No.332 442-452页 [查看摘要][在线阅读][下载 1566K] [下载次数:226 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:9 ] - 余荣威;张逸轩;曹书明;王丽娜;
当前交通标志检测方法主要依赖单阶段深度学习算法构建的目标检测模型,存在检测精度低、模型通用性弱等问题。为解决这类问题,提出一种基于改进YOLOv8模型的交通标志检测方法。该方法通过引入基于注意尺度序列融合的机制,提升了神经网络对于多尺度信息的提取能力;通过增加小目标检测层,使得方法更适用于小目标检测;采用RT-DETR的检测头,通过解耦尺度内交互和跨尺度融合高效处理多尺度特征。此外,为了克服现有交通标志检测方法在弱泛化方面的局限性,提高包围盒回归的准确性和效率,采用一种全新的损失函数inner-mpdiou,有效提高了模型的训练效率和精度。基于清华-腾讯100K(TT100K)数据集的实验结果表明:在保证实时性的前提下,该方法平均精度高达84.0%,相较于目前国际主流YOLOv8模型,提高了7.1%,整体模型大小降低了12.9%,提升了低分辨小目标检测有效性。
2025年04期 v.71;No.332 453-462页 [查看摘要][在线阅读][下载 1818K] [下载次数:2431 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:7 ] - 汤昊霖;袁煜麟;卢笑;汪鲁才;吴成中;王耀南;
基于Transformer的模型通过编码所有的关节点之间的连接关系,捕获全局视野的数据依赖关系,因而在三维人体姿态估计任务中取得了优秀性能。然而这类方法无法对关节局部依赖关系进行建模,且存在模型计算复杂度随序列长度平方增长的计算资源浪费问题。为了解决上述问题,本文将人体运动过程定义为状态空间模型的序列输入和输出过程,提出基于GCN(Graph Convolutional Network)和Mamba双流并行的人体结构扫描三维姿态估计方法 GMambaScanX,GCN模型对人体运动序列时空邻接关系进行建模,增强模型的局部依赖关系捕获能力。Mamba模型对人体运动序列时空长程关系进行建模,增强模型的全局依赖关系捕获能力,提出两种MambaScan扫描策略,针对人体运动状态转移特征的时序关节扫描,增强模型在时间维度对人体运动特征的理解能力;针对人体关节结构特征的人体结构先验引导的空间关节扫描,增强模型在空间维度对人体结构特征的理解能力。GMambaScanX在Human3.6M数据集上进行训练验证,平均关节位置误差为39.8 mm,参数量仅为MotionBERT的12.4%(5.3×10~6)。相比于进行全连接建模,GMambaScanX能够更好地提取人体结构特征,高效使用参数,提高模型的有效性与效率。
2025年04期 v.71;No.332 463-472页 [查看摘要][在线阅读][下载 1433K] [下载次数:352 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:6 ] - 李俊;袁通达;陈黎;
针对人体姿态估计任务中视觉Transformer模型存在的尺度多样性受限和近距离信息忽视问题,提出多尺度与多级语义融合Transformer(MMSF)模型。该模型通过引入关键点标记作为代理的交叉Transformer操作,实现了不同分辨率视觉信息的相互学习,提高了估计精度。同时,利用深度卷积和稠密连接复用标记技术,有效提取了含有多级语义信息的交叉标记,减少了编码器层堆叠,降低了模型复杂度。通过交叉标记与标准标记的交叉融合注意力操作,整合了多级语义信息,进一步增强了姿态估计效果。实验结果表明,在相同的条件下,MMSF模型在COCO数据集上达到了78.1%的平均精度,比TokenPose基准模型高2.3%;在MPII数据集上验证了其有效性,与近几年经典的基于Transformer的人体姿态估计方法相比取得了更好的性能。
2025年04期 v.71;No.332 473-484页 [查看摘要][在线阅读][下载 1676K] [下载次数:547 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:6 ] - 何富威;张仕斌;卢嘉中;李晓瑜;
基于事实信息的核查是目前不实信息核查研究的主流方法,但现有研究成果还存在文档检索中抽取的文档内容与待检测声明相关度不高、证据检索中忽略了句子间的内在联系以及声明验证中小语言模型的逻辑推理能力不足等问题。基于此,提出了一种融合大语言模型和证据抽取的事实核查模型。为提高待检测声明与文档内容的相关度,提出了DRCV(Document Retrieving for Claim Verification)文档检索算法;为了从文档中提取与声明最相关的句子作为证据,构建了“文档-声明对”训练证据检索模型,提出了基于关键词-注意力机制的证据检索方法;为增强模型的逻辑推理能力和提高事实核查的准确度,开发了基于大语言模型的声明验证模型,该模型选取参数量从5亿至1 300亿的七款大语言模型对声明进行验证,并利用其逻辑推理能力核查声明的事实性。基于真实数据集对提出的事实核查模型进行仿真实验,结果表明该模型进行事实核查的准确率比仅使用大语言模型高0.1%~34.0%,且比现有效果最好的模型准确率高1.8%。
2025年04期 v.71;No.332 485-494页 [查看摘要][在线阅读][下载 1093K] [下载次数:585 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:7 ] - 冯松;胡慧君;刘茂福;
在社交媒体和在线平台产生的大数据背景下,图文情感分析成为了一个重要的研究任务,对于理解用户情感倾向至关重要。现有方法通常局限于模态的单层次特征,缺乏对图像多层次情感信息的理解,并且在多模态特征融合时容易产生信息冗余和特征偏移,导致模型效果不佳。针对上述问题,提出了一种基于语义引导注意力和多任务学习的图文情感分析方法。通过多尺度特征提取模块捕获图像的多层次情感信息,利用语义引导注意力融合与文本情感信息相关的图像信息,在多任务学习模块中引入情感聚焦校准任务来最小化融合特征与其情感质心的距离。在三个社交媒体数据集上的实验结果表明,该方法在图文情感分析任务中优于其他现有方法。
2025年04期 v.71;No.332 495-505页 [查看摘要][在线阅读][下载 1273K] [下载次数:424 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:6 ] - 王董祺;杨洪山;黄勃;何传鹏;高志荣;刘瑾;
当前基于深度学习的文本情感分类方法尚未充分利用字符级信息和情感来源信息,仍有改进空间。因此,提出了一种基于预训练模型BERT的面向多情感字符级信息的注意力方法(Character-BERT-Sentiment-Attention, CBSA)。该方法通过捕捉字符级信息丰富文本语义信息,拼接融合BERT预训练的单词级向量,得到语义向量,然后将上下文词与4种情感来源信息(情感词、否定词、程度副词、连接词)整合到门控循环单元(Gated Recurrent Unit, GRU)神经网络中,通过注意力机制构建融合情感资源信息的句子表示,最后通过Softmax分类层预测情感极性。该方法对字符级信息与多情感来源信息进行提取,获得来自不同表示子空间的情感相关信息,从而使情感预测更加准确。在5个数据集上的实验结果表明,本文提出的方法在分类准确性上有了明显的提高。
2025年04期 v.71;No.332 506-516页 [查看摘要][在线阅读][下载 1093K] [下载次数:1751 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:7 ]