摘 要
近年来,受到我国国民经济发展与社会财富积累增速加快的影响,人们对自己的身体健康也越来越重视,很多的人都选择在服用中草药来治疗疾病、改善体质,因此,我国的中药材行业在这一段时间内也迎来了蓬勃的发展。人们对中医健康养生越来越重视,而中药材是中医健康养生体系的重要组成部分。中药材种类纷繁复杂,普通人对中药材的辨识知识比较匮乏,这可能会导致误用等不良后果。自从2006年,深度学习被提出以来,它在文本、语音、图像等信息载体的智能应用领域取得巨大的进步。目前,在中药材识别研究领域中,现有的研究只局限于少量药材或者需要专业器材,缺乏实用意义,而应用深度学习的研究还处于空白阶段。如果引入深度学习技术并实现智能化的中药材识别,中药材产业和人们都将会受益。本文的识别模型采用深度卷积神经网络,考虑到中药材的领域特性,尤其是类属相近的中药材往往需要利用纹理等底层信息来进行区分,本文提出一种新的特征融合方法,将网络底层信息与高层信息融合,从而提高分类效果。
关键词
中药材识别;识别方法;深度神经网络;特征学习;预训练
引言
中药材就有道地性的说法,它是指人们传统公认的且来源于特定产区的具有中国特色的名优正品药材,其本质是药材质量好、疗效好,在长期使用中得到了医者与患者的普遍认可。然而,中药材道地性的划分标准主要来源于实践经验,是人为的、相对的、模糊的,许多道地药材质量形成的科学机理尚不清楚,只知其然不知其所以然,特别是在道地产区内同种药材的质量也参差不齐。
来源鉴别是应用植(动)物分类学知识,对中药的来源进行鉴定,确定正 、确的学名,以保证在应用中品种准确无误。中药材大部分来源于植物,通过中药材的植物形态的观察( 也可借助于放大镜和解剖镜)结合核对植物标本(已鉴定出品种的标准样品)及植物学文献来确定中药材的植物学名。
性状鉴别是通过对药材的外形、大小、表面、颜色、质地、断面以及气味等 进行综合观察,判断药材的真伪。传统的鉴别方法主要是应用性状鉴别的方 法。长期以来老药工、老药农在实践中总结、积累了很多鉴别中药材外观的宝 贵经验,至今还在沿用。传统的经验鉴别方法简便易行,形象生动,重点突出, 切合实际。为杜绝假药扰乱药品市场做了很大贡献。
传统经验鉴别主要有以下手段:
1.眼看:眼看就是用人体的光学感受器———眼,看药材的形状、大小、表面、颜色断面等,从而判定药材真伪优劣等的方法。形状:每种中药材的外形一般是固定的,如圆柱形、纺缍形等。大小:中药材的大小,如长短、粗细、厚薄等均有一定规格,如果不符合规格,可认真辨别;测时应以量多的样品为准,如枸杞有大有小,党参有长有短,粗细不均。表面:中药材的表面各有自己的特点,主要表现在光滑度、根痕、皮孔、粗糙度,以及鳞片、毛等,这是识别药材真假的标准之一。颜色:中药材的颜色通常是固定的,色泽变化一般不大。如红花为红色,青黛为深蓝,紫草为紫色,黄连为黄色等,如果色泽发生变化,可能是伪劣药材或是质量不好的药材,不可选用。
2.手摸:手摸即用手的感觉去感受药材的软硬、坚韧、疏松、粘性或粉性等质地特征。如松泡、粉性、柴性等。如通草松泡,山药显粉性等,应注意识别。
3.鼻闻:即用鼻子闻某些药材有特殊的香气和臭气,这是因为药材中含有挥发性物质的原因。有的药材可揉碎再闻;或用开水烫一下再闻,有的需点燃一下闻烟的香气。这些药材的特殊气味,常常成为药材鉴别的主要依据之一。如沉香、乳香、樟木、山药等均有特殊香气,但又有不同之处,可帮助识别。
4.口尝:口尝可以从药材的味道识别其真假伪劣。通过味觉感受到酸、甜、苦、辣、咸等味道,来分辨区别。如乌梅、木瓜、山楂以味发酸为好;黄连、黄柏等越苦、越好,党参、甘草、枸杞以味甜为好。口尝时,要注意具有强烈刺激性和有毒的药材,尝时应取少许,尝后可立即吐出漱口,并嚼点甘草,以免中毒。
5.水试:水试就是利用某些药材在水中的各种变化作为鉴别依据,来识别药材的真伪。如红花用水泡后,水变金黄色而花不褪色;苏木投入热水中呈淡红色等,这是因为药材中含有的化学成分所致。
6.火试:一些中药材含有树脂类,用火烧之后可产生特殊的气味、色泽、烟雾,发出响声等现象,由此可以识别真假伪劣。
中药材的种植、采集和饲养过程,即是中药材的生产过程。一方面,中药材属于药品,从原则上说,对中药材的生产也应当依照本法规定进行监督管理;但另一方面,中药材的生产,即中药材的种植、采集和饲养活动,又明显不同于一般药品的生产活动。一般药品的生产活动属于工业化生产,质量可控性强;而中药材的生产一般属于农业生产活动,质量可控性与工业化生产相比,影响因素更多,更为困难。本法对一般药品生产活动监督管理的规定,难以完全适用于中药材的种植、采集和饲养。同时又应当看到,要保证中药材、中药饮片和中成药的质量,也需要从中药材生产入手。
现有中药材图像数据规模较小,图像均在控制条件下拍摄,类内差异性较小且不同种类的药材在形态上具有较好的可分性。图像分类系统的构建很大程度上依赖于特定领域图像数据集的构建且图像采集环境和目标形态差异会导致同类目标的像素数值差异大于不同类目标。针对不同中药材品种识别方法,本文的主要贡献体现在:
(1)在自然环境下分组采集百合、党参、枸杞、槐花、金银花五种中药材的图像,并对药材进行人工标注,建立分布广泛的五种中药材的图像数据集。
(2)实验对比分析了传统手工特征分类模型、预训练深度模型和深度学习神经网络等图像分类方法在中药材品种识别上的准确率,并对深度学习神经网络的泛化性能进行了实验分析。
1 数据预处理
中药材图像采集与人工标记是建立中药材品种识别模型的基础。本节主要介绍中药材图像数据集的构建过程。
1.1 数据采集
中药材图像数据是在
https://aistudio.baidu.com/aistudio/datasetdetail/55190
该网站下载的,里面包含了五种药材,分别是百合、党参、枸杞、槐花、金银花;每种药材分别有200张左右的照片,有的图片是实物拍摄,有的是网络采集图片,图片中药材的形状、颜色都有较大的差异,且不同器材拍摄出来的效果也不同,最主要得是图片来源不尽相同,这些都给图像分类增加了一定的难度。
表1 五种中药材的图像个数
(a) 百合
(b) 党参
© 枸杞
(d) 槐花
(e) 金银花
图1. 5种中药材的示例图像
1.2 数据增强
为了提高深度学习神经网络模型的泛化能力,对每幅图像通过旋转、平移、扭曲、缩放、翻转等传统数字图像处理方法进行随机变换以扩充样本个数。针对某幅图像进行数据增强后的部分样本如图2所示,通过随机变换生成的图像大量扩充了数据集,使样本分布更广泛。
图 2 数据增强后的部分图像样本
2 模型基础结构
出于多模型探究以及模型的效果和运行速度平衡考虑,本文算法选择AlexNet、GoogLeNet、SqueezeNet 作为基础结构。其中,AlexNet 作为在深度学习领域经典的模型,具有速度快、效果良好的优点; GoogLeNet 得益于Inception 结构,具有十分优秀的特征提取能力; SqueezeNet 采用了多种网络设计优化,这使得它在维持较好效果的同时网络规模极大降低,这也是它作为移动端模型首选的原因。
三种网络的模型参数如图3、图4、 图5所示:
图 3AlexNet模型参数图
图 4SqueezeNet模型参数图
图 5GoogLeNet模型参数图
3 特征识别
中药材识别可以视为细分领域中的图像识别。在这个领域中,中药材之间的相似度往往较高,这是因为:
1、绝大部分中药材来自草本植物或者草本植物的器官,这使得它们在天然属性上具有相似的特点;
2、大部分中药材都需要经过切片、晒制或烘焙等流程,经过这些流程,颜色、形状等特征的特异性被减弱,分类难度被提高。
图 6 愧花
从图6可以看出,虽然都是愧花,但是刚摘下来和晒干区别还是很大的,而且从图1可以看出不同中药材区别也很明显。
3.1 深度卷积神经网络的特征融合
许多理论和实验证明,对于深度神经网络,底层学习到的特征是纹理、边缘特征,而高层学习的特征则较为抽象,能更加高级地表达图片的内容。在一般情况下,我们都抛弃深度神经网络底层学习到的所有特征,而只提取最后一层卷积层或者全连接层的特征。
针对中药材识别任务的特性,本文在深度卷积神经网络中采用了特征融合技术,即将底层的某层特征融合到高层并进行分类。对于采用的AlexNet、 SqueezeNet 和GoogLeNet网络,挑选部分底层特征层,提取该层特征与最后一层特征进行融合,最后
再接上全连接层或者分类器。
然而,在卷积神经网络中,网络底层特征的数值,往往是比高层特征的数值更大,如果简单地它们进行融合,底层特征对结果的影响将过大。尽管融合后接上的全连接层或者分类器可以通过训练来调整这种影响,但训练所需的时间也会更长,并更加容易陷入局部极值点。
3.2 集成学习
卷积神经网络的参数规模巨大,训练得到的参数并不能保证具有足够的泛性,即模型可能会出现过拟合的现象,导致准确率受到影响。因此,本文采用集成学习中的Bagging方法来进一步 增强中药材识别算法的效果。
图 7Bagging算法流程
步骤1:产生多个具有差异性的子训练集。把中药材数据集划分为训练集:测试集=4:1的比例,然后对训练集进行数据增强处理,对训练集自助采样的方法,生成中药材子训练集,自助采样的次数与数据增强后的中药材图片数量一致,这样,每一次大约有36.8%的数据没有在子训练集中出现过。多次同样的操作,即可获得多个子训练集。
步骤2:训练弱分类器。通过对深度卷积神经网络进行训练,接着连接Softmax分类器,产生多个具有一-定差异性的弱分类器。对于不同的神经网络,我们会用多个不同的子训练集训练的多个有差异性的模型。
步骤3:获得强分类器。通过投票法这一结合策略获得最终的强分类器,少数服从多数。
3.3 损失函数
深度神经网络的训练目标是最小化损失函数,即用图片作为输入和对应的类标签,通过网络的训练来最小化预测标签和真实标签之间的差距,这些差距称之为损失。损失函数有许多种,针对分类任务,本文采用了交叉熵损失函数结合正则化项。
4 实验
本实验用传统特征提取的方法,对中药材训练集和测试集提取了特征。采用的数据集是原始数据集,包含大概1000张中药材图片。
4.1 衡量实验结果的指标
机器学习,自然语言处理和信息检索等领域,评估是检验算法效果的方法,对于分类问题,其评价指标- - 般包括如下几种:准确率,精确率,召回率和Fl-Measure。
本论文根据中药材识别的实际情况,选择准确率作为衡量实验结果的指标。
4.2 传统特征实验
采用的传统特征有HoG、Gabor和LBP,实验对单个特征,两两融合特征和三个特征融合在一起的结果,分类器使用常用的Softmax、SVM、Random Forest和KNN分类器,5折交叉验证平均的实验结果如表1所示:
表 1传统特征中药材识别结果
该实验表明了使用传统的图像特征,效果很差,仅仅是比随机结果略好。原因在于中药材图像的识别任务比较复杂,提取的传统特征不足以表达类间的差异性。
4.3 实验对比图
如图所示,分别为AlexNet. SqueezeNet和GoogLeNet三个卷积神经网络在中药材测试集随着迭代次数的增加,准确率的变化曲线图,以及在训练集随着迭代次数的增加,损失函数值的变化曲线图。
图 8AlexNet参数初始化方式和数据增强实验结果图
图 9SqueezeNet参数初始化方式和数据增强实验结果图
图 10GoogLeNet参数初始化方式和数据增强实验结果图
4.4 集成学习实验
本实验采用集成学习技术,通过Bagging自助采样法产生多个具有差异性的子训练集,通过AlexNet、SqueezeNet 和GoogLeNet这3个卷积神经网络的训练,产生多个具有一定差异性的弱分类器,最后通过投票法这一-结 合策略获得最终的强分类器。
图 11AlexNet集成准确率与弱分类器个数的变化图
图 12SqueezeNet集成准确率与弱分类器个数的变化图
图 13GoogleNet集成准确率与弱分类器个数的变化图
图 14中药材识别实验结果总览图
5 结论
随着计算机技术的发展,尤其是人工智能理论以及应用的发展,各行各业也发生巨大的变革。在医学领域上,也出现了越来越多的智能系统来辅助医疗诊断。对于传统的中医学来说,也同样面临着创新。现阶段人们对中医健康养生有着比较高涨的热情去追求,但是大部分人并不是这方面的专业人士,对于中药材方面的分辨能力有限;而且中药材种类很多,市场也不完全规范,很多负责采购的相关人员都无法完全准确地识别出中药材。此外,因误识中药材而导致严重后果也很常见。本论文利用深度学习和大量数据结合,实现普通用户借助智能移动设备(如手机、平板)就能实现中药材识别,以提高人们对中药材的认知能力,拓宽在养生方面的知识,从而更加了解身体健康状况,简言之,能够提高人们的生活质量;同时也促进了中医学和现代计算机技术的发展,是对中医学的传承和创新,对推动中医学现代化具有非常重要的意义。
本论文通过深度神经网络对中药材识别进行研究以及应用,达到了不错的效果,但还存在不足和需要改进的地方,深度神经网络在中药材识别上的应用,依然需要更深入的研究。
参 考 文 献
[1] 庄奕珊.基于深度神经网络的中药材识别.华南理工大学.2018,03
[2] 刘加峰,高子啸,段元民,李海云,石宏理.基于深度学习的中药材饮片图像识别.北京生物医学工程.2021,12
[3] 王碧奇.浅谈中药材的鉴定与识别.2014
[4] 韩梅.药用植物学:中国农业出版社,2008年
[5] 张勇飞,赵冰.赵冰中药的生产与营销.北京:中国农业出版社,2011年2月
[6] 加强成果转化,促进中药材商贸提档升级 .中华人民共和国科学技术部.2016-12-22
[7] 河南禹州用染色剂泡中药材 .新华网
[8] Li Y, Huang X. Traditional Chinese medicine recognition based on FNN[C]/Machine Learning and Cybernetics, 2002. Proceedings. 2002 International Conference on. IEEE,2002, 1: 298-302.
[9] 陈艳江,刘艳艳,赵国忠,等.基于支持向量机的中药太赫兹光谱鉴别[J].光谱学与光谱分析, 2009, 29(9): 2346-2350.
[10] Luo D, Fan D, Yu H, et al. A new processing technique for the identification of Chinese Herbal Medicine[C]// Fifth International Conference on Computational and Information Sciences. IEEE, 2013:474-477.
[11]Larese M G, Namias R, Craviotto R M, et al. Automatic classification of legumes using leaf vein image features[J]. Pattern Recognition, 2014, 47(1): 158-168.
[12]Pahikala T, Kari K, Mattila H, et al. Classification of plant species from images of overlapping leaves[J]. Computers and Elctronics in Agriculture, 2015, 118: 186-192.
欢迎大家加我微信交流讨论(请备注csdn上添加)