【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

访客2年前AI生活153

一、赛题背景

2019年,农业农村部提出数字农业农村发展规划(2019-2025),明确提出以农业数字化为重点发展主线,全面提升农业农村生产智能化、经营网络化、管理高效化、服务便捷化水平,以数字化引领驱动农业农村现代化,为实现乡村全面振兴提供有力支撑。这其中对核心主粮作物、经济作物种植区域进行数字化建模是实现农业数字化的基础一环。依托现代卫星遥感技术,对地物目标进行多光谱、多时段监测,可以获取大量信号特征,同时基于不同农作物对不同波段光谱的特异性反射差异、生长周期特点,可以实现低成本、高精度、大范围的农作物种类识别,为实现农业数字化生产、高效网格化经营提供基础数据。

二、赛题理解

本赛题主要目的是通过时序多光谱遥感数据序列,设计人工智能算法,识别出对应地点对应时间段的种植农作物种类。

(1)数据集:本赛题给出了约22万条的多光谱传感器数值时序序列,每条序列包含若干个时间点,每个时间点包含了11个通道的值,这些值均为整数。因此,一条多光谱传感器数值时序序列的数据可以表示为

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

其中T为时间点的数目。

(2)目标:其目标是给定对应的多光谱传感器数值时序序列,以判定该地点种植作物种类(玉米、水稻、大豆中的其中一类),是个三分类问题。

(3)评价指标:本次赛题为机器学习经典的分类问题,评价指标采用分类准确率。

三、赛题分析

该赛题提供了一组序列数据,可以直接将该问题视为一个序列分类问题,并使用GRU(门控循环单元)或Transformer进行建模。对于输入数据,有两种可能的处理方法。

(1)第一种方法是将11个通道的值进行归一化,从而得到一个时长为T的序列,其中每个时刻的输入向量维度为11。这种方法相对简单,但有一个缺点:由于其数值是线性的,归一化后的数值对于相近的整数也是相近的,这使得模型难以区分这些相近的值。

(2)为了解决这个问题,我们的队伍采用了第二种方法:对11个通道的值进行embedding,从而得到一个11×h维度的向量。在输入到序列模型之前,我们通过一个线性变换将这个向量转化为一个[T, H]的矩阵,其中H是序列模型的隐藏层大小,例如256或512。这种方法的优点是能够将原始的、线性的输入值转化为一个更加丰富、更能表征数据特点的高维空间。这使得模型能够捕获到更多的数据特征,从而提高模型的分类性能。

四、解决方案

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

图1. 解决方案整体框架

我们团队的解决方案如图1所示。在这个解决方案中,我们首先利用BERT模型对多光谱传感器的数值时序序列进行建模。BERT模型能够捕捉时序序列中的上下文信息,这对于理解农作物生长过程中的时空变化是很重要的。然后,我们将从BERT模型的最后一层得到的特征与光谱反射和农作物生长周期的特征进行拼接并通过4层的transformer。这样做的目的是将从不同源获取的信息融合在一起,以提供更全面的信息。最后,我们采用mean pooling和max pooling对transformer的输出进行池化操作,以得到最终的序列特征。这个特征会被用作分类模型的输入。接下来,我们将详细介绍如何预训练BERT特征,以及如何提取光谱反射与农作物生长周期的特征。

(1)BERT模型的预训练

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

图2. BERT模型MLM预训练任务

为了更有效地捕捉序列中的语义信息和依赖关系,我们采用了改进的Masked Language Modeling(MLM)任务来对BERT模型进行预训练。具体地,我们并不是对一个时刻的所有传感器数值进行掩盖,而是随机掩盖掉20%的传感器数值。这样做的优点是,我们不仅可以使用不同时间点的传感器数值来预测当前的数值,还能使用当前时刻的其他传感器数值来预测某一个传感器的数值。这样的设计有助于模型更好地理解不同传感器数值之间的依赖关系,以及不同时间点之间的依赖关系。这对于捕捉多光谱传感器数据中的时空变化信息是非常重要的。

(2)光谱反射与农作物生长周期特征

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

遥感农作物识别时,光谱反射特性和农作物生长周期特性是两个关键特征。图3显示了豆科植物对不同光谱波段的反射率示意图,而图4展示了不同农作物生长周期中的NDVI指数变化示意图。这些示意图均来自公开资料,如果存在侵权问题,请联系我们删除。NDVI是一种常用的指数,用于衡量植被的生长状况。它的计算公式如下,其中NIR代表近红外波段,R代表红色光波段:

【ATEC2022赛题技术分享】基于预训练的遥感农作物识别

因此,我们计算每个时间点的NDVI值,并将其作为额外的输入特征。从图4中,我们还可以观察到,不同农作物的NDVI指数变化梯度也不同。这是一个重要的指标,可以帮助我们更好地区分特定地点适合种植哪些农作物。因此,我们也使用了梯度信息作为额外的特征。

五、致谢

首先,我们要对主办方在“科技助实”这一具有深远影响的主题上提供宝贵的数据和有趣的赛题表示感谢。这不仅为我们提供了一个展示科技创新能力的平台,还让我们有机会为农业持续发展贡献一份力量。”科技助实”不仅是一个充满意义的研究领域,而且具有极高的社会价值,它能够助力提高农作物产量、提升农业可持续性,并最终改善农民的生活质量。同时,我们也要对所有参与指导和支持的老师表示由衷的感谢。您们的专业知识和无私奉献为我们提供了强大的技术支持和指导,使我们能够更加自信地面对这个挑战。最后,我们期望接下来的比赛能够继续发扬光大,吸引更多具有激情和创新精神的人才参与,共同推动“科技助实”这一崇高事业不断向前发展。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

在政策和大数据的支持下,智能机器人已迎来发展高峰!

在政策和大数据的支持下,智能机器人已迎来发展高峰!

随着智能技术水平的不断提高,现在智能机器人使用规模逐渐拓宽,实现工业生产效率快速提升的同时,也为企业转型发展提供新机遇。如今,我国工业生产已...

德国对华为事件的态度,将继续跟华为合作!

德国对华为事件的态度,将继续跟华为合作!

在美国对华为禁令实施之后,AMD和英特尔这两家半导体公司,已经获得美国批准,可以与华为继续展开合作。而这也使得华为的电脑业务能够顺利进行,极...

腾讯被曝突然解散CDC部门,最新回应;富士康董事长否认苹果计划将供应链转出中国大陆

腾讯被曝突然解散CDC部门,最新回应;富士康董事长否认苹果计划将供应链转出中国大陆

今日头条 中国进口车销量创10年来历史新低,宝马MINI下跌最严重 中国的进口车市场正在经历剧变。数据显示,中国进口车销量在2017年达到12...

数据的“可用不可见”,阿里是怎么实现的?

数字经济时代,数据是企业的核心资产,数据的全生命周期加密处理是保护企业数据核心资产的最有效最可靠手段之一。在信息安全的发展过程中,我们已经建...

UIUC 李博:从技术角度实现 AI 可信,从博弈论、对抗攻击,到逻辑推理

UIUC 李博:从技术角度实现 AI 可信,从博弈论、对抗攻击,到逻辑推理

2013 年 4 月 23 日的午后一点,美国各大交易所的平静被骤然打破,办公室里一台台电话响个不停,同时夹杂着工作人员急躁的咆哮声,惊恐与...

RADAR 首款新车 RD6 发布,纯电皮卡能走多远?

RADAR 首款新车 RD6 发布,纯电皮卡能走多远?

近几年,新能源趋势大热,各汽车品类不断创新,汽车市场不断被细分,在愈加多元的消费市场下,谁抓住了用户需求,谁便赢得市场。 受疫情影响,国外及...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。