TensorFlow での DeepLab によるセマンティックイメージセグメンテーション

この記事は Google Research ソフトウェアエンジニア、Liang-Chieh Chen、Yukun Zhu による Google Research Blog の記事 "Semantic Image Segmentation with DeepLab in TensorFlow" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

セマンティックイメージセグメンテーションとは、イメージ内のすべてのピクセルに「道路」、「空」、「人」、「犬」などといった意味のあるラベルを割り当てる処理のことです。これは、Pixel 2 および Pixel 2 XL スマートフォンのポートレートモードに搭載されている被写界深度を浅く見せる効果を合成によって作り出す機能や、モバイルによるリアルタイム動画セグメンテーションなど、さまざまな形で応用することができます。意味のあるラベルを割り当てるには、物体の輪郭をピンポイントで判別する必要があります。そのため、イメージレベルでの分類やバウンディングボックスレベルでの検知などによる視覚エンティティ認識タスクよりも、はるかに厳密に位置を検出しなければなりません。

本日（*原文公開当時）は、私たちが誇る最新で最高のパフォーマンスを持つセマンティックイメージセグメンテーションモデルである DeepLab-v3+ [1]^*をオープンソースとしてリリースしたことをお知らせします。これは、TensorFlowを使って実装されています。今回のリリースには、最も正確な結果が得られるように、強力な畳み込みニューラルネットワーク（CNN）バックボーンアーキテクチャ [2, 3] をベースに構築された DeepLab-v3+ モデルが含まれています。これは、サーバー側にデプロイすることを想定したものです。このリリースの一部として、TensorFlow モデルのトレーニングおよび評価用のコードと、セマンティックセグメンテーション処理のベンチマークである Pascal VOC 2012と Cityscapesを使ってトレーニングを済ませたモデルも公開しています。

初めての DeepLab モデル [4] は、3 年前に誕生しました。それ以来、CNN の特徴抽出の改善、オブジェクトスケーリングモデルの向上、コンテキスト情報の正確な利用、トレーニング手続きの改善、さらに強力になったハードウェアとソフトウェアによって、改善が加えられた DeepLab-v2 [5] や DeepLab-v3 [6] が生まれています。DeepLab-v3+ は DeepLab-v3 を拡張したもので、シンプルかつ効果的なデコーダモジュールが追加されており、特に物体の境界付近のセグメンテーション処理の精度が上がっています。さらに、Atrous 空間ピラミッドプーリング [5, 6] とデコーダモジュールの両方に対し、深さ方向に畳み込みを分解する Depthwise Separable Convolutionを適用することにより、高速で強力なセマンティックセグメンテーション用エンコーダデコーダネットワークを実現しています。

畳み込みニューラルネットワーク（CNN）をベースとした最新のセマンティックイメージセグメンテーションシステムは、手法、ハードウェア、データセットが進化したことにより、5 年前ですら想像できなかったレベルの精度に達しています。このシステムがコミュニティに広く公開されることで、学会や産業界の他のグループによる最新のシステムの再現や改善、新しいデータセットを使ったモデルのトレーニング、このテクノロジーを活用する新たなアプリケーションの構想などが推進されることを期待しています。

謝辞
サポートと価値ある議論を提供してくれた Iasonas Kokkinos 氏、Kevin Murphy 氏、Alan L. Yuille 氏（DeepLab-v1 および -v2 の共著者）に感謝いたします。また、Mark Sandler 氏、Andrew Howard 氏、Menglong Zhu 氏、Chen Sun 氏、Derek Chow 氏、Andre Araujo 氏、Haozhi Qi 氏、Jifeng Dai 氏、そして Google Mobile Vision チームにも感謝を捧げます。

参考文献

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam, arXiv:1802.02611, 2018.
Xception:Deep Learning with Depthwise Separable Convolutions, François Chollet, Proc. of CVPR, 2017.
Deformable Convolutional Networks — COCO Detection and Segmentation Challenge 2017 Entry, Haozhi Qi, Zheng Zhang, Bin Xiao, Han Hu, Bowen Cheng, Yichen Wei, and Jifeng Dai, ICCV COCO Challenge Workshop, 2017.
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille, Proc. of ICLR, 2015.
Deeplab:Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille, TPAMI, 2017.
Rethinking Atrous Convolution for Semantic Image Segmentation, Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam, arXiv:1706.05587, 2017.

* DeepLab-v3+ は、Pixel 2 のポートレートモードやリアルタイム動画セグメンテーションには利用されていません。投稿の中では、このタイプのテクノロジーで実現できる機能の例として触れられています。^↩

Reviewed by Haruka Iwao, Developer Advocate, Google Cloud

TensorFlow での DeepLab によるセマンティックイメージセグメンテーション

Trending Articles

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

BVE阪急全線ダイヤ拡充パック　内容詳説(宝塚線)

ドメインコントローラーをベアメタル回復でバックアップ/リストアする方法

【みかじめ料】工藤會景浦組組長影浦一治容疑者を逮捕

サカサマのパテマ.mp4

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

自宅警備員2　-灰原家の血族-　攻略

タスクスケジューラの「停止するまでの時間」設定の注意点について(Windows Server 2012 R2)

スポクラ・しながわ「フリースポーツに参加してみませんか？」（毎週月曜）／品川区

外字の有無をチェックするユーザー定義関数

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Retouch pilot lite 3.5.3-簡単に写真内の不要な物体を消すことができる無料のフォトレタッチソフト...

福島県郡山市強姦事件

RealLifeCam (RLC) - Madison, Florence, Dianoria, Veronica, Karina - Backyard

＜仙台国際ホテル暴行＞ホテル側謝罪し和解　女性「二度と繰り返さないで」

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

生野が生んだスーパースター文政　現在、男道（刑務所）にて修行（服役）中㉙

改訂版　開眼　第１話

[Album] Sachiko Kobayashi – 55th Anniversary: All The Best [MP3]