2016-04-02

はじめてのパターン認識 第5章を読んだ

「はじめてのパターン認識」の第5章「k最近傍法(kNN法)」を読んだ。
内容を他人に説明する機会があったので,そのときに自分なりにまとめたものをここに記しておく。

近傍法の発想

近傍法の根本は「近いデータどうしは同じクラスに属する」という発想だろう。
第5章の内容は,この発想に照らし合わせることですっきり理解できた。

kの値の適切さ

kNN法ではkの値を適切に決める必要がある。具体的な最適値は汎化誤差を比べないとわからないようだが,適切さの基準を定性的に述べるなら,「近くの情報が適切に拾えるかどうか」ということになるだろう。
kが小さすぎると外れ値などの局所的なばらつきの情報が強く表れるので,誤った分類をしやすくなる。ばらつきの影響はたくさんの鋳型を見て判断すれば小さくなるけど,kが大きすぎると今度は識別に関係しない遠くの情報まで拾ってしまうことになる。どちらにしても近傍の情報が正しく拾えないので,近傍法はうまくはたらかない。

漸近仮定の意味

漸近仮定とは「鋳型が十分に多ければ,入力データに十分近い鋳型がある」とする仮定だ。近傍法の基本思想は近いデータどうしが同じクラスに属することだから,入力データから好きなだけ近いところに鋳型があると言えるのは近傍法にとって理想的な条件である。誤り率についての議論が漸近仮定の下で進められているのは,それがkNN法を一番理想的に扱える状態だからだろう。

次元の呪い

逆に『次元の呪い』は近傍法にとって一番不利な条件である。次元の呪いは第2章でも出てきたが,今回の呪いは「次元が大きいと超球の体積のほとんどを球殻が占めるようになる」というものだ。
超球の体積とその球殻(厚さε)の体積とを比べると,εが小さくても次元が大きければ体積比が1に漸近してしまう。近傍法でいうと,入力データの近くに鋳型がない上に,周りの鋳型はほとんど同じ距離(球殻上)に存在するということになる。これは漸近仮定が成り立っているときとは真逆の状態で,近傍法にとっては致命的である。

計算量を減らすための方針

素朴なkNN法は鋳型全部との距離を計算するので,鋳型が多いと計算量も多くなる。5.4節では計算量を低減する方法が紹介されている。計算量低減の方針は大きく分けて①いらない鋳型を削除する遠くの鋳型は計算しない,の2つがある。
①の方針をとるなら,どんな鋳型を不要と判断するかが問題になる。「誤り削除型」では,間違ったクラス領域にある鋳型を不要として取り除いている。「圧縮型」では,識別境界に影響しないデータを不要として取り除いている。
②の方針をとるなら,具体的に距離を計算しなくても大まかな遠近を把握できる仕組みが必要になる。この仕組みは,あらかじめ鋳型どうしの距離関係を反映したデータ構造を定義しておくことで実現できる。「分枝限定法(分岐ではない)」では,鋳型の部分集合を節,集合の包含関係を枝とした木構造を使って,節の要素全体を囲む領域との距離を計算することで大まかな距離を把握している。「近似最近傍探索」では,特徴空間を区切った矩形領域を鋳型に割り当てておいて,その矩形領域との距離を計算することで近似解かどうかを判断している。

まとめ

  • 近傍法は「近いデータどうしが同じクラスに属する」という発想に基づく
  • kの値は近傍の情報が拾える大きさにする
  • 近傍法にとっては入力データの近くに鋳型があることが理想的
  • 鋳型どうしの距離構造を反映したデータ構造が用意されていると計算を省ける

2015-03-18

大学の花

この頃は少しづつ春が訪れているようで,あちこちで花を見かけるようになった。桜はまだ蕾だが,梅や椿は咲いているようだ。
今日(日付では昨日)は大学での用事を済ませた後に時間があったので,学内を散歩しながら写真を撮って回った。

情報システム工学科棟の脇にて。梅かな?
濃いピンク色が遠くからでも目を惹く。

樹皮はこんな感じ。後で種類を調べられるようにと思って撮った。
樹木の種類を特定するにおいて,特に冬の落葉樹では,樹皮は大きな情報となるらしい[1]
しかしよく考えて見ると,今は特徴的な花が咲いているのだから,そちらのほうが手がかりになるのではないか。

ちなみに大学の樹の多くには番号が貼り付けてある。誰がいつ付けたのかは知らない。何か研究に使うのだろうか?
写真は教養学部棟の研究機構棟側にて。

花と青空,と思ったら端に建物が写っていた。惜しい。

理学部2号館の前にて,黄色い花を付けた樹があった。何という種類の樹だろうか?調べたところ,おそらく山茱萸(サンシュユ)だろうと思われる。[2][3]

後で種類を調べられるように,花に近寄って撮った。
……ボケた。背景にピントがあっているのか。

こういうことはよくあるので対策を考えた。オートフォーカスをハックしよう。
きっとデジカメのオートフォーカスは,画像に対する何らか評価関数を用いて,その値が極大(あるいは極小)となるようにピントを調整するのだろう。評価関数は多分,画像の高周波成分とかコントラストの大きさに基いている。
それなら,対象が細かい模様をもっているか,視界内での占有率が大きいほどピントが合いやすくなる。
つまり,花と同じ奥行き距離にある物体でカメラの視界全体を覆ってしまえばピントが合うはずだ。

花の脇に手を並べてカメラの視界に大きく写して,花の位置に無理やりピントを合わせる。
そして手を外した瞬間に,オートフォーカスが遠くにピントを動かすよりも速くシャッターを切る。
どうだ!
眩しい!
カメラの視界を手で覆ったせいで暗くなっていたのか。オートフォーカスだけじゃなく絞り調整よりも速くシャッターを切ったようだ。

結局,カメラの位置をあちこち動かして花にピントが合うまで試行錯誤することにした。
粘ること数分,良い感じに撮れたのではないだろうか。

同じく理学部2号館の前にて。黄色と薄桃色が混じって並んでいる。
鮮やかだけど色が煩くなくて,良い。

総合研究棟の裏にて。
1本の樹なのだが,そのうち一部に集中して花を咲かせている。他の幹は死んでいるのかな?
よく見ると,他の幹でも枝先にはちらほら花を付けているようだ。

4年間通ってきた大学であるが,普段は屋内にこもっているか建物間を行き来する程度なので,改めて景色に注目するとけっこう新鮮なものだった。特に今の季節は草木が鮮やかで特徴的だ。

学内には他にも色々な樹や花があるので,また散歩しながら景色を眺めたい。

参考文献
[1] 「落葉樹の樹皮 ア~オ」,http://matsue-hana.com/jumoku/juhi1.html,2015-03-17アクセス
[2] 「青梅/吉野梅郷」,http://kurotarou.life.coocan.jp/kuro_tabi/060324/060324.htm,2015-03-19アクセス
[3] 「サンシュユ 花ごよみ|東山動植物園」,http://www.higashiyama.city.nagoya.jp/18_jiten/plant/index.php?ID=198,2015-03-19アクセス

2015-02-08

「バイオミメティクスを超えて!」を見た

東京農業大学にある「食と農」の博物館に行ってきた。
元々は醸造酒について知るために行ったのだが,私が最も興味をもったのは,偶然開かれていた「バイオミメティクスを超えて!」という特別展示だった。

バイオミメティクス(生物模倣技術)とは,生物の優れた機能を真似ることでより良いモノをつくる手法のことだそうだ。

では「バイオミメティクスを超える」とはどういう意味だろうか。
素朴に捉えるならばミミック(模倣)を超えるということで,本物を超える,つまり基にした生物よりも優れたモノをつくるという意味だろうと思った。
しかし学芸員(の卵)の話を聞いていると,乾燥させたエチゼンクラゲをチップにして土壌の保水を図るという研究を指してバイオミメティクスを超えたと言った。
曰く,乾燥したエチゼンクラゲというものは自然由来であり,撒いた後は微生物に分解されて肥料としても機能して,資源の循環になるからだそうだ。
家に帰って展示案内の冊子を読んでみると,同じようなことが書いてあった。
つまり,これまでのバイオミメティクスは生物を真似つつもその実現には相変わらず化石燃料という枯渇する資源に頼っていたので,これからは資源についても循環するものを使っていこうという意味で「超える」と言っていたようだ。
「『ミメティクス』を超える」ではなく,そのまま「『(20世紀の)バイオミメティクス』を超える」という意味だった。

……いやしかし,「ミメティクスを超えたバイオミメティクス」というのも見てみたいと思う。

2015-02-01

はじめ

ブログをつくった。 ある程度の量があってまとまった文章を書く訓練をしようと思う。 ツイッターでは養えない。

けど,つくってみると途端に何を書けばいいのかわからなくなる。