数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
岡嶋 裕史
- 新書: 211ページ
- 出版社: 光文社 (2006/5/17)
- ISBN-10: 4334033555
- ISBN-13: 978-4334033552
- 発売日: 2006/5/17
- 商品の寸法: 17 x 10.8 x 1.4 cm
データマイニングが従来の統計分析と一線を画して語られるのは、
取り扱う情報が質と量の両面において異なるからです。(略)
統計分析は情報が高コストであった時代に確立された学問体系です。
それは、できるだけ小さい情報量から、世界の姿を知ろうとする試みだと
換言できます。一方で現代は巷に情報があふれかえっています。
その差が指し示すのは、分析対象が深度を増すことであり、
従来は分析対象にしなかった/できなかった情報も対象にできる、
すなわち、対象の幅が拡がることでもあります。
このように質的にも量的にも変化した分析対象に対して、
異なるアプローチ方法が用意されるのは、必然でもあるでしょう。
...とのこと.
まさに,データマイニングの入門書.
前半部分では,データマイニングの必要性,必然性,統計分析との
質的な違い,などが述べられており,興味深い.
情報爆発という言葉に代表されるように,現在,ちまたには,情報が
あふれかえっている.
その情報の多くは,これまで保存されていなかった情報であり,
ここから,有益な情報を抽出するのが,データマイニングである.
# ちなみに,最近の情報は,センサーによるものが多い.
# ここで言うセンサーとは,防犯カメラの映像,などを含み,
# 記憶媒体の大容量化,低価格化により,とにかく保存が進んでいる.
# ...落ち着いて考えると,怖い世の中だ.
何も考えずに,手法だけを適用すると,雨が降ってきたので傘が売れた,など
無意味な情報が抽出されるので,注意が必要.
後半部分では,各手法が紹介されている.
しかしながら,回帰直線を求めて,回帰分析により予測を行う,くらいまでの
説明はまだよいとしても,それ以降の決定木,k-means,
自己組織化マップによる分類,協調フィルタリング,
ニューラルネットワークなどの説明を数式なしで行っているため,
その詳細は不明瞭.
# やはり,これらを数式なしで説明するのは無理があるかな.
最後の部分では,情報の共有と監視,個人情報保護などの話もあり,面白い.
この前半部分と最後の部分を読むだけでも,ためになる.
No comments:
Post a Comment