Why Perfect Clustering Algorithms Don’t Exist を読んだ。
- 機械学習のクラスタリングのアルゴリズムに関する記事である
- どんなアルゴリズムにも根本的に欠陥がある
- 分散システムにはCAPというトレードオフ(両立できない)の関係がある
- 一貫性(Consistency)、可用性(Availability)、分断耐性(Partition-tolerance)
- クラスタリングではスケールの不変性、豊富さ、一貫性というトレードオフがある
- スケールの不変性: データ間の距離を同様なスケールで変えても結果が変わらない
- 豊富さ: 可能性、グループをどの程度生成できるか
- 一貫性: 再現性?グループの再編成?
- Jon Kleinberg は以下の論文で、上記3つの性質のトレードオフを示した