追記(8月31日)
ここのリストは旧版です。本文検索とPDFへのリンクを加えた改良版があります。

昨日の最後に書いた、Seesaaにある旧ブログ記事のアーカイブ化に着手しました。まず全記事リストを作ったので載せます。PostgreSQLと無関係、または過去のPCや日常の話で無意味なものも多いですが一応記録として。

リスト作成・表示に使った手順は、HTMLからリンク抽出 → PostgreSQLへ取り込み →TSV出力してWebページのテーブル化という流れ。他所でも役立ちそうなので、明日以降紹介します。

リストの元は ↓ このTSVファイル。文字コードはUTF-8。ヘッダはありませんが少ない列数なので分かると思います。必要なら自由に使って下さい。

» kenpg_seesaa_lists.tsv.txt(693 rows, 78.4 kB)

DateTitleTagsloading...


リスト作成・表示までの手順

• BashスクリプトとcURL… 旧ブログにある全てのindex-XX.htmlを取得・保存
• PostgreSQLpsql… 上記HTMLから正規表現で記事リストを作成し、TSVに保存
• JavaScriptTSVを動的に読み込み、テーブル化

詳細は
明日以降、書きます。以下2記事に書きました。

» PostgreSQLの正規表現でHTML内のリンクを抽出・整理してTSV出力
» タブ区別りテキスト(TSV)をHTMLテーブルにする簡単なサンプル