From oono_t @ mti.co.jp Thu Nov 1 11:17:49 2007 From: oono_t @ mti.co.jp (=?iso-2022-jp?B?GyRCQmdMbhsoQiAbJEJKfjluGyhC?=) Date: Thu, 1 Nov 2007 11:17:49 +0900 Subject: [Ludia-users 128] =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= Message-ID: <03D5AF53EB24BF4193661EF0843D04DD073491C0@mtimail.mti.co.jp> 大野@MTI です。 PostgreSQL 8.2.x Ludia 1.1.0 + 82patch を利用させていただいています。 形態素解析のインデックスを利用したカラムa に対して、 以下のSQL「 @@ '(/' 」を実行すると、PostgreSQL がダウンします。 2台中2台が同じ現象なため、なにか実行してはいけない検索文字列が あるのでしょうか。 ちなみに、「 @@ '(^-^)/' 」でも同じ現象です。(xx; == select a from table1 where a @@ '(/' limit 10 == postgresql-xxxx.log == WARNING: terminating connection because of crash of another server process DETAIL: The postmaster has commanded this server process to roll back the current transaction and exit, because another server process exited abnormally and possibly corrupted shared memory. HINT: In a moment you should be able to reconnect to the database and repeat your command. LOG: all server processes terminated; reinitializing LOG: database system was interrupted at 2007-11-01 11:04:53 JST LOG: checkpoint record is at A/35FD8750 LOG: redo record is at A/35FD8750; undo record is at 0/0; shutdown TRUE LOG: next transaction ID: 0/11282753; next OID: 461472 LOG: next MultiXactId: 3042962; next MultiXactOffset: 16954626 LOG: database system was not properly shut down; automatic recovery in progress LOG: record with zero length at A/35FD87A0 LOG: redo is not required LOG: database system is ready == よろしくお願いします。 From kousakadi @ nttdata.co.jp Thu Nov 1 11:32:44 2007 From: kousakadi @ nttdata.co.jp (kousakadi @ nttdata.co.jp) Date: Thu, 1 Nov 2007 11:32:44 +0900 Subject: [Ludia-users 129] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <03D5AF53EB24BF4193661EF0843D04DD073491C0@mtimail.mti.co.jp> Message-ID: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C8E@MAILSV11.msg.nttdata.co.jp> 幸坂です。こんにちは。 PostgreSQL 8.2.5 Ludia 1.1.0 Senna 1.0.9 MeCab 0.96 MeCab辞書 2.7.0-20070801 で実行しましたが、状況は再現できませんでした。 Senna, MeCab, MeCab辞書のバージョンを教えて頂けないでしょうか? > -----Original Message----- > From: ludia-users-bounces @ lists.sourceforge.jp > [mailto:ludia-users-bounces @ lists.sourceforge.jp] On Behalf Of 大野 朋克 > Sent: Thursday, November 01, 2007 11:18 AM > To: Ludia ML > Subject: [Ludia-users 128]特定文字の検索で PostgreSQLダウンします。 > > 大野@MTI です。 > > PostgreSQL 8.2.x > Ludia 1.1.0 + 82patch > > を利用させていただいています。 > > 形態素解析のインデックスを利用したカラムa に対して、 > 以下のSQL「 @@ '(/' 」を実行すると、PostgreSQL がダウンします。 > > 2台中2台が同じ現象なため、なにか実行してはいけない検索文字列が > あるのでしょうか。 > > ちなみに、「 @@ '(^-^)/' 」でも同じ現象です。(xx; > > == > select > a > from > table1 > where > a @@ '(/' > limit 10 > == > > postgresql-xxxx.log > == > WARNING: terminating connection because of crash of another > server process > DETAIL: The postmaster has commanded this server process to > roll back the current transaction and exit, because another > server process exited abnormally and possibly corrupted shared memory. > HINT: In a moment you should be able to reconnect to the > database and repeat your command. > LOG: all server processes terminated; reinitializing > LOG: database system was interrupted at 2007-11-01 11:04:53 JST > LOG: checkpoint record is at A/35FD8750 > LOG: redo record is at A/35FD8750; undo record is at 0/0; > shutdown TRUE > LOG: next transaction ID: 0/11282753; next OID: 461472 > LOG: next MultiXactId: 3042962; next MultiXactOffset: 16954626 > LOG: database system was not properly shut down; automatic > recovery in progress > LOG: record with zero length at A/35FD87A0 > LOG: redo is not required > LOG: database system is ready > == > > よろしくお願いします。 > > _______________________________________________ > Ludia-users mailing list > Ludia-users @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/ludia-users > From oono_t @ mti.co.jp Thu Nov 1 12:23:34 2007 From: oono_t @ mti.co.jp (=?iso-2022-jp?B?GyRCQmdMbhsoQiAbJEJKfjluGyhC?=) Date: Thu, 1 Nov 2007 12:23:34 +0900 Subject: [Ludia-users 130] =?iso-2022-jp?b?ICBSRTogGyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3Jl?= =?iso-2022-jp?b?U1FMGyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: Message-ID: <03D5AF53EB24BF4193661EF0843D04DD0734943A@mtimail.mti.co.jp> 大野です。 幸坂さん早速ありがとうございます。 > PostgreSQL 8.2.5 > Ludia 1.1.0 > Senna 1.0.9 > MeCab 0.96 > MeCab辞書 2.7.0-20070801 > で実行しましたが、状況は再現できませんでした。 > > Senna, MeCab, MeCab辞書のバージョンを教えて頂けないでしょうか? PostgreSQL 8.2.6 Ludia 1.1.0 Senna 1.0.5 MeCab 0.95 MeCab辞書 2.7.0-20060707 になります。 ludia-withdeps-1.1.0.tar.gz 標準のままです。 よろしくお願いします。 From kousakadi @ nttdata.co.jp Thu Nov 1 16:01:47 2007 From: kousakadi @ nttdata.co.jp (kousakadi @ nttdata.co.jp) Date: Thu, 1 Nov 2007 16:01:47 +0900 Subject: [Ludia-users 131] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <03D5AF53EB24BF4193661EF0843D04DD0734943A@mtimail.mti.co.jp> Message-ID: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C91@MAILSV11.msg.nttdata.co.jp> 幸坂です。 RHEL 4.0 update 4 (32bit) Memory 2Gbyte PostgreSQL 8.2.5 > Ludia 1.1.0 > Senna 1.0.5 > MeCab 0.95 > MeCab辞書 2.7.0-20060707 この環境で以下のSQLを試しましたが、 PostgreSQLはダウンしませんでした。 test=# CREATE TABLE tab1 (col TEXT); test=# INSERT INTO tab1 values('test'); test=# INSERT INTO tab1 values('(/'); test=# INSERT INTO tab1 values('/'); test=# INSERT INTO tab1 values('今日は晴天'); test=# CREATE INDEX idx1 ON tab1 USING fulltext(col); test=# SELECT * FROM tab1 WHERE col @@ '(/'; Ludia以外の原因が考えられます・・・。 APなどを使用せず直接「psql」で、上記のSQLを実行してもらえませんか? また、他に原因と考えられる事はないでしょうか? OSなどの情報も教えて頂ければと思います。 > -----Original Message----- > From: ludia-users-bounces @ lists.sourceforge.jp > [mailto:ludia-users-bounces @ lists.sourceforge.jp] On Behalf Of 大野 朋克 > Sent: Thursday, November 01, 2007 12:24 PM > To: ludia-users @ lists.sourceforge.jp > Subject: [Ludia-users 130] RE: 特定文字の検索で PostgreSQLダウンします。 > > 大野です。 > > 幸坂さん早速ありがとうございます。 > > > PostgreSQL 8.2.5 > > Ludia 1.1.0 > > Senna 1.0.9 > > MeCab 0.96 > > MeCab辞書 2.7.0-20070801 > > で実行しましたが、状況は再現できませんでした。 > > > > Senna, MeCab, MeCab辞書のバージョンを教えて頂けないでしょうか? > > PostgreSQL 8.2.6 > Ludia 1.1.0 > Senna 1.0.5 > MeCab 0.95 > MeCab辞書 2.7.0-20060707 > > になります。 > ludia-withdeps-1.1.0.tar.gz 標準のままです。 > > よろしくお願いします。 > > _______________________________________________ > Ludia-users mailing list > Ludia-users @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/ludia-users > From oono_t @ mti.co.jp Fri Nov 2 10:55:44 2007 From: oono_t @ mti.co.jp (=?iso-2022-jp?B?GyRCQmdMbhsoQiAbJEJKfjluGyhC?=) Date: Fri, 2 Nov 2007 10:55:44 +0900 Subject: [Ludia-users 132] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <03D5AF53EB24BF4193661EF0843D04DD0734943A@mtimail.mti.co.jp> <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C91@MAILSV11.msg.nttdata.co.jp> Message-ID: <03D5AF53EB24BF4193661EF0843D04DD073C1636@mtimail.mti.co.jp> 大野です。 > APなどを使用せず直接「psql」で、上記のSQLを実行してもらえませんか? psql から実行しても、同じ状態でした。 PostgreSQL が再起動し、コネクションが切断されます。 その他情報としては、  OS RHEL 5.0 update 5 (64bit)  PostgreSQL ソースからコンパイルしました。 他のカラムでも実施してみたところ、全文インデックスを貼っていない 箇所でも同様にダウンしました。 以下の カラムb には、b-tree インデックスを張ってあります。 select b from table1 where b like '%abc%' limit 1;  OK select b from table1 where b @@ 'abc' limit1;  OK select b from table1 where b like '%(/%' limit 1;  OK select b from table1 where b @@ '(/' limit1;  NG ですので、「@@」の時になにか問題があるようです。 同様な環境でも現象がでないということですので、もう少し調査して みようと思います。 また、以下テーブルを作成した場合もダウンすることを確認しました。 (全文インデックスを作成しなくてもダウン) > test=# CREATE TABLE tab1 (col TEXT); > test=# INSERT INTO tab1 values('test'); > test=# INSERT INTO tab1 values('(/'); > test=# INSERT INTO tab1 values('/'); > test=# INSERT INTO tab1 values('今日は晴天'); > test=# SELECT * FROM tab1 WHERE col @@ '(/'; From kousakadi @ nttdata.co.jp Mon Nov 5 10:01:02 2007 From: kousakadi @ nttdata.co.jp (kousakadi @ nttdata.co.jp) Date: Mon, 5 Nov 2007 10:01:02 +0900 Subject: [Ludia-users 133] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <03D5AF53EB24BF4193661EF0843D04DD0734943A@mtimail.mti.co.jp><178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C91@MAILSV11.msg.nttdata.co.jp> <03D5AF53EB24BF4193661EF0843D04DD073C1636@mtimail.mti.co.jp> Message-ID: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C94@MAILSV11.msg.nttdata.co.jp> 幸坂です。こんにちは。 状況が再現できました。 以下の条件で再現できるようです。 ・Ludiaのバージョンが1.1.0以前 ・「( 」 が含まれている ・インデックススキャンではなく、シーケンシャルスキャン Ludiaのシーケンシャルスキャンは、バージョン1.2.0で大幅に変更しました。 最新バージョンのLudiaを試してみて下さい。 PostgreSQLが落ちずに、正常に検索できるはずです。 また、シーケンシャルスキャンはインデックススキャンに比べて、 大幅に遅くなります。 EXPLAINを利用して、インデックススキャンの確認をおすすめします。 以上です。 > -----Original Message----- > From: ludia-users-bounces @ lists.sourceforge.jp > [mailto:ludia-users-bounces @ lists.sourceforge.jp] On Behalf Of 大野 朋克 > Sent: Friday, November 02, 2007 10:56 AM > To: ludia-users @ lists.sourceforge.jp > Subject: [Ludia-users 132] Re:特定文字の検索で PostgreSQLダウンします。 > > 大野です。 > > > APなどを使用せず直接「psql」で、上記のSQLを実行してもらえませんか? > > psql から実行しても、同じ状態でした。 > PostgreSQL が再起動し、コネクションが切断されます。 > > その他情報としては、 >  OS RHEL 5.0 update 5 (64bit) >  PostgreSQL ソースからコンパイルしました。 > > 他のカラムでも実施してみたところ、全文インデックスを貼っていない > 箇所でも同様にダウンしました。 > > 以下の カラムb には、b-tree インデックスを張ってあります。 > > select b from table1 where b like '%abc%' limit 1;  OK > select b from table1 where b @@ 'abc' limit1;  OK > > select b from table1 where b like '%(/%' limit 1;  OK > select b from table1 where b @@ '(/' limit1;  NG > > ですので、「@@」の時になにか問題があるようです。 > 同様な環境でも現象がでないということですので、もう少し調査して > みようと思います。 > > また、以下テーブルを作成した場合もダウンすることを確認しました。 > (全文インデックスを作成しなくてもダウン) > > > test=# CREATE TABLE tab1 (col TEXT); > > test=# INSERT INTO tab1 values('test'); > > test=# INSERT INTO tab1 values('(/'); > > test=# INSERT INTO tab1 values('/'); > > test=# INSERT INTO tab1 values('今日は晴天'); > > test=# SELECT * FROM tab1 WHERE col @@ '(/'; > > _______________________________________________ > Ludia-users mailing list > Ludia-users @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/ludia-users > From oono_t @ mti.co.jp Mon Nov 5 10:59:11 2007 From: oono_t @ mti.co.jp (=?iso-2022-jp?B?GyRCQmdMbhsoQiAbJEJKfjluGyhC?=) Date: Mon, 5 Nov 2007 10:59:11 +0900 Subject: [Ludia-users 134] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <03D5AF53EB24BF4193661EF0843D04DD0734943A@mtimail.mti.co.jp><178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C91@MAILSV11.msg.nttdata.co.jp><03D5AF53EB24BF4193661EF0843D04DD073C1636@mtimail.mti.co.jp> <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C94@MAILSV11.msg.nttdata.co.jp> Message-ID: <03D5AF53EB24BF4193661EF0843D04DD0748CAB0@mtimail.mti.co.jp> 大野です。 幸坂さん 状況の再現ありがとうございます。 Ludiaのバージョンアップで対応可能ということで、折を見て行いたいと思います。 > また、シーケンシャルスキャンはインデックススキャンに比べて、 > 大幅に遅くなります。 > EXPLAINを利用して、インデックススキャンの確認をおすすめします。 こちらも確認してみます。 ありがとうございました。 From s-wakagi @ is-visionary.com Wed Nov 21 10:51:35 2007 From: s-wakagi @ is-visionary.com (s-wakagi @ is-visionary.com) Date: Wed, 21 Nov 2007 10:51:35 +0900 Subject: [Ludia-users 135] =?iso-2022-jp?b?IFJlOhskQkZDRGpKODt6JE44ITp3JEcbKEIgUG9zdGdyZVNR?= =?iso-2022-jp?b?TBskQiVAJSYlcyQ3JF4kOSEjGyhC?= Message-ID: <41C82BE10C175Ds-wakagi@is-visionary.com> 本スレッドに関連するであろう現象が弊社でも発生致しましたのでご連絡致します。 弊社では以下のバージョンで検証を行ったところ、 以下のWARNINGがPostgreSQLのログに出続けるようになりました。 WARNING: pgsenna2: too many expressions 【検証環境】 PostgreSQL 8.2.4 Ludia 1.3.1 ※1.3.0の依存ライブラリ込みバージョンインストール後、  Ludiaのみアップデート mecab 0.96 mecab-ipadic 2.7.0-20070801 senna 1.0.8 弊社の状況としましては、 あるテーブルのフィールドに、通常のインデックスを作成し、 全文検索用のインデックスは作成していません。 そのフィールドに対して@@演算子を使用し 「')'」半角閉じ括弧を含む文字列で検索を行うと上記WARNINGが発生しました。 弊社検証でのポイントは以下の通りです。 ・半角閉じ括弧以降にも何か文字列を追加  ※全角閉じ括弧では同様の現象は発生しませんでした。 ・WARNINGは検索対象テーブルのレコード数分表示される。  ※WARNING出力中、PostgreSQLは高負荷状態になり、他の検索等影響があります。 例) CREATE TABLE table1 (col1 text, col2 varchar(128)); INSERT INTO table1 VALUES ('すもももももももものうち', 'あの壺はよいものだ'); INSERT INTO table1 VALUES ('ももから生まれた桃太郎', 'あの壷はよいものだ'); select * from ludia_test where col1 @@ 'もも(すもも)桃太郎'; (結果) WARNING: pgsenna2: too many expressions (9) WARNING: pgsenna2: too many expressions (9) col1 | col2 ------+------ (0 rows) 以上、宜しくお願い致します。 From kousakadi @ nttdata.co.jp Thu Nov 22 14:16:45 2007 From: kousakadi @ nttdata.co.jp (kousakadi @ nttdata.co.jp) Date: Thu, 22 Nov 2007 14:16:45 +0900 Subject: [Ludia-users 136] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= References: <41C82BE10C175Ds-wakagi@is-visionary.com> Message-ID: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE0@MAILSV11.msg.nttdata.co.jp> 幸坂です。こんにちは。 「()」はSennaの演算子となっています。 誤った「()」の使い方をした場合、 LudiaはWARNINGを出力します。 > ・WARNINGは検索対象テーブルのレコード数分表示される。 Ludia1.4.0で改善します。 レコード数分表示 → 1回表示 となります。 > 全文検索用のインデックスは作成していません。 全文検索インデックスを作成しない意図は何でしょうか? 全文検索インデックスを作成しないと、 Ludiaの意味がないと思うのですが・・・。 > -----Original Message----- > From: ludia-users-bounces @ lists.sourceforge.jp > [mailto:ludia-users-bounces @ lists.sourceforge.jp] On Behalf > Of s-wakagi @ is-visionary.com > Sent: Wednesday, November 21, 2007 10:52 AM > To: ludia-users @ lists.sourceforge.jp > Subject: [Ludia-users 135] Re:特定文字の検索で PostgreSQLダウンします。 > > 本スレッドに関連するであろう現象が弊社でも発生致しましたのでご連絡致しま す。 > > 弊社では以下のバージョンで検証を行ったところ、 > 以下のWARNINGがPostgreSQLのログに出続けるようになりました。 > WARNING: pgsenna2: too many expressions > > 【検証環境】 > PostgreSQL 8.2.4 > Ludia 1.3.1 > ※1.3.0の依存ライブラリ込みバージョンインストール後、 >  Ludiaのみアップデート > mecab 0.96 > mecab-ipadic 2.7.0-20070801 > senna 1.0.8 > > > 弊社の状況としましては、 > あるテーブルのフィールドに、通常のインデックスを作成し、 > 全文検索用のインデックスは作成していません。 > そのフィールドに対して@@演算子を使用し > 「')'」半角閉じ括弧を含む文字列で検索を行うと上記WARNINGが発生しました。 > > > 弊社検証でのポイントは以下の通りです。 > ・半角閉じ括弧以降にも何か文字列を追加 >  ※全角閉じ括弧では同様の現象は発生しませんでした。 > ・WARNINGは検索対象テーブルのレコード数分表示される。 >  ※WARNING出力中、PostgreSQLは高負荷状態になり、他の検索等影響がありま す。 > > 例) > CREATE TABLE table1 (col1 text, col2 varchar(128)); > INSERT INTO table1 VALUES ('すもももももももものうち', 'あの壺はよいものだ '); > INSERT INTO table1 VALUES ('ももから生まれた桃太郎', 'あの壷はよいものだ '); > select * from ludia_test where col1 @@ 'もも(すもも)桃太郎'; > > (結果) > WARNING: pgsenna2: too many expressions (9) > WARNING: pgsenna2: too many expressions (9) > col1 | col2 > ------+------ > (0 rows) > > > 以上、宜しくお願い致します。 > > _______________________________________________ > Ludia-users mailing list > Ludia-users @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/ludia-users > From s-wakagi @ is-visionary.com Thu Nov 22 15:14:52 2007 From: s-wakagi @ is-visionary.com (=?iso-2022-jp?B?GyRCPGNMWj8tQkAbKEI=?=) Date: Thu, 22 Nov 2007 15:14:52 +0900 Subject: [Ludia-users 137] Re: =?iso-2022-jp?b?GyRCRkNEako4O3okTjghOnckRxsoQiBQb3N0Z3JlU1FM?= =?iso-2022-jp?b?GyRCJUAlJiVzJDckXiQ5ISMbKEI=?= In-Reply-To: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE0@MAILSV11.msg.nttdata.co.jp> References: <41C82BE10C175Ds-wakagi@is-visionary.com> <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE0@MAILSV11.msg.nttdata.co.jp> Message-ID: <46C82CCEFEB3C3s-wakagi@is-visionary.com> 幸坂さん お世話になっております。 >Ludia1.4.0で改善します。 >レコード数分表示 → 1回表示 >となります。 上記の件、了解致しました。 Ludia1.4.0のリリースをお待ちしております。 >全文検索インデックスを作成しない意図は何でしょうか? >全文検索インデックスを作成しないと、 >Ludiaの意味がないと思うのですが・・・。 当初、対象テーブルに全文検索インデックスを作成していたのですが、 インデックスを作成しない方が実行計画の成績が良かった為、 対象テーブルでは全文検索のインデックスを作成しないように致しました。 但し、検索するSQLで英数字やカタカナなどの正規化を@@演算子で行う方が PostgreSQLの関数や正規表現等を使用するより、実行計画の成績が良かった為、 今回の対象テーブルに対する検索SQLでは@@演算子のみ使用することに致しました。。。 >幸坂です。こんにちは。 > >「()」はSennaの演算子となっています。 >誤った「()」の使い方をした場合、 >LudiaはWARNINGを出力します。 > >> ・WARNINGは検索対象テーブルのレコード数分表示される。 >Ludia1.4.0で改善します。 >レコード数分表示 → 1回表示 >となります。 > >> 全文検索用のインデックスは作成していません。 >全文検索インデックスを作成しない意図は何でしょうか? >全文検索インデックスを作成しないと、 >Ludiaの意味がないと思うのですが・・・。 > > >_______________________________________________ >Ludia-users mailing list >Ludia-users @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/ludia-users From tanakasns @ nttdata.co.jp Mon Nov 26 11:37:23 2007 From: tanakasns @ nttdata.co.jp (Shunsuke Tanaka) Date: Mon, 26 Nov 2007 11:37:23 +0900 (LMT) Subject: [Ludia-users 138] Re: =?iso-2022-jp?b?GyRCN0FCVkFHJSQlcyVHJUMlLyU5JEdFakZ+JEsbKEIx?= =?iso-2022-jp?b?GyRCSUMwSj5lJCskKyRqJF4kORsoQg==?= In-Reply-To: <20071029.152451.60853603.tanakasns@nttdata.co.jp> References: <20071018.143605.01365955.tanakasns@nttdata.co.jp> <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C76@MAILSV11.msg.nttdata.co.jp> <20071029.152451.60853603.tanakasns@nttdata.co.jp> Message-ID: <20071126.113723.01366472.tanakasns@nttdata.co.jp> 田中です。 投入の試験に時間がかかってしまい、 久しぶりの投稿になってしました。すみません。 Linuxカーネルを新しいものにした結果、 形態素インデックスで80万件投入したところで、 以下のエラーが出て投入できなくなるようになりました。 LOG: pgsenna2: |A| mmap(361496576,40,0)=(null) <5705665> LOG: pgsenna2: |A| io_win_map(45053, 361262397) failed!! ERROR: pgsenna2: sen_index_update failed 1,0 投入できなくなったとき、一番メモリを使っていた postgres: postgres ludiatestdb [local] INSERT というプロセスのメモリ使用量は以下の通りでした。 VSZ 1457004 RSS 681952 postgresql.confの設定は以下の通りです。 shared_buffers = 24MB ludia.initial_n_segments = 2048 ソフトウェアのバージョンは以下の通りです。 Ludia 1.3.1 Senna 1.0.9 mecab 0.96 mecab-ipadic 2.7.0 20070801 PostgreSQL 8.2.4 Fedora Core 2 (32bit版) Linux Kernel 2.6.23.1 使用したハードウェアは以下の通りです。 Dell Precision 470 CPU: Xeon 2.8GHz × 2 Memory: 2Gbyte HDD: SATA 400Gbyte 7200rpm なお、shared_buffers = 512MB でもやってみたのですが、 40万件投入したところでOSがハングアップしました。 今までのメールを読んで、できることはしましたが、 まだ何か可能性がある方法がありましたら、ご意見をお願いします。 From kousakadi @ nttdata.co.jp Mon Nov 26 13:48:25 2007 From: kousakadi @ nttdata.co.jp (kousakadi @ nttdata.co.jp) Date: Mon, 26 Nov 2007 13:48:25 +0900 Subject: [Ludia-users 139] Re: =?iso-2022-jp?b?GyRCN0FCVkFHJSQlcyVHJUMlLyU5JEdFakZ+JEsbKEIx?= =?iso-2022-jp?b?GyRCSUMwSj5lJCskKyRqJF4kORsoQg==?= References: <20071018.143605.01365955.tanakasns@nttdata.co.jp><178CD7FD87EF4B4BB23F3D0B6C201D3F02B71C76@MAILSV11.msg.nttdata.co.jp><20071029.152451.60853603.tanakasns@nttdata.co.jp> <20071126.113723.01366472.tanakasns@nttdata.co.jp> Message-ID: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE4@MAILSV11.msg.nttdata.co.jp> 幸坂です。こんにちは。 メモリ不足のようですね。 > VSZ 1457004 プロセスが確保しているメモリは1,457,004[Kbyte] > LOG: pgsenna2: |A| mmap(361496576,40,0)=(null) <5705665> そして、Sennaが内部処理の際に、 一時的に使用するメモリが、361,496,576[byte] これで1,853,468,672[byte]になります。 今回は、メモリ使用量取得のタイミングで2Gbyteを下回っていますが、 エラーの瞬間は2Gbyteになっていると思われます。 > なお、shared_buffers = 512MB でもやってみたのですが、 PostgreSQLが多くメモリを消費するため、 80万件より少ない40万件でエラーとなります。 過去の田中さんのメールを見ると、 > 10万件くらいになると10GBは超える可能性があるので とあります。 80万件の場合、EUC-JPのテキストで80Gbyte程度でしょうか? > まだ何か可能性がある方法がありましたら、ご意見をお願いします。 パーティション化、64bitマシンなどの方法が良いと思われます。 パーティション化すると、投入時間の短縮というメリットもあります。 > -----Original Message----- > From: ludia-users-bounces @ lists.sourceforge.jp > [mailto:ludia-users-bounces @ lists.sourceforge.jp] On Behalf > Of Shunsuke Tanaka > Sent: Monday, November 26, 2007 11:37 AM > To: ludia-users @ lists.sourceforge.jp > Subject: [Ludia-users 138] Re: 形態素インデックスで投入に1秒以上かかります > > 田中です。 > > 投入の試験に時間がかかってしまい、 > 久しぶりの投稿になってしました。すみません。 > > Linuxカーネルを新しいものにした結果、 > 形態素インデックスで80万件投入したところで、 > 以下のエラーが出て投入できなくなるようになりました。 > > LOG: pgsenna2: |A| mmap(361496576,40,0)=(null) <5705665> > LOG: pgsenna2: |A| io_win_map(45053, 361262397) failed!! > ERROR: pgsenna2: sen_index_update failed 1,0 > > 投入できなくなったとき、一番メモリを使っていた > postgres: postgres ludiatestdb [local] INSERT > というプロセスのメモリ使用量は以下の通りでした。 > VSZ 1457004 > RSS 681952 > > postgresql.confの設定は以下の通りです。 > shared_buffers = 24MB > ludia.initial_n_segments = 2048 > > ソフトウェアのバージョンは以下の通りです。 > Ludia 1.3.1 > Senna 1.0.9 > mecab 0.96 > mecab-ipadic 2.7.0 20070801 > PostgreSQL 8.2.4 > Fedora Core 2 (32bit版) > Linux Kernel 2.6.23.1 > > 使用したハードウェアは以下の通りです。 > Dell Precision 470 > CPU: Xeon 2.8GHz × 2 > Memory: 2Gbyte > HDD: SATA 400Gbyte 7200rpm > > > なお、shared_buffers = 512MB でもやってみたのですが、 > 40万件投入したところでOSがハングアップしました。 > > > 今までのメールを読んで、できることはしましたが、 > まだ何か可能性がある方法がありましたら、ご意見をお願いします。 > > _______________________________________________ > Ludia-users mailing list > Ludia-users @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/ludia-users > From tanakasns @ nttdata.co.jp Tue Nov 27 09:52:04 2007 From: tanakasns @ nttdata.co.jp (Shunsuke Tanaka) Date: Tue, 27 Nov 2007 09:52:04 +0900 (LMT) Subject: [Ludia-users 140] Re: =?iso-2022-jp?b?GyRCN0FCVkFHJSQlcyVHJUMlLyU5JEdFakZ+JEsbKEIx?= =?iso-2022-jp?b?GyRCSUMwSj5lJCskKyRqJF4kORsoQg==?= In-Reply-To: <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE4@MAILSV11.msg.nttdata.co.jp> References: <20071029.152451.60853603.tanakasns@nttdata.co.jp> <20071126.113723.01366472.tanakasns@nttdata.co.jp> <178CD7FD87EF4B4BB23F3D0B6C201D3F02B71CE4@MAILSV11.msg.nttdata.co.jp> Message-ID: <20071127.095204.01366340.tanakasns@nttdata.co.jp> 田中です。 返信ありがとうございます。 > メモリ不足のようですね。 やはりそうですか。 > 過去の田中さんのメールを見ると、 > > 10万件くらいになると10GBは超える可能性があるので > とあります。 > 80万件の場合、EUC-JPのテキストで80Gbyte程度でしょうか? 投入するデータのバイト数を調べるプログラムを作って調べたところ、 80万件のEUC-JPのテキストは23Gbyteでした。 データの平均値は思ったほど大きくありませんでした。 > > まだ何か可能性がある方法がありましたら、ご意見をお願いします。 > パーティション化、64bitマシンなどの方法が良いと思われます。 > パーティション化すると、投入時間の短縮というメリットもあります。 ご意見ありがとうございます。 パーティション化または64bitマシンにするようにします。 ご意見をくださった皆様、どうもありがとうございました。