Archive for September, 2009
Semantic Tagging
Semantic Tagging kurz und anschaulich erklärt:
http://www.vimeo.com/1365643Bings Ansatz zur semantischen Suche
Apache-Beispielkonfiguration für SSL + Trac + Subversion
Ich habe heute ein kleines Entwicklungssystem mit Trac und Subversion aufgesetzt und möchte das dokumentieren, da die Anpassung der Apache-Direktiven kein Spass ist. Der Schwerpunkt liegt wirklich auf der Apache Konfiguration, da es für die Installation von Apache2, Trac und Subversion sehr gute Tutorials gibt.
Der Zugriff auf Trac und SVN soll über https laufen und passwortgeschützt sein. Der Einhachheit wegen habe ich nur eine htpasswd erzeugt, welche sowohl von Trac, als auch von SVN benutzt werden und die auch dazu dient, die Webseiten zu schützen die später über Port 80 abrufbar sind (also, alles was in /var/www liegt).
Apache installieren (siehe http://www.howtoforge.com/perfect-server-ubuntu-9.04-ispconfig-2-p6) :
sudo apt-get install apache2 apache2-doc apache2-mpm-prefork apache2-utils apache2-suexec libexpat1 ssl-cert
Dann PHP5, Ruby, and Python als Apache-Module installieren:
sudo apt-get install libapache2-mod-php5 libapache2-mod-ruby libapache2-mod-python php5 php5-common php5-curl php5-dev php5-gd php5-idn php-pear php5-imagick php5-imap php5-mcrypt php5-memcache php5-mhash php5-ming php5-mysql php5-pspell php5-recode php5-snmp php5-sqlite php5-tidy php5-xmlrpc php5-xsl
Die /etc/apache2/mods-available/dir.conf anpassen:
vi /etc/apache2/mods-available/dir.conf
und diesen Abschnitt editieren:
#DirectoryIndex index.html index.cgi index.pl index.php index.xhtml index.htm DirectoryIndex index.html index.htm index.shtml index.cgi index.php index.php3 index.pl index.xhtmlTrac installieren: http://trac.edgewall.org/wiki/0.11/TracOnUbuntu
Selbst-signierte SSL Zertifikate erzeugen:
sudo openssl genrsa -out ./server.key 1024
sudo openssl req -new -key ./server.key -out ./server.csr
sudo openssl x509 -req -days 10000 -in ./server.csr -signkey ./server.key -out ./server.crt
Apache Direktiven anpassen (die AllowOverride AuthConfig ist wichtig, wenn man später auf .htaccess-Dateien in den Foldern verzichten möchte):
NameVirtualHost *:443
NameVirtualHost *:80
<VirtualHost *:80>
ServerName localhost
DocumentRoot /var/www/
<Directory />
Options FollowSymLinks
AllowOverride None
</Directory>
<Directory /var/www/>
Options Indexes FollowSymLinks MultiViews
AllowOverride AuthConfig
Order allow,deny
allow from all
AuthType Basic
AuthName “non-ssl websites”
AuthUserFile /etc/svn/.myprojects.passwd
Require valid-user
</Directory>
ErrorLog /var/log/apache2/error.log
LogLevel warn
CustomLog /var/log/apache2/access.log combined
ServerSignature Off
</VirtualHost>
#<VirtualHost *:80>
#ServerName potentieller zweiter VHost
#DocumentRoot /www/potentieller_zweiter_vhost
#</VirtualHost>
<VirtualHost *:443>
ServerAdmin webmaster@localhost
ServerName localhost
#DocumentRoot /var/www
ErrorLog /var/log/apache2/error.trac.log
CustomLog /var/log/apache2/access.trac.log combined
<Location /projects>
SetHandler mod_python
PythonInterpreter main_interpreter
PythonHandler trac.web.modpython_frontend
PythonOption TracEnvParentDir /var/lib/trac
PythonOption TracUriRoot /projects
PythonOption PYTHON_EGG_CACHE /tmp
</Location>
<Location /svn>
DAV svn
SVNPath /var/lib/svn/myprojects
AuthType Basic
AuthName “Subversion Repository”
AuthUserFile /etc/svn/.myprojects.passwd
Require valid-user
</Location>
# use the following for one authorization for all projects
# (names containing “-” are not detected):
<LocationMatch “/projects/[[:alnum:]]+/login”>
AuthType Basic
AuthName “trac”
AuthUserFile /etc/svn/.myprojects.passwd
Require valid-user
</LocationMatch>
# Enable/Disable SSL for this virtual host.
SSLEngine on
# A self-signed (snakeoil) certificate can be created by installing
# the ssl-cert package. See
# /usr/share/doc/apache2.2-common/README.Debian.gz for more info.
# If both key and certificate are stored in the same file, only the
# SSLCertificateFile directive is needed.
SSLCertificateFile /etc/apache2/ssl/server.crt
SSLCertificateKeyFile /etc/apache2/ssl/server.key
# Server Certificate Chain:
# Point SSLCertificateChainFile at a file containing the
# concatenation of PEM encoded CA certificates which form the
# certificate chain for the server certificate. Alternatively
# the referenced file can be the same as SSLCertificateFile
# when the CA certificates are directly appended to the server
# certificate for convinience.
#SSLCertificateChainFile /etc/apache2/ssl.crt/server-ca.crt
# Certificate Authority (CA):
# Set the CA certificate verification path where to find CA
# certificates for client authentication or alternatively one
# huge file containing all of them (file must be PEM encoded)
# Note: Inside SSLCACertificatePath you need hash symlinks
# to point to the certificate files. Use the provided
# Makefile to update the hash symlinks after changes.
#SSLCACertificatePath /etc/ssl/certs/
#SSLCACertificateFile /etc/apache2/ssl.crt/ca-bundle.crt
# Certificate Revocation Lists (CRL):
# Set the CA revocation path where to find CA CRLs for client
# authentication or alternatively one huge file containing all
# of them (file must be PEM encoded)
# Note: Inside SSLCARevocationPath you need hash symlinks
# to point to the certificate files. Use the provided
# Makefile to update the hash symlinks after changes.
#SSLCARevocationPath /etc/apache2/ssl.crl/
#SSLCARevocationFile /etc/apache2/ssl.crl/ca-bundle.crl
# Client Authentication (Type):
# Client certificate verification type and depth. Types are
# none, optional, require and optional_no_ca. Depth is a
# number which specifies how deeply to verify the certificate
# issuer chain before deciding the certificate is not valid.
#SSLVerifyClient require
#SSLVerifyDepth 10
# Access Control:
# With SSLRequire you can do per-directory access control based
# on arbitrary complex boolean expressions containing server
# variable checks and other lookup directives. The syntax is a
# mixture between C and Perl. See the mod_ssl documentation
# for more details.
#<Location />
#SSLRequire ( %{SSL_CIPHER} !~ m/^(EXP|NULL)/ \
# and %{SSL_CLIENT_S_DN_O} eq “Snake Oil, Ltd.” \
# and %{SSL_CLIENT_S_DN_OU} in {“Staff”, “CA”, “Dev”} \
# and %{TIME_WDAY} >= 1 and %{TIME_WDAY} <= 5 \
# and %{TIME_HOUR} >= 8 and %{TIME_HOUR} <= 20 ) \
# or %{REMOTE_ADDR} =~ m/^192\.76\.162\.[0-9]+$/
#</Location>
# SSL Engine Options:
# Set various options for the SSL engine.
# o FakeBasicAuth:
# Translate the client X.509 into a Basic Authorisation. This means that
# the standard Auth/DBMAuth methods can be used for access control. The
# user name is the `one line’ version of the client’s X.509 certificate.
# Note that no password is obtained from the user. Every entry in the user
# file needs this password: `xxj31ZMTZzkVA’.
# o ExportCertData:
# This exports two additional environment variables: SSL_CLIENT_CERT and
# SSL_SERVER_CERT. These contain the PEM-encoded certificates of the
# server (always existing) and the client (only existing when client
# authentication is used). This can be used to import the certificates
# into CGI scripts.
# o StdEnvVars:
# This exports the standard SSL/TLS related `SSL_*’ environment variables.
# Per default this exportation is switched off for performance reasons,
# because the extraction step is an expensive operation and is usually
# useless for serving static content. So one usually enables the
# exportation for CGI and SSI requests only.
# o StrictRequire:
# This denies access when “SSLRequireSSL” or “SSLRequire” applied even
# under a “Satisfy any” situation, i.e. when it applies access is denied
# and no other module can change it.
# o OptRenegotiate:
# This enables optimized SSL connection renegotiation handling when SSL
# directives are used in per-directory context.
#SSLOptions +FakeBasicAuth +ExportCertData +StrictRequire
<FilesMatch “\.(cgi|shtml|phtml|php)$”>
SSLOptions +StdEnvVars
</FilesMatch>
<Directory /usr/lib/cgi-bin>
SSLOptions +StdEnvVars
</Directory>
# SSL Protocol Adjustments:
# The safe and default but still SSL/TLS standard compliant shutdown
# approach is that mod_ssl sends the close notify alert but doesn’t wait for
# the close notify alert from client. When you need a different shutdown
# approach you can use one of the following variables:
# o ssl-unclean-shutdown:
# This forces an unclean shutdown when the connection is closed, i.e. no
# SSL close notify alert is send or allowed to received. This violates
# the SSL/TLS standard but is needed for some brain-dead browsers. Use
# this when you receive I/O errors because of the standard approach where
# mod_ssl sends the close notify alert.
# o ssl-accurate-shutdown:
# This forces an accurate shutdown when the connection is closed, i.e. a
# SSL close notify alert is send and mod_ssl waits for the close notify
# alert of the client. This is 100% SSL/TLS standard compliant, but in
# practice often causes hanging connections with brain-dead browsers. Use
# this only for browsers where you know that their SSL implementation
# works correctly.
# Notice: Most problems of broken clients are also related to the HTTP
# keep-alive facility, so you usually additionally want to disable
# keep-alive for those clients, too. Use variable “nokeepalive” for this.
# Similarly, one has to force some clients to use HTTP/1.0 to workaround
# their broken HTTP/1.1 implementation. Use variables “downgrade-1.0″ and
# “force-response-1.0″ for this.
BrowserMatch “.*MSIE.*” \
nokeepalive ssl-unclean-shutdown \
downgrade-1.0 force-response-1.0
ServerSignature Off
</VirtualHost>
RDB2RDF – Abbildung relationaler Daten und Datenbankschemata auf RDF und OWL
Mit der RDB2RDF Working Group des W3C wurde ein Team aufgestellt, dessen Aufgabe es ist, eine Sprache für die Abbildung von relationalen Daten
und relationalen Datenbank-Schemata in RDF und OWL zu standardisieren. Es soll eine neue Sprache entwickelt werden, welche RDB2RDF-Mapping-Sprache (R2RML) genannt wird.
Diese Sprache ist nur eine von vielen, die mit dem Begriff Semantic Web verknüpft sind. Die Schaffung der Arbeitsgruppe basiert auf der Arbeit einer früheren W3C Incubator Group in diesem Bereich.
Die Kartierung von relationalen Daten für das Semantic Web stößt auf zunehmendes Interesse. Hierbei werden relationale Daten auf andere Formate abgebildet, transformiert oder mit anderen Daten kombiniert,
um die unternehmensweite Datenintegration mit Semantik zu versehen.
Sphinx als PHP-Modul einbinden
Sphinx als PHP-Modul zu erzeugen ist wichtig, um auf die Sphinx-API über PHP-Methoden zugreifen zu können.
So wirds gemacht :
tar -xzvf sphinx-0.9.8.1.tar.gz
cd sphinx-0.9.8.1/api/libsphinxclient/
./configure && make install
Danach kann PECL benutzt werden, um das PHP-Modul zu erstellen:
pecl install sphinx-beta
Bei der Version 0.9.9 gab es zumindest bei mir einen Fehler beim Kompilieren.
Im Sphinx-Forum gibt es einen Tipp dazu:
Here are the commands I used to install libsphinxclient and before this I successful
installed sphinx:
cd /path/to/sphinx/src/api/libsphinxclient/
sudo sh /path/to/sphinx/src/api/libsphinxclient/.buildconf.sh
sudo ./configure
sudo make
sudo make install
But when I used “sudo make” I got this error:
sphinxclient.c:1216: error: static declaration of ‘sock_close’ follows non-static
declaration
sphinxclient.c:280: note: previous declaration of ‘sock_close’ was here
So I checked the file.
On line: 280
void sock_close ( int sock );
On line: 1216
static void sock_close ( int sock )
{
#if _WIN32
closesocket ( sock );
#else
close ( sock );
#endif
}
I changed the line 280 to:
static void sock_close ( int sock );
Das hat den Fehler bei mir beseitigt. Nun muss nur noch nach der Modul-Erstellung mit PECL unter etc/php5/apache2/php.ini
folgender Eintrag eingefügt werden:
[sphinx]
extension=sphinx.so
Das wars. Nach einem Neustart des Apache-Servers kann nun die PHP-API für Sphinx benutzt werden.
phpinfo() sollte nach der Installation diesen Eintrag aufweisen:
sphinx
sphinx support enabled
Version 1.0.3
Revision $Revision: 292826 $
Wer neben der PHP-API auch SphinxSE (also die Sphinx-Engine für MySQL) verwenden möchte, dem sei dieser Artikel ans Herz gelegt.
Unter sorgalla.com wird auch beschrieben, wie SphinxSE mit dem Zend Framework integriert werden kann. Feine Sache!

Linux: Größe der History anpassen
Der ‘history’-Befehl unter Linux ist immer wieder nützlich um nachzusehen, was man früher in der Konsole eingegeben wurde. Standardmäßig ist die Historygröße in Ubuntu mit 500 Einträgen etwas knapp bemessen:
Doch das läßt sich leicht ändern:
vim /etc/profile
HISTSIZE=5000
. /etc/profile
Google Wave Developer Preview
Latente semantische Indexierung – Ist der Aufwand gerechtfertigt?
Latente Semantische Indexierung (LSI) bereitet vielen Webmastern Kopfschmerzen. Ist es den Aufwand wert, den Content über thematisch passende Wörter zu klassifizieren? Macht das einen Unterschied? Ich habe ein schönes Video gefunden, dessen Autoren beweisen wollen, dass die Benutzung von LSI einen dramatischen Unterschied macht:









